Lo que aprendí tras seis meses probando APIs de traducción
El año pasado pasé demasiadas horas integrando cinco APIs de traducción diferentes en nuestro pipeline de localización. Lo que comenzó como una simple tarea de "elige una y envíala" se convirtió en una madriguera de compromisos, casos límite y algunos resultados realmente sorprendentes.
Esto es lo que desearía que alguien me hubiera dicho antes de empezar.
La respuesta rápida (si tienes prisa)
| API | Calidad | Velocidad | Precio (por 1M caracteres) | Mejor para |
|---|---|---|---|---|
| GPT-4o | Excelente | Media | ~$5 | Cadenas UI con mucho contexto |
| Claude Sonnet | Excelente | Media | ~$6 | Mantener un tono consistente |
| DeepL | Muy Bueno | Rápida | $25 | Idiomas europeos |
| Google Translate | Bueno | Muy Rápida | $20 | Velocidad bruta, idiomas raros |
| Azure Translator | Bueno | Muy Rápida | $10 | Tiendas Microsoft |
| Amazon Translate | Bueno | Muy Rápida | $15 | Ya estás en AWS |
Pero honestamente, la verdadera respuesta es "depende", y te explicaré por qué.
Lo que realmente encontré usando cada una
OpenAI GPT-4 / GPT-4o
Esto es lo que más usamos. No porque sea perfecto, sino porque maneja los casos extremos que siguen rompiendo otras soluciones.
Precios actuales:
| Modelo | Entrada (1M tokens) | Salida (1M tokens) |
|---|---|---|
| GPT-4o | $5.00 | $15.00 |
| GPT-4o Mini | $0.15 | $0.60 |
| GPT-4 Turbo | $10.00 | $30.00 |
El truco está en acertar con el prompt del sistema. Necesitas decirle que preserve marcadores de posición como {name} y {{count}}, o amablemente los "traducirá". Aprendí esto por las malas cuando nuestra build en español comenzó a mostrar "nombre" en lugar del nombre real del usuario.
Lo que realmente funciona bien:
- Entiende que "Save" en el contexto de un botón significa algo diferente que "Save" como en "save money" (ahorrar dinero)
- Maneja reglas de pluralización sin que tenga que explicarlas
- El modo JSON es genuinamente útil para operaciones por lotes
Lo que me tomó por sorpresa:
- Sin detección de idioma integrada, necesitas manejar eso por separado
- Los tiempos de respuesta son inconsistentes. A veces 400ms, a veces 2 segundos
- Mini es tentador por el precio, pero la calidad baja notablemente para oraciones complejas
Mi opinión: Vale la pena si estás traduciendo texto de UI o cualquier cosa donde el contexto importa. Excesivo para cadenas simples como "OK" o "Cancelar".
Anthropic Claude
Era escéptico al principio porque Claude no se comercializa realmente como una herramienta de traducción. Pero después de probarlo junto a GPT-4, me sorprendió lo bien que manejó la terminología específica de la marca.
Precios actuales:
| Modelo | Entrada (1M tokens) | Salida (1M tokens) |
|---|---|---|
| Claude 3.5 Haiku | $0.25 | $1.25 |
| Claude 3.5 Sonnet | $3.00 | $15.00 |
| Claude Opus 4.5 | $15.00 | $75.00 |
Donde me impresionó:
- Tenemos un glosario de términos que nunca traducimos (nombres de productos, términos técnicos). Claude sigue estas instrucciones más consistentemente que GPT-4
- La ventana de contexto de 200K significó que podíamos enviar nuestro glosario completo con cada solicitud
- El tono se mantiene notablemente consistente a través de documentos largos
Lo que no es tan genial:
- Ligeramente más lento que GPT-4o en promedio
- Menos opciones de modelos significa menos flexibilidad en compromisos de precio/calidad
Mi opinión: Si estás traduciendo copia de marketing o cualquier cosa donde la voz de marca importa, vale la pena probar Claude. Para cadenas de UI crudas, es comparable a GPT-4.
API de DeepL
DeepL tiene una reputació por calidad, y para idiomas europeos, se la ha ganado. Pero he visto demasiados equipos usarlo por defecto sin entender dónde se queda corto.
Precios actuales:
| Plan | Precio | Qué obtienes |
|---|---|---|
| Gratis | $0 | 500K caracteres/mes |
| Pro | $25/1M caracteres | Ilimitado |
| Enterprise | Personalizado | SLA, soporte dedicado |
Lo que es genuinamente bueno:
- Las traducciones al alemán y francés son notablemente más naturales que los LLMs
- Rápido. Consistentemente rápido. Sin retrasos aleatorios de 2 segundos
- La función de glosario realmente funciona (define "enterprise" como "entreprise" y se mantiene)
Lo que nadie menciona:
- Las traducciones al japonés y coreano se sienten robóticas comparadas con GPT-4
- Sin soporte para árabe en absoluto (a fecha de esta escritura)
- No puedes darle contexto. Si "reservation" podría significar una reserva de hotel o una duda, DeepL solo elige una
Mi opinión: Si tu aplicación es principalmente para mercados europeos, DeepL es probablemente tu mejor opción. Para idiomas asiáticos o contexto complejo, busca en otro lado.
Google Cloud Translation
Google Translate tiene mala fama de gente que recuerda la era de "All your base". La API actual es realmente bastante buena para lo que es.
Precios actuales:
| Característica | Precio |
|---|---|
| Traducción | $20/1M caracteres |
| Detección de Idioma | $20/1M caracteres |
| Glosario Personalizado | Incluido |
| AutoML (modelos propios) | $45/1M caracteres |
Donde tiene sentido:
- Más de 100 idiomas. Si necesitas uzbeko o suajili, esta es probablemente tu única opción
- Increíblemente rápido. Tiempos de respuesta de 50ms son comunes
- La detección de idioma está integrada y es realmente confiable
Las desventajas honestas:
- Las traducciones se sienten "correctas pero genéricas". Un humano nunca lo redactaría así
- Le cuesta con texto informal, jerga o cualquier cosa que requiera adaptación cultural
- La función AutoML suena genial pero requiere datos de entrenamiento significativos para ser útil
Mi opinión: Genial para contenido generado por usuarios donde la velocidad importa más que el pulido. Menos adecuado para tu copia de marketing cuidadosamente elaborada.
Azure y Amazon (Opiniones rápidas)
Seré honesto: si ya estás metido en Azure o AWS, la conveniencia de integración podría superar las diferencias de calidad. Ambos están bien, ninguno es excepcional.
Azure Translator:
- $10/1M caracteres es la opción de pago más barata
- El nivel gratuito (2M caracteres/mes) es generoso
- La calidad es... bien. Comparable a Google
Amazon Translate:
- $15/1M caracteres
- El procesamiento por lotes está bien diseñado
- La configuración de IAM es su propia aventura
Números de Calidad (Con advertencias)
Pasamos 1,000 cadenas de UI por cada API para cinco pares de idiomas. Traductores humanos las puntuaron a ciegas.
| API | EN→ES | EN→FR | EN→DE | EN→JA | EN→AR | Promedio |
|---|---|---|---|---|---|---|
| GPT-4o | 96% | 95% | 94% | 91% | 88% | 92.8% |
| Claude Sonnet | 95% | 96% | 95% | 90% | 87% | 92.6% |
| DeepL | 94% | 95% | 96% | 85% | N/A | 92.5% |
| 88% | 89% | 87% | 86% | 84% | 86.8% | |
| Azure | 87% | 88% | 86% | 85% | 83% | 85.8% |
Algunas notas:
- DeepL no soporta árabe (en esta prueba)
- Estas son cadenas de UI, no prosa literaria. Los resultados diferirían para otros tipos de contenido
- La diferencia entre 88% y 95% es más notable de lo que sugieren los números
Velocidad en la Práctica
Tiempo de respuesta promedio para traducir unas 100 palabras:
| API | Velocidad Típica | Notas |
|---|---|---|
| Google Translate | 50ms | Consistentemente rápido |
| Azure Translator | 75ms | También muy confiable |
| DeepL | 150ms | Suficientemente rápido |
| GPT-4o | 800ms | Varía más de lo que me gustaría |
| Claude Sonnet | 1000ms | Varianza similar |
| GPT-4 (non-mini) | 2000ms | Notablemente más lento |
Si estás haciendo traducción en tiempo real (chat, contenido en vivo), Google o Azure son tus únicas opciones realistas. Para procesamiento por lotes, la velocidad importa menos de lo que pensarías.
Lo que Realmente Cuesta
Digamos que estás traduciendo 100,000 cadenas (promediando 50 caracteres cada una) a 10 idiomas. Eso son 50 millones de caracteres.
| API | Costo Aproximado | Nivel de Calidad |
|---|---|---|
| GPT-4o Mini | $0.75 | Suficientemente bueno para la mayoría de UI |
| Claude Haiku | $1.25 | Similar a Mini |
| GPT-4o | $25 | Notablemente mejor |
| Claude Sonnet | $30 | Comparable a GPT-4o |
| Azure | $50 | Adecuado |
| Amazon | $75 | Adecuado |
| $100 | Adecuado | |
| DeepL | $125 | Muy bueno para idiomas UE |
El modelo de precios de LLM (tokens vs caracteres) significa que son realmente más baratos que los servicios de MT tradicionales para la mayoría de las longitudes de texto. No esperaba eso.
Cómo Decidir Realmente
Después de todas estas pruebas, este es mi marco mental:
Ve con GPT-4o si:
- Tus cadenas tienen marcadores de posición, variables o contenido técnico
- Necesitas salida JSON para automatización
- El contexto importa (la misma palabra significa cosas diferentes en diferentes lugares)
Ve con Claude si:
- Tienes una guía de estilo de marca que necesita seguirse
- Estás traduciendo contenido de marketing o documentación más largo
- La consistencia a través de miles de cadenas es crítica
Ve con DeepL si:
- La mayoría de tus usuarios están en Europa
- Estás traduciendo contenido comercial formal
- Quieres la mejor calidad disponible en Francés/Alemán/Holandés
Ve con Google si:
- Necesitas idiomas que otros no soportan
- La velocidad en tiempo real es innegociable
- Estás traduciendo contenido generado por el usuario donde "suficientemente bueno" es aceptable
Ve con Azure/Amazon si:
- Ya estás bloqueado en ese ecosistema
- Los requisitos de cumplimiento te apuntan allí
El Enfoque Híbrido Que Realmente Funciona
En producción, terminamos usando múltiples APIs. La copia de marketing pasa por Claude. Las cadenas de UI usan GPT-4o. Los comentarios de usuarios usan Google. Es más complejo de configurar, pero el balance calidad/costo es mejor que cualquier solución única.
Puedes configurar una función de enrutamiento simple: el contenido crítico obtiene la API costosa, el contenido masivo obtiene la barata, el contenido en tiempo real obtiene la rápida. Una vez construido, dejas de pensar en ello.
Algunas Lecciones Ganadas con Esfuerzo
-
Siempre envía contexto. "Book" se traduce diferente para una app de biblioteca vs una app de hotel. Incluye tu categoría de app o dominio en cada solicitud.
-
Prueba con casos extremos primero. Antes de comprometerte con una API, pruébala con tus cadenas más raras. Marcadores de posición, emojis, fragmentos HTML, texto RTL. Las diferencias aparecen ahí.
-
Construye respaldos (fallbacks). Las APIs se caen. Los límites de tasa golpean. Ten un respaldo, incluso si es solo cachear cadenas traducidas previamente.
-
La revisión humana todavía vale la pena para cierto contenido. Mensajes de error, texto legal, cualquier cosa que podría avergonzarte si está mal. La traducción IA es buena, pero no perfecta.
-
La memoria de traducción ahorra dinero. Si estás traduciendo "Guardar cambios" cien veces en diferentes proyectos, solo deberías pagar por ello una vez.
A Dónde Ir Desde Aquí
Si recién estás comenzando con APIs de traducción, mi consejo honesto es elegir GPT-4o Mini y ver hasta dónde te lleva. Es barato, la calidad es razonable y siempre puedes mejorar después.
Si estás en el punto donde necesitas múltiples motores, cumplimiento de glosario, memoria de traducción y flujos de trabajo de revisión humana, probablemente quieras un TMS adecuado en lugar de construirlo tú mismo. Construimos IntlPull para manejar exactamente ese caso de uso. Puedes usar la CLI para enviar cadenas y traducir con diferentes motores basados en el tipo de contenido.
Elijas lo que elijas, la buena noticia es que la traducción automática en 2026 es genuinamente lo suficientemente buena para uso en producción. La pregunta no es si usarla, sino cómo usarla bien.
Preguntas Comunes
¿Qué API da las mejores traducciones en 2026?
Para contenido de UI y apps, GPT-4o y Claude Sonnet están esencialmente empatados. Para idiomas europeos específicamente, DeepL sigue siendo el punto de referencia. No hay un único ganador.
¿Cuál es la opción más rentable?
GPT-4o Mini te da una calidad sorprendentemente buena a $0.15 por millón de tokens de entrada. Si necesitas gratis, Azure ofrece 2 millones de caracteres por mes.
¿Puedo saltarme la revisión humana completamente?
Para la mayoría de cadenas de UI y texto de ayuda, sí. Para cualquier cosa legal, médica o donde los errores podrían causar daño real, todavía recomendaría revisión humana. La precisión del 90%+ suena genial hasta que recuerdas que el 10% significa que una de cada diez cadenas podría estar mal.
¿Qué pasa cuando una API está caída?
Esto nos pasó dos veces en seis meses. Construye respaldos. Cachea traducciones. Ten un idioma por defecto que funcione si todo falla.
