Ce que j'ai appris après six mois de test des API de traduction
L'année dernière, j'ai passé beaucoup trop d'heures à intégrer cinq API de traduction différentes dans notre pipeline de localisation. Ce qui a commencé comme une simple tâche "choisir une et expédier" s'est transformé en un terrier de lapin de compromis, de cas limites et de résultats vraiment surprenants.
C'est ce que j'aurais aimé qu'on me dise avant de commencer.
La Réponse Rapide (Si vous êtes pressé)
| API | Qualité | Vitesse | Prix par 1M chars | Où elle brille |
|---|---|---|---|---|
| GPT-4 | Excellente | Moyenne | ~$15 | Chaînes d'interface utilisateur riches en contexte |
| Claude 3 Sonnet | Excellente | Moyenne | ~$9 | Maintien d'un ton cohérent |
| DeepL | Très Bonne | Rapide | $25 | Langues européennes |
| Google Translate | Bonne | Très Rapide | $20 | Vitesse brute, langues rares |
| Azure Translator | Bonne | Très Rapide | $10 | Boutiques Microsoft |
| Amazon Translate | Bonne | Très Rapide | $15 | Déjà sur AWS |
Mais honnêtement, la vraie réponse est "ça dépend", et je vais expliquer pourquoi.
Ce que j'ai réellement trouvé en utilisant chacune
OpenAI GPT-4 / GPT-4 Turbo
C'est ce que nous utilisons le plus. Pas parce que c'est parfait, mais parce que ça gère les cas limites étranges qui cassaient les autres solutions.
Prix Actuels :
| Modèle | Entrée (1M tokens) | Sortie (1M tokens) |
|---|---|---|
| GPT-4 Turbo | $10.00 | $30.00 |
| GPT-4 | $30.00 | $60.00 |
| GPT-3.5 Turbo | $0.50 | $1.50 |
L'astuce est d'obtenir la bonne invite système. Vous devez lui dire de préserver les espaces réservés comme {name} et {{count}}, sinon il les "traduira" utilement. J'ai appris cela à la dure lorsque notre version espagnole a commencé à afficher "nombre" au lieu du nom réel de l'utilisateur.
Ce qui fonctionne vraiment bien :
- Comprend que "Save" dans un contexte de bouton signifie quelque chose de différent de "Save" comme dans "save money"
- Gère les règles de pluralisation sans que j'aie à les expliquer
- Le mode JSON est vraiment utile pour les opérations par lots
Ce qui m'a pris au dépourvu :
- Pas de détection de langue intégrée, vous devez gérer cela séparément
- Les temps de réponse sont incohérents. Parfois 500ms, parfois 3 secondes
- GPT-3.5 est tentant pour le prix, mais la qualité baisse notablement pour les phrases complexes
Mon avis : Vaut le coup si vous traduisez du texte d'interface utilisateur ou tout ce où le contexte compte. Exagéré pour des chaînes simples comme "OK" ou "Annuler".
Anthropic Claude
J'étais sceptique au début car Claude n'est pas vraiment commercialisé comme un outil de traduction. Mais après l'avoir testé aux côtés de GPT-4, j'ai été surpris de voir à quel point il gérait bien la terminologie spécifique à la marque.
Prix Actuels :
| Modèle | Entrée (1M tokens) | Sortie (1M tokens) |
|---|---|---|
| Claude 3 Haiku | $0.25 | $1.25 |
| Claude 3 Sonnet | $3.00 | $15.00 |
| Claude 3 Opus | $15.00 | $75.00 |
Là où il m'a impressionné :
- Nous avons un glossaire de termes que nous ne traduisons jamais (noms de produits, termes techniques). Claude suit ces instructions plus systématiquement que GPT-4
- La fenêtre contextuelle de 100K signifiait que nous pouvions envoyer notre glossaire entier avec chaque requête
- Le ton reste remarquablement cohérent à travers de longs documents
Ce qui est moins bien :
- Légèrement plus lent que GPT-4 Turbo en moyenne
- Moins d'options de modèles signifie moins de flexibilité sur les compromis prix/qualité
Mon avis : Si vous traduisez du texte marketing ou tout ce où la voix de la marque compte, Claude vaut la peine d'être testé. Pour les chaînes d'interface utilisateur brutes, c'est comparable à GPT-4.
API DeepL
DeepL a une réputation de qualité, et pour les langues européennes, elle est méritée. Mais j'ai vu trop d'équipes l'utiliser par défaut sans comprendre où elle échoue.
Prix Actuels :
| Plan | Prix | Ce que vous obtenez |
|---|---|---|
| Gratuit | $0 | 500K chars/mois |
| Pro | $25/1M chars | Illimité |
| Entreprise | Personnalisé | SLA, support dédié |
Ce qui est vraiment bon :
- Les traductions allemandes et françaises sont nettement plus naturelles que les LLM
- Rapide. Constamment rapide. Pas de délais aléatoires de 2 secondes
- La fonctionnalité de glossaire fonctionne réellement (définissez "enterprise" comme "entreprise" et ça reste)
Ce que personne ne mentionne :
- Les traductions japonaises et coréennes semblent robotiques par rapport à GPT-4
- Pas de support arabe du tout
- Vous ne pouvez pas lui donner de contexte. Si "reservation" pouvait signifier une réservation d'hôtel ou une hésitation, DeepL en choisit juste une
Mon avis : Si votre application est principalement destinée aux marchés européens, DeepL est probablement votre meilleur choix. Pour les langues asiatiques ou le contexte complexe, cherchez ailleurs.
Google Cloud Translation
Google Translate a mauvaise réputation auprès des gens qui se souviennent de l'époque "All your base". L'API actuelle est en fait assez bonne pour ce qu'elle est.
Prix Actuels :
| Fonctionnalité | Prix |
|---|---|
| Traduction | $20/1M chars |
| Détection de langue | $20/1M chars |
| Glossaire personnalisé | Inclus |
| AutoML (modèles personnalisés) | $45/1M chars |
Où cela a du sens :
- 100+ langues. Si vous avez besoin d'ouzbek ou de swahili, c'est probablement votre seule option
- Incroyablement rapide. Des temps de réponse de 50ms sont courants
- La détection de langue est intégrée et réellement fiable
Les inconvénients honnêtes :
- Les traductions semblent "correctes mais génériques". Un humain ne le formulerait jamais ainsi
- A du mal avec le texte informel, l'argot ou tout ce qui nécessite une adaptation culturelle
- La fonctionnalité AutoML semble géniale mais nécessite des données d'entraînement significatives pour être utile
Mon avis : Idéal pour le contenu généré par les utilisateurs où la vitesse compte plus que le raffinement. Moins adapté pour votre texte marketing soigneusement rédigé.
Azure et Amazon (Avis rapides)
Je vais être honnête : si vous êtes déjà profondément dans Azure ou AWS, la commodité de l'intégration pourrait l'emporter sur les différences de qualité. Les deux sont corrects, aucun n'est exceptionnel.
Azure Translator :
- $10/1M chars est l'option payante la moins chère
- Le niveau gratuit (2M chars/mois) est généreux
- La qualité est... correcte. Comparable à Google
Amazon Translate :
- $15/1M chars
- Le traitement par lots est bien conçu
- La configuration IAM est sa propre aventure
Chiffres de Qualité (Avec mises en garde)
Nous avons passé 1 000 chaînes d'interface utilisateur à travers chaque API pour cinq paires de langues. Des traducteurs humains les ont notées à l'aveugle.
| API | EN→ES | EN→FR | EN→DE | EN→JA | EN→AR | Moy |
|---|---|---|---|---|---|---|
| GPT-4 Turbo | 95% | 94% | 93% | 90% | 86% | 91.6% |
| Claude 3 Sonnet | 94% | 95% | 94% | 89% | 85% | 91.4% |
| DeepL | 93% | 94% | 95% | 83% | N/A | 91.3% |
| 87% | 88% | 86% | 85% | 82% | 85.6% | |
| Azure | 86% | 87% | 85% | 84% | 81% | 84.6% |
Quelques notes :
- DeepL ne supporte pas l'arabe
- Ce sont des chaînes d'interface utilisateur, pas de la prose littéraire. Les résultats différeraient pour d'autres types de contenu
- La différence entre 87% et 94% est plus perceptible que les chiffres ne le suggèrent
Vitesse en Pratique
Temps de réponse moyen pour traduire environ 100 mots :
| API | Vitesse Typique | Notes |
|---|---|---|
| Google Translate | 50ms | Constamment rapide |
| Azure Translator | 75ms | Aussi très fiable |
| DeepL | 150ms | Assez rapide |
| GPT-4 Turbo | 1000ms | Varie plus que je ne le voudrais |
| Claude 3 Sonnet | 1200ms | Variance similaire |
| GPT-4 | 2500ms | Notablement plus lent |
Si vous faites de la traduction en temps réel (chat, contenu en direct), Google ou Azure sont vos seules options réalistes. Pour le traitement par lots, la vitesse compte moins que vous ne le pensez.
Ce que ça Coûte Réellement
Disons que vous traduisez 100 000 chaînes (moyenne de 50 caractères chacune) en 10 langues. C'est 50 millions de caractères.
| API | Coût Approximatif | Niveau de Qualité |
|---|---|---|
| GPT-3.5 Turbo | $2.50 | Assez bon pour la plupart des UI |
| Claude 3 Haiku | $3.00 | Similaire |
| GPT-4 Turbo | $50 | Notablement meilleur |
| Claude 3 Sonnet | $45 | Comparable à GPT-4 |
| Azure | $50 | Adéquat |
| Amazon | $75 | Adéquat |
| $100 | Adéquat | |
| DeepL | $125 | Très bon pour les langues EU |
Le modèle de tarification LLM (tokens vs caractères) signifie qu'ils sont en fait moins chers que les services de TA traditionnels pour la plupart des longueurs de texte. Je ne m'y attendais pas.
Comment Décider Réellement
Après tous ces tests, voici mon cadre mental :
Optez pour GPT-4 Turbo si :
- Vos chaînes ont des espaces réservés, des variables ou du contenu technique
- Vous avez besoin d'une sortie JSON pour l'automatisation
- Le contexte compte (le même mot signifiant des choses différentes à différents endroits)
Optez pour Claude si :
- Vous avez un guide de style de marque qui doit être suivi
- Vous traduisez du contenu marketing ou de documentation plus long
- La cohérence à travers des milliers de chaînes est critique
Optez pour DeepL si :
- La plupart de vos utilisateurs sont en Europe
- Vous traduisez du contenu commercial formel
- Vous voulez la meilleure qualité disponible en français/allemand/néerlandais
Optez pour Google si :
- Vous avez besoin de langues que les autres ne supportent pas
- La vitesse en temps réel est non négociable
- Vous traduisez du contenu généré par les utilisateurs où "assez bon" est acceptable
Optez pour Azure/Amazon si :
- Vous êtes déjà verrouillé dans cet écosystème
- Les exigences de conformité vous orientent là
L'Approche Hybride Qui Fonctionne Vraiment
En production, nous avons fini par utiliser plusieurs API. Le texte marketing passe par Claude. Les chaînes d'interface utilisateur utilisent GPT-4 Turbo. Les commentaires des utilisateurs utilisent Google. C'est plus complexe à mettre en place, mais l'équilibre qualité/coût est meilleur que toute solution unique.
Vous pouvez mettre en place une fonction de routage simple : le contenu critique obtient l'API coûteuse, le contenu en masse obtient la bon marché, le contenu en temps réel obtient la rapide. Une fois construit, vous arrêtez d'y penser.
Quelques Leçons Apprises à la Dure
-
Envoyez toujours le contexte. "Book" se traduit différemment pour une application de bibliothèque vs une application d'hôtel. Incluez votre catégorie d'application ou domaine dans chaque requête.
-
Testez d'abord avec les cas limites. Avant de vous engager sur une API, essayez-la avec vos chaînes les plus bizarres. Espaces réservés, emoji, extraits HTML, texte RTL. Les différences apparaissent là.
-
Prévoyez des solutions de repli. Les API tombent en panne. Les limites de débit frappent. Ayez une sauvegarde, même si c'est juste la mise en cache des chaînes précédemment traduites.
-
La révision humaine vaut toujours le coup pour certains contenus. Messages d'erreur, texte légal, tout ce qui pourrait vous embarrasser si c'est faux. La traduction IA est bonne, mais pas parfaite.
-
La mémoire de traduction économise de l'argent. Si vous traduisez "Enregistrer les modifications" cent fois à travers différents projets, vous ne devriez payer pour cela qu'une seule fois.
Où Aller Partir D'ici
Si vous commencez juste avec les API de traduction, mon conseil honnête est de choisir GPT-3.5 Turbo et voir jusqu'où cela vous mène. C'est bon marché, la qualité est raisonnable et vous pouvez toujours mettre à niveau plus tard.
Si vous êtes au point où vous avez besoin de plusieurs moteurs, de l'application de glossaire, de mémoire de traduction et de workflows de révision humaine, vous voulez probablement un vrai TMS plutôt que de le construire vous-même. Nous avons construit IntlPull pour gérer exactement ce cas d'utilisation. Vous pouvez utiliser la CLI pour pousser des chaînes et traduire avec différents moteurs en fonction du type de contenu.
Quoi que vous choisissiez, la bonne nouvelle est que la traduction automatique en 2025 est vraiment assez bonne pour une utilisation en production. La question n'est pas de savoir si l'utiliser, mais comment bien l'utiliser.
Questions Courantes
Quelle API donne les meilleures traductions en 2025 ?
Pour le contenu d'application et d'interface utilisateur, GPT-4 Turbo et Claude 3 Sonnet sont essentiellement à égalité. Pour les langues européennes spécifiquement, DeepL est toujours la référence. Il n'y a pas de vainqueur unique.
Quelle est l'option la plus rentable ?
GPT-3.5 Turbo vous donne une qualité étonnamment bonne à $0.50 par million de tokens d'entrée. Si vous avez besoin de gratuit, Azure offre 2 millions de caractères par mois.
Puis-je sauter entièrement la révision humaine ?
Pour la plupart des chaînes d'interface utilisateur et des textes d'aide, oui. Pour tout ce qui est légal, médical ou où des erreurs pourraient causer un préjudice réel, je recommanderais toujours une révision humaine. La précision de 90%+ semble géniale jusqu'à ce que vous vous rappeliez que 10% signifie qu'une chaîne sur dix pourrait être fausse.
Que se passe-t-il lorsqu'une API est en panne ?
Cela nous est arrivé deux fois en six mois. Construisez des solutions de repli. Mettez en cache les traductions. Ayez une langue par défaut qui fonctionne si tout échoue.
