Was ich nach sechs Monaten Testen von Übersetzungs-APIs gelernt habe
Letztes Jahr habe ich viel zu viele Stunden damit verbracht, fünf verschiedene Übersetzungs-APIs in unsere Lokalisierungs-Pipeline zu integrieren. Was als einfache "nimm einfach eine und shippe es"-Aufgabe begann, wurde zu einem Kaninchenbau aus Kompromissen, Randfällen und einigen wirklich überraschenden Ergebnissen.
Das ist es, was ich mir gewünscht hätte, dass mir jemand gesagt hätte, bevor ich anfing.
Die schnelle Antwort (Wenn Sie es eilig haben)
| API | Qualität | Geschwindigkeit | Preis pro 1M Zeichen | Wo sie glänzt |
|---|---|---|---|---|
| GPT-4 | Exzellent | Mittel | ~$15 | Kontextlastige UI-Strings |
| Claude 3 Sonnet | Exzellent | Mittel | ~$9 | Konsistenten Ton beibehalten |
| DeepL | Sehr gut | Schnell | $25 | Europäische Sprachen |
| Google Translate | Gut | Sehr schnell | $20 | Rohe Geschwindigkeit, seltene Sprachen |
| Azure Translator | Gut | Sehr schnell | $10 | Microsoft-Shops |
| Amazon Translate | Gut | Sehr schnell | $15 | Bereits auf AWS |
Aber ehrlich gesagt ist die wahre Antwort "es kommt darauf an", und ich erkläre warum.
Was ich tatsächlich bei der Nutzung jeder einzelnen gefunden habe
OpenAI GPT-4 / GPT-4 Turbo
Das ist es, was wir am meisten nutzen. Nicht weil es perfekt ist, sondern weil es die seltsamen Randfälle handhabt, die andere Lösungen immer wieder kaputt gemacht haben.
Aktuelle Preisgestaltung:
| Modell | Input (1M Token) | Output (1M Token) |
|---|---|---|
| GPT-4 Turbo | $10.00 | $30.00 |
| GPT-4 | $30.00 | $60.00 |
| GPT-3.5 Turbo | $0.50 | $1.50 |
Der Trick ist, den System-Prompt richtig hinzubekommen. Sie müssen ihm sagen, dass er Platzhalter wie {name} und {{count}} beibehalten soll, sonst wird er sie hilfreicherweise "übersetzen". Ich habe das auf die harte Tour gelernt, als unser spanischer Build anfing, "nombre" statt des tatsächlichen Namens des Benutzers anzuzeigen.
Was tatsächlich gut funktioniert:
- Versteht, dass "Save" in einem Button-Kontext etwas anderes bedeutet als "Save" wie in "Geld sparen"
- Handhabt Pluralisierungsregeln, ohne dass ich sie erklären muss
- Der JSON-Modus ist wirklich nützlich für Batch-Operationen
Was mich überrascht hat:
- Keine eingebaute Spracherkennung, das müssen Sie separat handhaben
- Antwortzeiten sind inkonsistent. Manchmal 500ms, manchmal 3 Sekunden
- GPT-3.5 ist verlockend für den Preis, aber die Qualität sinkt bei komplexen Sätzen spürbar
Meine Meinung: Lohnt sich, wenn Sie UI-Text oder irgendetwas übersetzen, wo Kontext zählt. Overkill für einfache Strings wie "OK" oder "Abbrechen".
Anthropic Claude
Ich war anfangs skeptisch, weil Claude nicht wirklich als Übersetzungstool vermarktet wird. Aber nachdem ich es neben GPT-4 getestet hatte, war ich überrascht, wie gut es markenspezifische Terminologie handhabte.
Aktuelle Preisgestaltung:
| Modell | Input (1M Token) | Output (1M Token) |
|---|---|---|
| Claude 3 Haiku | $0.25 | $1.25 |
| Claude 3 Sonnet | $3.00 | $15.00 |
| Claude 3 Opus | $15.00 | $75.00 |
Wo es mich beeindruckt hat:
- Wir haben ein Glossar mit Begriffen, die wir nie übersetzen (Produktnamen, technische Begriffe). Claude folgt diesen Anweisungen konsequenter als GPT-4
- Das 100K-Kontextfenster bedeutete, dass wir unser gesamtes Glossar mit jeder Anfrage senden konnten
- Der Ton bleibt über lange Dokumente hinweg bemerkenswert konsistent
Was weniger toll ist:
- Im Durchschnitt etwas langsamer als GPT-4 Turbo
- Weniger Modelloptionen bedeuten weniger Flexibilität bei Preis/Qualitäts-Kompromissen
Meine Meinung: Wenn Sie Marketingtexte oder irgendetwas übersetzen, wo die Markenstimme zählt, ist Claude einen Test wert. Für reine UI-Strings ist es vergleichbar mit GPT-4.
DeepL API
DeepL hat einen Ruf für Qualität, und für europäische Sprachen ist er verdient. Aber ich habe zu viele Teams gesehen, die standardmäßig darauf zurückgreifen, ohne zu verstehen, wo es zu kurz kommt.
Aktuelle Preisgestaltung:
| Plan | Preis | Was Sie bekommen |
|---|---|---|
| Kostenlos | $0 | 500K Zeichen/Monat |
| Pro | $25/1M Zeichen | Unbegrenzt |
| Enterprise | Individuell | SLA, dedizierter Support |
Was wirklich gut ist:
- Deutsche und französische Übersetzungen sind spürbar natürlicher als die LLMs
- Schnell. Konstant schnell. Keine zufälligen 2-Sekunden-Verzögerungen
- Die Glossar-Funktion funktioniert tatsächlich (definieren Sie "enterprise" als "entreprise" und es bleibt dabei)
Was niemand erwähnt:
- Japanische und koreanische Übersetzungen wirken roboterhaft im Vergleich zu GPT-4
- Überhaupt kein Arabisch-Support
- Sie können ihm keinen Kontext geben. Wenn "reservation" eine Hotelbuchung oder ein Vorbehalt bedeuten könnte, wählt DeepL einfach eins
Meine Meinung: Wenn Ihre App primär für europäische Märkte ist, ist DeepL wahrscheinlich Ihre beste Wahl. Für asiatische Sprachen oder komplexen Kontext schauen Sie woanders.
Google Cloud Translation
Google Translate hat einen schlechten Ruf von Leuten, die sich an die "All your base"-Ära erinnern. Die aktuelle API ist eigentlich ziemlich gut für das, was sie ist.
Aktuelle Preisgestaltung:
| Feature | Preis |
|---|---|
| Übersetzung | $20/1M Zeichen |
| Spracherkennung | $20/1M Zeichen |
| Benutzerdefiniertes Glossar | Enthalten |
| AutoML (benutzerdefinierte Modelle) | $45/1M Zeichen |
Wo es Sinn macht:
- 100+ Sprachen. Wenn Sie Usbekisch oder Swahili brauchen, ist dies wahrscheinlich Ihre einzige Option
- Blitzschnell. 50ms Antwortzeiten sind üblich
- Spracherkennung ist eingebaut und tatsächlich zuverlässig
Die ehrlichen Nachteile:
- Übersetzungen wirken "korrekt, aber generisch". Ein Mensch würde es nie so formulieren
- Hat Probleme mit informellem Text, Slang oder allem, was kulturelle Anpassung erfordert
- Das AutoML-Feature klingt toll, erfordert aber signifikante Trainingsdaten, um nützlich zu sein
Meine Meinung: Großartig für nutzergenerierte Inhalte, wo Geschwindigkeit mehr zählt als Feinschliff. Weniger geeignet für Ihre sorgfältig ausgearbeiteten Marketingtexte.
Azure und Amazon (Kurze Einschätzungen)
Ich bin ehrlich: Wenn Sie bereits tief in Azure oder AWS drin sind, könnte der Integrationskomfort die Qualitätsunterschiede aufwiegen. Beide sind in Ordnung, keines ist außergewöhnlich.
Azure Translator:
- $10/1M Zeichen ist die günstigste Bezahloption
- Kostenlose Stufe (2M Zeichen/Monat) ist großzügig
- Qualität ist... okay. Vergleichbar mit Google
Amazon Translate:
- $15/1M Zeichen
- Batch-Verarbeitung ist gut konzipiert
- IAM-Setup ist sein eigenes Abenteuer
Qualitätszahlen (Mit Vorbehalten)
Wir haben 1.000 UI-Strings durch jede API für fünf Sprachpaare laufen lassen. Menschliche Übersetzer haben sie blind bewertet.
| API | EN→ES | EN→FR | EN→DE | EN→JA | EN→AR | Durchschnitt |
|---|---|---|---|---|---|---|
| GPT-4 Turbo | 95% | 94% | 93% | 90% | 86% | 91.6% |
| Claude 3 Sonnet | 94% | 95% | 94% | 89% | 85% | 91.4% |
| DeepL | 93% | 94% | 95% | 83% | N/A | 91.3% |
| 87% | 88% | 86% | 85% | 82% | 85.6% | |
| Azure | 86% | 87% | 85% | 84% | 81% | 84.6% |
Ein paar Anmerkungen:
- DeepL unterstützt kein Arabisch
- Dies sind UI-Strings, keine literarische Prosa. Ergebnisse würden für andere Inhaltsarten abweichen
- Der Unterschied zwischen 87% und 94% ist spürbarer, als die Zahlen vermuten lassen
Geschwindigkeit in der Praxis
Durchschnittliche Antwortzeit für die Übersetzung von etwa 100 Wörtern:
| API | Typische Geschwindigkeit | Anmerkungen |
|---|---|---|
| Google Translate | 50ms | Konstant schnell |
| Azure Translator | 75ms | Auch sehr zuverlässig |
| DeepL | 150ms | Schnell genug |
| GPT-4 Turbo | 1000ms | Variiert mehr, als mir lieb ist |
| Claude 3 Sonnet | 1200ms | Ähnliche Varianz |
| GPT-4 | 2500ms | Spürbar langsamer |
Wenn Sie Echtzeit-Übersetzung (Chat, Live-Inhalte) machen, sind Google oder Azure Ihre einzigen realistischen Optionen. Für Batch-Verarbeitung zählt Geschwindigkeit weniger, als Sie denken würden.
Was es tatsächlich kostet
Sagen wir, Sie übersetzen 100.000 Strings (durchschnittlich 50 Zeichen jeder) in 10 Sprachen. Das sind 50 Millionen Zeichen.
| API | Ungefähre Kosten | Qualitätsniveau |
|---|---|---|
| GPT-3.5 Turbo | $2.50 | Gut genug für die meiste UI |
| Claude 3 Haiku | $3.00 | Ähnlich |
| GPT-4 Turbo | $50 | Spürbar besser |
| Claude 3 Sonnet | $45 | Vergleichbar mit GPT-4 |
| Azure | $50 | Adäquat |
| Amazon | $75 | Adäquat |
| $100 | Adäquat | |
| DeepL | $125 | Sehr gut für EU-Sprachen |
Das LLM-Preismodell (Token vs. Zeichen) bedeutet, dass sie tatsächlich günstiger sind als traditionelle MT-Dienste für die meisten Textlängen. Das habe ich nicht erwartet.
Wie man tatsächlich entscheidet
Nach all diesem Testen ist hier mein mentales Framework:
Nehmen Sie GPT-4 Turbo, wenn:
- Ihre Strings Platzhalter, Variablen oder technischen Inhalt haben
- Sie JSON-Output für Automatisierung brauchen
- Kontext zählt (gleiches Wort bedeutet verschiedene Dinge an verschiedenen Orten)
Nehmen Sie Claude, wenn:
- Sie einen Marken-Styleguide haben, der befolgt werden muss
- Sie längere Marketing- oder Dokumentationsinhalte übersetzen
- Konsistenz über Tausende von Strings hinweg kritisch ist
Nehmen Sie DeepL, wenn:
- Die meisten Ihrer Nutzer in Europa sind
- Sie formale Geschäftsinhalte übersetzen
- Sie die beste französische/deutsche/niederländische Qualität wollen, die verfügbar ist
Nehmen Sie Google, wenn:
- Sie Sprachen brauchen, die andere nicht unterstützen
- Echtzeit-Geschwindigkeit nicht verhandelbar ist
- Sie nutzergenerierte Inhalte übersetzen, wo "gut genug" akzeptabel ist
Nehmen Sie Azure/Amazon, wenn:
- Sie bereits in diesem Ökosystem gefangen sind
- Compliance-Anforderungen Sie dorthin weisen
Der hybride Ansatz, der tatsächlich funktioniert
In der Produktion haben wir am Ende mehrere APIs genutzt. Marketingtexte gehen durch Claude. UI-Strings nutzen GPT-4 Turbo. Nutzerkommentare nutzen Google. Es ist komplexer einzurichten, aber die Balance aus Qualität und Kosten ist besser als jede einzelne Lösung.
Sie können eine einfache Routing-Funktion einrichten: kritischer Inhalt bekommt die teure API, Masseninhalt bekommt die billige, Echtzeit-Inhalt bekommt die schnelle. Sobald es gebaut ist, hören Sie auf, darüber nachzudenken.
Ein paar hart erarbeitete Lektionen
-
Senden Sie immer Kontext. "Book" übersetzt sich anders für eine Bibliotheks-App als für eine Hotel-App. Fügen Sie Ihre App-Kategorie oder Domain in jede Anfrage ein.
-
Testen Sie zuerst mit Randfällen. Bevor Sie sich auf eine API festlegen, probieren Sie sie mit Ihren seltsamsten Strings. Platzhalter, Emojis, HTML-Schnipsel, RTL-Text. Die Unterschiede zeigen sich dort.
-
Bauen Sie Fallbacks ein. APIs fallen aus. Ratenbegrenzungen schlagen zu. Haben Sie ein Backup, selbst wenn es nur das Caching zuvor übersetzter Strings ist.
-
Menschliche Überprüfung ist es für manche Inhalte immer noch wert. Fehlermeldungen, Rechtstexte, alles, was Sie blamieren könnte, wenn es falsch ist. KI-Übersetzung ist gut, aber nicht perfekt.
-
Translation Memory spart Geld. Wenn Sie "Änderungen speichern" hundertmal über verschiedene Projekte hinweg übersetzen, sollten Sie nur einmal dafür bezahlen.
Wohin von hier aus
Wenn Sie gerade erst mit Übersetzungs-APIs anfangen, ist mein ehrlicher Rat, GPT-3.5 Turbo zu wählen und zu sehen, wie weit es Sie bringt. Es ist billig, die Qualität ist vernünftig, und Sie können später immer noch upgraden.
Wenn Sie an dem Punkt sind, wo Sie mehrere Engines, Glossar-Durchsetzung, Translation Memory und menschliche Prüf-Workflows brauchen, wollen Sie wahrscheinlich eher ein richtiges TMS als es selbst zu bauen. Wir haben IntlPull gebaut, um genau diesen Anwendungsfall zu handhaben. Sie können die CLI nutzen, um Strings zu pushen und mit verschiedenen Engines basierend auf dem Inhaltstyp zu übersetzen.
Was auch immer Sie wählen, die gute Nachricht ist, dass maschinelle Übersetzung im Jahr 2025 wirklich gut genug für den Produktionseinsatz ist. Die Frage ist nicht, ob man sie nutzt, sondern wie man sie gut nutzt.
Häufige Fragen
Welche API liefert die besten Übersetzungen im Jahr 2025?
Für UI- und App-Inhalte liegen GPT-4 Turbo und Claude 3 Sonnet im Grunde gleichauf. Speziell für europäische Sprachen ist DeepL immer noch der Benchmark. Es gibt keinen einzelnen Gewinner.
Was ist die kostengünstigste Option?
GPT-3.5 Turbo bietet Ihnen überraschend gute Qualität für $0.50 pro Million Input-Token. Wenn Sie kostenlos brauchen, bietet Azure 2 Millionen Zeichen pro Monat.
Kann ich menschliche Überprüfung komplett überspringen?
Für die meisten UI-Strings und Hilfetexte, ja. Für alles Rechtliche, Medizinische oder wo Fehler wirklichen Schaden anrichten könnten, würde ich immer noch menschliche Überprüfung empfehlen. Die 90%+ Genauigkeit klingt toll, bis man sich daran erinnert, dass 10% bedeutet, dass einer von zehn Strings falsch sein könnte.
Was passiert, wenn eine API ausfällt?
Das ist uns in sechs Monaten zweimal passiert. Bauen Sie Fallbacks. Cachen Sie Übersetzungen. Haben Sie eine Standardsprache, die funktioniert, wenn alles fehlschlägt.
