Bedeutung für die Zukunft von LLMs und maschinellem Übersetzen
Auch wenn in der Zukunft weitaus bessere LLMs zu erwarten sind, scheinen NMÜ-Modelle bisher konsistentere Ergebnisse zu liefern und sich per Post-Editing besser überarbeiten zu lassen. Das gilt vor allem für Real-World-Content, der in klassischen Workflows mit Translation-Management-Systemen bearbeitet wird.
Außerdem ist zu beachten, dass NMÜ-Modelle, die umfassend mit spezifischem Fach-Content und -Vokabular trainiert wurden, weniger technische Probleme aufzuweisen scheinen als Systeme auf Grundlage von generativer KI.
NMÜ überzeugen über eine vor allem langfristig höhere Prädiktabilität in allen betrachteten Sprachen. Wir haben in einer früheren Studie auch den Output von generischen NMÜ-Systemen mit dem von LLMs verglichen. Hier war die Qualität zwar niedriger (höherer PED usw.), doch die Prädiktabilität des Outputs blieb konstant. Bei LLMs nimmt die Qualität schnell ab. Das gilt vor allem, wenn die Ausgangssprache nicht Englisch ist, sowie für seltener übersetzte Sprachen im Allgemeinen. Die Qualität des Content-Outputs kann über längere Zeiträume hinweg variieren.
Ein Beispiel hierfür sind sogenannte KI-Halluzinationen, die vor allem in seltener übersetzten Sprachen vorkommen. Sie beeinträchtigen den Output teilweise so stark, dass eine Übersetzung kaum noch sinnvoll ist. Das betrifft zum Beispiel technischen Content wie URLs, kunden- oder fachspezifische Terminologie und kurze Sätze. LLMs können bei der Verarbeitung von Content-Batches hier noch keine zuverlässigen Ergebnisse liefern.
Allgemein zeigt die Acolad-Studie, dass LLM-Output im Vergleich NMÜ-Output, der von menschlichen Sprachexperten überarbeitet wird, zwar relativ gut abschneidet, aber bei komplexem Content mit strukturellen Elemente wie Formatierung und Inline-Tags große Schwächen aufweist.
Außerdem müssen für die verschiedenen Sprachen und Modelle relativ komplexe Prompts geschrieben werden. Das führt bei einer umfassenderen Verwendung von LLMs im Übersetzungs-Workflow zu höheren Gesamtkosten der Übersetzung, auch wenn die eigentlichen Bearbeitungskosten sinken.
Für die automatische Übersetzung großer Content-Mengen ohne menschliche Beteiligung oder Post-Editing sollte daher bis auf Weiteres auf eine hochwertige, bewährte NMÜ-Lösung zurückgegriffen werden.
Wie bereits erwähnt, ist selbst eine maschinelle Übersetzung mit anschließendem Post-Editing durch Sprachexperten immer noch kostengünstiger als eine Übersetzung mittels generativer KI. Die Anpassung der Prompts zur Verbesserung der LLMs dauert einfach zu lange. NMÜ überzeugt außerdem durch eine geringere PED (Post-Edit Distance) und TER (Translation Edit Rate). Die Korrektur des Outputs ist also weniger aufwändig als bei LLMs.
Trotz dieser Ergebnisse ist klar: LLMs auf Basis generativer KI spielen eine große Rolle bei der Übersetzungsautomatisierung. Das gilt vor allem, wenn die Modelle in Zukunft immer besser werden. Es gibt vielversprechende Ansätze, um MÜ-Output zum Beispiel im Anschluss an die Übersetzung stilistisch zu überarbeiten. Es deutet viel darauf hin, dass LLMs eine wichtige Rolle bei der Qualitätsbewertung spielen könnten, was sich in der Übersetzung zum Beispiel in den Bereichen selbstreflektierendes Post-Editing auswirken würde.
Es bleibt außerdem abzuwarten, wie LLMs mit Doppeldeutigkeiten, Idiomen, kulturellen Referenzen und auch Humor umgehen. Hier haben viele MÜ-Modelle je nach Datensatz, der ihnen zugrunde liegt, traditionell ihre Probleme.