Veröffentlicht 5 Jun 2024

Maschinelles Übersetzen oder GenAI? Eine vergleichende Analyse

Neuronale maschinelle Übersetzung oder große Sprachmodelle: Welche Methode liefert bessere Ergebnisse? Die exklusive Studie von Acolad hat eine klare Antwort auf die Frage.
Maschinelles Übersetzen oder GenAI? Eine vergleichende Analyse
Neuronale maschinelle Übersetzung oder große Sprachmodelle: Welche Methode liefert bessere Ergebnisse? Die exklusive Studie von Acolad hat eine klare Antwort auf die Frage.

Die Übersetzungsbranche durchlebt aufgrund der rasanten Entwicklung auf dem Gebiet der künstlichen Intelligenz derzeit eine hochdynamische Phase der Transformation. Dabei kristallisiert sich eine Kernfrage heraus: Welches System bietet mehr Performance und Effizienz für Übersetzungen – neuronale maschinelle Übersetzung (NMÜ) oder Large Language Models (LLM)? Unsere exklusiven Untersuchungen geben einen direkten Einblick in die Leistung von NMT und LLM.

Anhand einer Vielzahl von Evaluierungsmetriken und Testdatensätzen haben wir die Stärken und Schwächen der beiden Technologien und deren Auswirkungen auf Übersetzungsqualität, Effizienz und Anwendung ermittelt. Dabei wollten wir herausfinden, welche Lösung sich für welchen Anwendungsfall eignet. Das erwartet Sie:

Wichtige Highlights

Diese Studie zeigte, dass gut trainierte NMÜ-Modelle der generativen KI in den meisten Bereich überlegen sind.

Überragende Übersetzungsqualität

Mit einem 13 % besseren BLEU-Score als die durchschnittlichen Scores der bewerteten LLM-Systeme liegen die NMÜ-Systeme hier deutlich vorne.

Höhere inhaltliche Genauigkeit

NMÜ-Systeme haben einen 4 % besseren COMET-QE-Wert als LLMs, wobei auch Letztere über dem 90-Prozent-Perzentil lagen und damit immer noch akzeptable sprachliche Ergebnisse lieferten.

Weniger Post-Editing-Aufwand

NMÜ-Systeme überzeugen mit einer 16 % niedrigeren PED (Post-Edit Distance) als GPT-4, das beste der getesteten LLM-Systeme. Außerdem schneiden sie beim TER-Wert (Translation Edit Rate) 35 % besser ab als LLMs, es sind also im Vergleich zum Referenz-Content weniger Korrekturen nötig.

Methodik

Diese von Acolad Labs durchgeführte Studie basiert auf Ergebnissen aus einer vorangegangenen Phase und nutzte Real-World-Content, um die praktische Relevanz zu gewährleisten. Die Studie gliedert sich in zwei Hauptbereiche: Die erste Komponente konzentriert sich auf die rein automatische Übersetzung, bei der die Leistung der neuronalen maschinellen Übersetzung (NMT) und der großen Sprachmodelle (LLMs) ohne menschliche Nachbearbeitung bewertet wird. Im zweiten Bereich kommt der Mensch mit ins Spiel. Beim „Human in the Loop“-Ansatz überprüfen und bearbeiten professionelle Sprachexperten die maschinellen Übersetzungen. Die Studie bewertet den Aufwand für die Kombination aus KI und menschlicher Beteiligung sowie die Qualität der Ergebnisse. Die Überprüfungen wurden von einem Drittanbieter durchgeführt, damit ihre Unabhängigkeit gewährleistet ist.

Dabei standen verschiedene Sprachen im Fokus, vor allem Französisch, Rumänisch, Schwedisch und Chinesisch. Für die Studie wurde eine verbesserte Prompt-Bibliothek verwendet, die auf früheren Erkenntnissen basiert. Außerdem kamen ein erweiterter Terminologiedatensatz und Stilvorgaben für KI-Modelle zum Einsatz. Glossare maschineller Übersetzungssysteme wurden bereinigt und Prompts modellübergreifend abstrahiert. Im Rahmen einer umfassenden Gegenüberstellung verschiedener KI-Übersetzungssysteme wurden mehrere NMÜ- und LLM-Modelle verglichen.

Dieser umfassende Ansatz ermöglichte den detaillierten Vergleich verschiedener KI-Funktionen von Sprachlösungen für Unternehmen.


TEIL 1

Performance automatisierter Übersetzungen

Bei der Analyse des vollautomatischen Outputs wurden folgende Systeme bewertet:

  • eine vortrainierte NMÜ-Engine

  • ein LLM, das über eine API auf einer kundenspezifischen KI-Plattform zugänglich war

  • Verschiedene LLMs, darunter eins, das mit extensiven Parametern trainiert wurde, und eins mit Fokus auf umfassende Datenverarbeitung: ChatGPT-4 (Turbo) von OpenAI, Mistral (Large), Llama 2 (70b) und Acolad LLM.

Für die Analyse wurde formatierter Real-World-Content mit Inline-Tags und Terminologie-Abhängigkeiten genutzt. Das entspricht in etwa dem Content, der häufig übersetzt wird. Der Content wurde in unserem Translation-Management-System wie gewohnt vorbereitet und geparst. Der Output der automatisierten Systeme wurde dann mit der Übersetzung professioneller Linguisten mit Spezialisierung auf den getesteten Content verglichen.

Die LLMs wurden gepromptet, um Terminologie und Style inhaltlich einzugrenzen. Außerdem wurden andere Methoden wie One-Shot-/Few-Shot-Prompt-Abstrahierung verwendet, um den LLM-Output zu verbessern.  Dabei ist zu erwähnen, dass LLMs verschiedener Anbieter verschiedene Prompting-Strategien erforderten, vor allem in Bezug auf die technische Struktur des Contents.

Die Outputs von NMÜ, LLMS und professionellen Übersetzern wurden anhand verschiedener Branchenmetriken ausgewertet:

BLEU (Bilingual Evaluation Understudy): Diese weitverbreitete Metrik bewertet, wie gut eine maschinelle Übersetzung im Vergleich zu einer hochwertigen menschlichen Übersetzung ist. Dabei wird betrachtet, wie viele Wortsequenzen übereinstimmen.

chrF (Character Level F-score): Während BLEU Übereinstimmungen auf Wortebene auswertet, betrachtet chrF die Ähnlichkeit der Ausgabe mit einer idealen Übersetzung auf Zeichenebene.

COMET (Crosslingual Optimized Metric for Evaluation of Translation): Im Gegensatz zu BLEU oder chrF, die auf einem statistischen Vergleich basieren, nutzt COMET neuronale Netzwerke, um zu prognostizieren, wie Menschen eine maschinelle Übersetzung bewerten würden.

PED (Post-Edit Distance): Diese Metrik misst den Aufwand, der nötig ist, um den Output einer maschinellen Übersetzung an eine hochwertige Humanübersetzung anzupassen.

TER (Translation Edit Rate): Ähnlich wie PED konzentriert sich TER auf die Anzahl der Überarbeitungsschritte, um eine perfekte Übereinstimmung mit einer Referenzübersetzung zu erzielen.

Bei Übersetzungen von Englisch nach Französisch war das NMÜ-System von Acolad allen drei führenden KI-LLMs überlegen: ChatGPT-4 (Turbo) von OpenAI, Mistral (Large), Llama 2 (70b) und unser eigenes experimentelles LLM.

Es zeigte den drei Qualitätsmetriken BLEU,  chrF und COMET bessere Werte.

Die kürzlich aktualisierte NMÜ-Engine für Französisch gewann auch bei den PED- und TER-Metriken, bei denen die Anzahl der Post-Editing-Schritte gemessen wird, die für die Korrektur des Textes nötig sind. Hier ist der niedrigere Wert der bessere.

Wie bereits erwähnt, schnitten die Ergebnisse der LLM bei COMET, das als guter Maßstab für die sprachliche Gewandtheit eines Ergebnisses gilt, gut ab, wobei die Ergebnisse nahe oder über dem 90. Es lässt darauf schließen, dass LLMs eine Zukunft bei Übersetzung und Content-Erstellung haben, vor allem bei Sprachen mit umfangreichen Ressourcen wie Französisch. Doch abgesehen von den guten COMET-Werten konnten LLMs die Kundenanforderungen an Genauigkeit, Glossarübereinstimmung und Stil nicht immer erfüllen.

 

Ein visueller Vergleich der Leistung von Neural Machine Translation (NMT) und Large Language Model (LLM) bei französischen Übersetzungsaufgaben.

 

Für Übersetzungen von Englisch nach Schwedisch waren die Ergebnisse ähnlich, wobei die NMÜ wieder überall besser als die führenden LLMs war.

 

Ein visueller Vergleich der Leistung von Neural Machine Translation (NMT) und Large Language Model (LLM) bei schwedischen Übersetzungsaufgaben.

 

Für Übersetzungen von Englisch nach Chinesisch (vereinfacht) schnitt die NMÜ-Engine überall außer für BLEU besser ab. Logografische Sprachen wie Chinesisch zeigen weiterhin gemischte Ergebnisse. Mit einer verbesserten Tokenisierung (bei der Sätze in kleinere Einheiten wie Wörter oder Unterwörter unterteilt werden) ist allerdings zu erwarten, dass zukünftige Modelle bessere Resultate erzielen werden.  Dabei sollte erwähnt werden, dass einige Experten COMET für die nützlichere Qualitätsmetrik halten.

 

Ein visueller Vergleich der Leistung von Neural Machine Translation (NMT) und Large Language Model (LLM) bei chinesischen Übersetzungsaufgaben.

 

Bei unserer letzten Testsprache war ChatGPT-4 von OpenAI dem NMÜ-Modell in allen Metriken leicht überlegen, obwohl die Ergebnisse sehr ähnlich waren. Unsere Teams werden dieses Ergebnis nutzen, um das MÜ-Modell zu überarbeiten und zu verbessern. Wie bei den NMÜ-Systemen müssen auch die LLMs immer wieder aktualisiert und optimiert werden.

Dabei sollte berücksichtigt werden, dass LLMs noch viele Schwächen aufweisen, auch wenn sie bei den Qualitätsmetriken höhere Punkte erzielen. Diese werden weiter unten besprochen, nachdem wir die Qualitätsanalysen erklärt haben.

 

Ein visueller Vergleich der Leistung von Neural Machine Translation (NMT) und Large Language Model (LLM) bei rumänischen Übersetzungsaufgaben.

 


TEIL 2

Expert-in-the-Loop, die Fachzeitschrift für Linguistik

Neben der vollautomatischen Bewertung erfolgte auch eine Bewertung nach dem HITL-Prinzip (Human-in-the-Loop), um in Bezug auf die Übersetzungsqualität zu umfassenden Ergebnissen zu gelangen. Alle Outputs wurden erfahrenen, mit dem Thema vertrauten Sprachexperten als Blindtest vorgelegt, damit eine neutrale Bewertung gewährleistet war. Sie bewerteten an Kunden gelieferten MTPE-Content (Machine Translation Post-Edited) neu und erstellten detaillierte Scorecards (fünf pro Sprache) mit Analysen auf Segmentbasis und Kommentaren für die weitere Bewertung.

Diese HITL-Bewertungen kamen zu einem eindeutigen Ergebnis: LLMs können zwar akzeptable Übersetzungen liefern, doch es kommt immer wieder zu Fehlern, die eine Intervention durch menschliche Sprachexperten erforderlich machen. NMÜ-Systeme zeigten eine bessere Performance, die den Post-Editing-Aufwand reduzieren. PED (Post-Edit Distance) und TER (Translation Edit Rate) lagen unter denen von LLMs wie GPT-4. Die HITL-Bewertung zeigte je nach Sprache unterschiedliche Fehlerraten. Einige Sprachen, darunter Schwedisch, haben im Vergleich zu anderen wie Französisch eine höhere Fehlerrate und scheinen eine größere Herausforderung darzustellen. Das zeigt, dass eine Überprüfung durch menschliche Sprachexperten vor allem bei komplexen oder seltener übersetzten Sprachen nach wie vor nötig ist.

Höhere Übersetzungspräzision mit KI: Die automatisierten Workflows von Acolad

Bedeutung für die Zukunft von LLMs und maschinellem Übersetzen

Auch wenn in der Zukunft weitaus bessere LLMs zu erwarten sind, scheinen NMÜ-Modelle bisher konsistentere Ergebnisse zu liefern und sich per Post-Editing besser überarbeiten zu lassen. Das gilt vor allem für Real-World-Content, der in klassischen Workflows mit Translation-Management-Systemen bearbeitet wird.

Außerdem ist zu beachten, dass NMÜ-Modelle, die umfassend mit spezifischem Fach-Content und -Vokabular trainiert wurden, weniger technische Probleme aufzuweisen scheinen als Systeme auf Grundlage von generativer KI.

NMÜ überzeugen über eine vor allem langfristig höhere Prädiktabilität in allen betrachteten Sprachen. Wir haben in einer früheren Studie auch den Output von generischen NMÜ-Systemen mit dem von LLMs verglichen. Hier war die Qualität zwar niedriger (höherer PED usw.), doch die Prädiktabilität des Outputs blieb konstant. Bei LLMs nimmt die Qualität schnell ab. Das gilt vor allem, wenn die Ausgangssprache nicht Englisch ist, sowie für seltener übersetzte Sprachen im Allgemeinen. Die Qualität des Content-Outputs kann über längere Zeiträume hinweg variieren.

Ein Beispiel hierfür sind sogenannte KI-Halluzinationen, die vor allem in seltener übersetzten Sprachen vorkommen. Sie beeinträchtigen den Output teilweise so stark, dass eine Übersetzung kaum noch sinnvoll ist. Das betrifft zum Beispiel technischen Content wie URLs, kunden- oder fachspezifische Terminologie und kurze Sätze. LLMs können bei der Verarbeitung von Content-Batches hier noch keine zuverlässigen Ergebnisse liefern.

Allgemein zeigt die Acolad-Studie, dass LLM-Output im Vergleich NMÜ-Output, der von menschlichen Sprachexperten überarbeitet wird, zwar relativ gut abschneidet, aber bei komplexem Content mit strukturellen Elemente wie Formatierung und Inline-Tags große Schwächen aufweist.

Außerdem müssen für die verschiedenen Sprachen und Modelle relativ komplexe Prompts geschrieben werden. Das führt bei einer umfassenderen Verwendung von LLMs im Übersetzungs-Workflow zu höheren Gesamtkosten der Übersetzung, auch wenn die eigentlichen Bearbeitungskosten sinken.

Für die automatische Übersetzung großer Content-Mengen ohne menschliche Beteiligung oder Post-Editing sollte daher bis auf Weiteres auf eine hochwertige, bewährte NMÜ-Lösung zurückgegriffen werden.

Wie bereits erwähnt, ist selbst eine maschinelle Übersetzung mit anschließendem Post-Editing durch Sprachexperten immer noch kostengünstiger als eine Übersetzung mittels generativer KI. Die Anpassung der Prompts zur Verbesserung der LLMs dauert einfach zu lange. NMÜ überzeugt außerdem durch eine geringere PED (Post-Edit Distance) und TER (Translation Edit Rate). Die Korrektur des Outputs ist also weniger aufwändig als bei LLMs.

Trotz dieser Ergebnisse ist klar: LLMs auf Basis generativer KI spielen eine große Rolle bei der Übersetzungsautomatisierung. Das gilt vor allem, wenn die Modelle in Zukunft immer besser werden. Es gibt vielversprechende Ansätze, um MÜ-Output zum Beispiel im Anschluss an die Übersetzung stilistisch zu überarbeiten. Es deutet viel darauf hin, dass LLMs eine wichtige Rolle bei der Qualitätsbewertung spielen könnten, was sich in der Übersetzung zum Beispiel in den Bereichen selbstreflektierendes Post-Editing auswirken würde.

Es bleibt außerdem abzuwarten, wie LLMs mit Doppeldeutigkeiten, Idiomen, kulturellen Referenzen und auch Humor umgehen. Hier haben viele MÜ-Modelle je nach Datensatz, der ihnen zugrunde liegt, traditionell ihre Probleme.

NMÜ ODER LLM: Wie treffe ich die richtige Wahl?

Ob sich für Sie ein neuronales maschinelles Übersetzungssystem (NMÜ) oder ein Large Language Model (LLM) eignet, hängt von Ihrem Übersetzungsbedarf und dem Kontext ab, in dem die Technologie eingesetzt werden soll. Wenn es um schnelle, präzise Übersetzungen geht, sind NMÜ-Engines das Mittel der Wahl. Sie werden speziell an die jeweiligen Themen und Aufgaben angepasst und übertreffen LLMs normalerweise bei der Übersetzungsgenauigkeit. Doch die Investitions- und Trainingskosten sind hoch und die Übersetzungen wirken manchmal etwas steif.

Wenn Ihnen eine natürliche Sprache wichtig ist – das gilt vor allem für Englisch – und Sie sich die Zeit nehmen, die Ergebnisse regelmäßig zu verfeinern, bieten sich LLMs an. Sie sind zwar langsamer und brauchen im Vergleich zu NMÜs wesentlich mehr Ressourcen, aber die Ergebnisse lassen sich mit ein wenig Übung in Prompt-Engineering deutlich verbessern. Dabei sollten Sie aber im Auge behalten, dass sie oft inkonsistente Ergebnisse und Fehler produzieren, darunter Halluzinationen oder irrelevante Ergänzungen.

Zusammenfassend lässt sich sagen: NMÜ eignet sich für schnelle, präzise Übersetzungen, sofern das Budget für eine entsprechende Investition zur Verfügung steht. LLMs sind sinnvoll für freieren Content, da sie natürlich klingendere Texte erzeugen. Allerdings ist hier der Korrekturaufwand höher.

Neuronale maschinelle Übersetzung


  • Gute Ergebnisse in kurzer Zeit.

  • Speziell für Übersetzungen entwickelt, hinsichtlich der Genauigkeit meist besser als LLMs.

  • Dies kann gelegentlich zu weniger natürlichen Übersetzungen führen.

  • Es werden Schulungen angeboten, die jedoch eine erhebliche Investition erfordern können.

Large Language Models


  • Langsamer als NMÜs.

  • Erzeugt natürliche klingende Texte, vor allem auf Englisch.

  • Lässt sich mit speziellen Methoden und Benutzer-Input verbessern – Stichwort Prompt-Engineering.

  • Liefert manchmal inkonsistente, nicht vorhersehbare Ergebnisse, darunter Halluzinationen, Auslassungen oder Ergänzungen.
freelancer-avatars-centered 1

Sie sind auf der Suche nach der besten Technologie für Ihren Bedarf?