Wat betekent dit voor de toekomst van LLM's en machinevertaling?
In de toekomst zullen LLM's steeds beter worden, maar voorlopig leveren afgestelde NMT-modellen consistentere resultaten die slechts beperkte post-editing vereisen met het oog op hoge kwaliteit, met name met content uit de echte wereld die verwerkt wordt in het kader van de traditionele workflows van een vertaalbeheersysteem.
Het is ook belangrijk om op te merken dat uiterst getrainde NMT-modellen (die specifieke domeincontent en terminologie maken) niet onderworpen zijn aan een aantal technische uitdagingen en afwijkingen die blijven opduiken bij gebruik van generatieve AI.
NMT biedt hogere voorspelbaarheid, vooral in verloop van tijd en bij aangepaste talen. Wij vergeleken eerder ook generische NMT-output met de output van LLM's, en hoewel de kwaliteit lager is (meer post-edits, enz.), is de voorspelbaarheid van de output consistent. Met LLM's vermindert de kwaliteit snel, vooral wanneer Engels niet de brontaal is en in het algemeen voor talen met minder resources. De contentoutput kan in verloop van tijd aanzienlijk veranderen.
Eén voorbeeld heeft betrekking op AI-hallucinaties – met name bij talen met minder resources – die de output zo kunnen beïnvloeden dat de vertaling gewoonweg niet bruikbaar is. Dit was het geval bij de onjuiste behandeling van technische content zoals URL's, klant- of domeinspecifieke terminologie en korte zinnen, wat betekent dat LLM's nog niet zulke betrouwbare resultaten opleveren wanneer content in grote batches of op grote schaal wordt verwerkt.
Over het algemeen bleek uit de resultaten van Acolad in combinatie met deskundige menselijke revisie dat hoewel de LLM-output een vrij hoge score behaalde, LLM's moeite hadden met ingewikkeldere content met structurele elementen, zoals formattering en inline tagging.
Door de vereiste om vrij complexe prompts in verschillende talen en modellen te beheren, zorgt de ruimere toepassing van LLM-technologie in vertaalworkflows voor een toename van de totale vertaalkosten, ondanks de dalende zuivere verwerkingskosten.
Heb jij een geautomatiseerde vertaling nodig van grote hoeveelheden content zonder menselijke input of post-editing, dan is het voorlopig inderdaad beter dat jij een beroep doet op een kwaliteitsvolle, bewezen machinevertaaloplossing.
Zoals reeds opgemerkt, kan het – zelfs bij een human-in-the-loop-aanpak voor het editen van automatische vertaaloutput – nog steeds kosteneffectiever zijn om machinevertaling te gebruiken i.p.v. generatieve AI en dit simpelweg door de tijd die jij bespaart met de herhaling van prompts om de output van het LLM te verbeteren. Bovendien heeft NMT een lagere score op het gebied van Post-Edit Distance (PED) en Translation Edit Rate (TER), wat betekent dat er minder verbeterwerk nodig is dan bij een LLM.
Ondanks deze resultaten is het duidelijk dat LLM's op basis van generatieve AI nog steeds een grote rol zullen spelen bij de automatisering van vertalingen – zeker wanneer de modellen verfijnd worden. Het biedt interessante potentiële gebruikstoepassingen, bijvoorbeeld bij het stilistisch herschrijven van MT-output. Er zijn sterke aanwijzingen dat LLM's een cruciale rol kunnen spelen bij de evaluatie van de kwaliteit en dit kan zorgen voor ondersteuning van bepaalde vertaalcapaciteiten zoals post-editing met zelfreflectie.
Zij bieden duidelijk interessante mogelijkheden wanneer het gaat om dubbelzinnigheden, idiomen, culturele verwijzingen en zelfs humor. Allemaal zaken waarmee MT-modellen het oorspronkelijk moeilijk hadden door de beperkte datareeksen die gebruikt werden om hun modellen te ontwikkelen.