Hvad betyder dette for fremtiden for LLM-modeller og maskinoversættelse?
Når vi kigger ind i en fremtid, hvor LLM-modeller bliver mere og mere sofistikerede, ser det i øjeblikket ud til, at NMT-modeller generer et bedre output, der er nemmere at efterredigere for at opnå høj kvalitet, især når det kommer til indhold fra den virkelige verden, der behandles i klassiske TMS-systemer.
Det er også vigtigt at nævne, at godt trænede NMT-modeller (der bruger indhold inden for specifikke domæner og en bestemt terminologi) ikke præsenterer nogle af de tekniske udfordringer og spidsfindigheder, der ofte ses ved brug af generativ AI.
NMT tilbyder større forudsigelighed, især over tid og på tværs af mindre udbredte sprog. Tidligere sammenlignede vi også generisk NMT-output med LLM-output, og selvom kvaliteten var dårligere (højere PED-score osv.), var resultatet mere forudsigeligt, da det ofte var enslydende. Med LLM-modeller aftager kvaliteten hurtigt. Det gælder især, hvis kildesproget ikke er engelsk, og hvis sproget generelt ikke er særligt udbredt. Outputtet kan variere over tid.
Et eksempel relaterer sig til AI-hallucinationer, især i mindre udbredte sprog, der kan påvirke outputtet i en sådan grad, at oversættelsen simpelthen bliver ubrugelig. Dette blev set i ukorrekt håndtering af teknisk indhold som URL'er, kunde- eller domænespecifik terminologi og korte sætninger. Med andre ord kan LLM-modeller ikke producere pålidelige resultater, når de skal behandle store mængder indhold eller indhold i stor skala – i hvert fald ikke endnu.
Helt generelt viste kombinationen af Acolads resultater og menneskelig gennemgang, at selvom LLM-outputtet scorede relativt højt, havde LLM-modellerne svært ved at håndtere mere komplekst indhold med strukturelle elementer som formatering og in-line tags.
Med kravet om at skulle kunne håndtere relativt komplekse prompts på tværs af sprog og modeller vil en bredere implementering af LLM-teknologi i oversættelse gøre oversættelsesprocessen endnu dyrere, selvom udgifterne til selve tekstbehandlingen falder.
Sådan som det ser ud nu, betyder det altså, at det højst sandsynligt er bedre at anvende en maskinoversættelsesløsning, hvis kvalitet er blevet påvist, hvis du vil have automatiserede oversættelser af store mængder indhold uden menneskelig indblanding eller efterredigering.
Som vi allerede har været inde på, kan det være mere omkostningseffektivt at anvende maskinoversættelse fremfor generativ AI, også selvom du involverer menneskelig ekspertise i revisionsfasen af det automatisk oversatte output. Årsagen er, at du sparer tid på at gentage prompts med henblik på at forfine outputtet fra LLM-modellen. Derudover har NMT en lavere PED-score (Post-Edit Distance) og TER-rate (Translation Edit Rate), hvilket betyder, at NMT-outputtet kræver færre rettelser sammenlignet med LLM.
På trods af resultaterne er der ingen tvivl om, at LLM-modeller baseret på generativ AI stadig har en stor rolle at spille, når det kommer til automatiserede oversættelser – især i takt med at modellerne forfines. De besidder eksempelvis et spændende potentiale, når det kommer til stilistisk at forbedre MT-output. Analysen præsenterer stærke beviser på, at LLM-modeller kan komme til at spille en afgørende rolle i kvalitetsvurdering, hvilket kan understøtte oversættelsesprocessen, for eksempel med selvreflekterende efterredigering.
Der hersker altså ingen tvivl om, at LMM-modellerne byder på spændende muligheder, når det kommer til at håndtere tvetydigheder, idiomer, kulturelle referencer og endda humor – elementer, som nogle MT-modeller tidligere har haft udfordringer med.