Home / Services / Oversættelse / Maskinoversættelse / MT-kvalitetsmålinger

Opdateret 23. oktober 2023

Betydningen af kvalitetsmål i maskinoversættelse

Lær om de forskellige tilgange, når kvaliteten af maskinoversættelse skal evalueres – og hvad det betyder for dine oversættelses- og lokaliseringsbehov.

Hands interacting with a laptop keyboard, illustrating the concept of social media engagement, online communication, and digital networking.

Maskinoversættelse (MT) bliver stadig mere populær og avanceret efterhånden som teknologien udvikles, og forventningerne til kvaliteten stiger tilsvarende. Oversættelseskunder står over for spørgsmålet, om kvaliteten af MT er tilstrækkelig til deres formål, og om yderligere menneskelig post-editing og revidering er nødvendig.

Enhver post-editor og leverandør af sprogtjenester er nødt til at finde frem til, om den rå maskinoversættelse kan forbedres for at leve op til kundens forventninger – og hvad omkostningerne vil være. Det kan være et vanskeligt problem at løse, men det kan helt sikkert løses med den rigtige metode og know-how.

Vi ved, at MT ikke altid er pålidelig, og at dens rå resultat skal revideres, men hvordan ved vi, om MT rent faktisk sparer arbejde, samtidig med at vi skal leve op til menneskelige kvalitetsstandarder? Hvordan kan vi bestemme den indsats, som MT sparer, sammenlignet med menneskelig oversættelse helt fra bunden? Vi har trods alt ikke lyst til at spilde tid og arbejde.

Derfor har vi brug for nogle metoder til at vurdere kvaliteten af de rå maskinoversættelser. Folk forventer som regel, at MT, som er en automatisk produceret oversættelse, også har automatisk producerede indikatorer for dens nøjagtighed og korrekthed – eller i det mindste at der findes værktøjer, som automatisk kan bedømme MT-kvaliteten og indikere, hvor meget efterredigering oversættelsen kræver. Desværre er det ikke så let.

Smilende kvinde arbejder på bærbar computer

Hvordan kan vi alligevel evaluere oversættelseskvalitet?

For bedre at kunne forstå, hvordan vi kan vurdere kvaliteten af maskinoversættelser, giver det mening at se på, hvordan vi vurderer oversættelser, som mennesker har lavet.

Bedømmelsesskalaen for menneskelige oversættelser omfatter (men er ikke begrænset til) Multidimensional Quality Metrics (MQM), Dynamic Quality Framework (DQF) og J2450 Translation Quality Metric. Disse skalaer bruges til at vurdere kvalitetskriterier som sproglig korrekthed, forståelighed, læsbarhed, kulturelle omskrivninger osv.

Disse vurderingsmetoder giver som regel en samlet score, der afspejler mængden af fejl og alvorligheden af dem for en del af en given tekst. Denne slags score kan tilpasses den specifikke kontekst (f.eks. med tilpassede fejlmargener), så du kan afgøre, om en oversættelse er god eller dårlig, altså om den imødekommer dine behov eller ej. Så langt, så godt.

Uanset hvilken bedømmelsesskala du vælger, og hvordan du definerer dine fejlmargener, afhænger registreringen og klassificeringen af fejl for disse skalaer helt af menneskelige korrekturlæsere.

Og det er netop disse dårlige nyheder, du har ventet på: Kvalitetsvurdering af maskinoversættelse er en manuel opgave, som kræver en rigtig person.

Teknisk medarbejder, der koder med tre skærme

Set i det lys, hvad er så pointen med en automatisk score for maskinoversættelse?

Svaret er enkelt: En automatisk score kan være gavnlig – men i hvor høj grad afhænger af dine forventninger.

Udfordringerne i at vurdere den faktiske oversættelseskvalitet forsvinder ikke på magisk vis, når man går fra menneskelige oversættelser til maskinoversættelser. Desuden er der forskellige parametre til at måle kvaliteten af maskinoversættelse, og metoden, som du skal bruge, afhænger af, hvad du gerne vil vide.

Hvis du f.eks. gerne vil vurdere, om maskinoversat indhold kan bruges uden efterredigering til et specifikt formål, skal du grundlæggende bruge de samme vurderingskriterier som ved en menneskelig oversættelse. Her bruger man en dygtig sprogekspert til at korrekturlæse oversættelse og kildeteksten og klassificere fejlene, hvilket resulterer i en score, der viser, om den rå MT bestod eller dumpede i den relevante kontekst. Der er ingen vej uden om: Hvis du vil være sikker på, at en given maskinoversat tekst lever op til dine kvalitetskrav, skal du gøre brug af menneskelig korrekturlæsning.

Men hvis du nu ønsker at finde ud af noget andet? Hvis du f.eks. ønsker at sammenligne MT med MT – dvs. ønsker at få en overordnet forståelse af, hvor godt en specifik MT-maskine arbejder i en konkret testsituation sammenlignet med andre maskiner? Hvis du vil lave komparative vurderinger, er "bilingual evaluation understudy" (BLEU) nok den metode, der passer bedst til dine behov.

Sidst, men ikke mindst, kommer det vigtigste spørgsmål, hvad angår efterredigering: Sparer vi tid på at efterredigere MT-oversættelse i stedet for selv at oversætte fra bunden? Hvis ja, hvor meget tid sparer vi så? Hvis du vil være sikker på, at du ikke spilder din tid, kan "post-edit distance" (PED) være den metode, som du er på udkig efter.

Lad os se nærmere på BLEU og lignende metoder samt PED for at få en bedre forståelse af, hvad de rent faktisk måler.

En kvinde tager noter på en bærbar computer med forskellige nationale flag ved siden af sig.

BLEU og lignende metoder – Der er kun ét korrekt svar

BLEU-evalueringsmetoden og lignende metoder til beregning af en score såsom HTER (Human-targeted Translation Error Rate) eller LEPOR (Length Penalty, Precision, n-gram Position difference Penalty and Recall) blev udviklet af MT-ingeniører som en hurtig og billig måde til at evaluere resultatet af MT-maskinens indstilling, fordi de ikke kræver noget menneske til at foretage evalueringen. Det betyder imidlertid, at de heller ikke nødvendigvis kommer med de samme svar, som hvis et menneske foretager evalueringen.

Sådan virker BLEU

BLEU er baseret på antagelsen om, at der kun er én god oversættelse af en tekst, og MT-kvaliteten er den grad, hvormed et MT-resultat er lig med denne oversættelse. Den "gode oversættelse" kaldes referenceoversættelsen og er en tekstprøve på både udgangssproget og målsproget. Mere konkret er det en tekstdel, der er oversat af et menneske på forhånd, og som anses for at være af god kvalitet.

Vurderingen sker derfor direkte med udgangspunkt i den referencetekst. Kildeteksten er oversat af en eller flere MT-maskiner, og en algoritme beregner forskellen mellem hvert MT-resultat og referenceoversættelsen. Resultatet er den såkaldte BLEU-score, der udtrykkes som en værdi mellem 0 og 1 eller mellem 0 % og 100 %. Jo højere BLEU-scoren er, jo mere ens er de to tekster.

Manglerne ved BLEU

Mens måden, hvorpå denne metode beregner ligheden, er meget avanceret, så er det primære problem med BLEU og lignende parametre, at de antager, at der kun findes en god oversættelse af hver tekst. Imidlertid er professionelle lingvister af den opfattelse, at der kan være flere passende oversættelser af en given udgangstekst.

BLEU vurderer ikke oversættelseskvaliteten som sådan, men snarere graden, med hvilken en specifik maskine kan imitere bestemte referencetekster.

Det er klart, at BLEU-scorene for den samme MT-maskine vil være forskellige afhængigt af referenceteksten. Det er ligeledes klart, at en BLEU-score, der er beregnet med udgangspunkt i en referencetekst af dårlig kvalitet, på ingen måde afspejler MT-kvaliteten. Desuden vil scoren afhænge af størrelsen af den prøve, som du bruger, tegnsætningen for de målte sprog og andre faktorer. Det er slet ikke ligetil.

Det er også klart, at BLEU ikke vil kunne levere en kvalitetsbedømmelse af nye tekster, fordi det kræver et testforløb med en allerede oversat (dvs. humanoversat) referencetekst. Du kan ikke anvende BLEU til at måle kvaliteten af maskinoversættelse, der aldrig før har været oversat af mennesker, hvilket gør den uanvendelig til forudsigelser.

BLEU er derimod et velegnet instrument til at måle effekten af maskintræning og – i nogen grad – til at sammenligne maskiner fra forskellige MT-udbydere. Derimod er det vigtigt at bemærke, at BLEU-scoren ikke er en fastlagt egenskab for en MT-maskine, men derimod resultatet af et testforløb. Den samme maskine vil nå frem til en forskellig score afhængigt af referenceteksten.

Bedømmelse af BLEU

Mens BLEU normalt korrelerer med et menneskes vurdering af MT-kvalitet, svarer den ikke altid på spørgsmålet vedrørende kvaliteten af en given tekst Den viser udelukkende, hvor sandsynligt det er, at en tekst identisk med referenceoversættelsen vil være korrekt. Desuden er der tegn på, at brugen af BLEU, selv med denne begrænsede mulighed for anvendelse, er ved vejs ende.

To kolleger med forskellige baggrunde arbejder sammen på en bærbar computer i et moderne kontorlokale, hvor den ene tager noter, mens den anden betjener computeren.

PE Distance – Måling i den virkelige verden

Hvordan virker PED

Post-edit distance (PED) måler omfanget af redigering, som en maskinoversat tekst har brug for, hvis den skal leve op til kvalitetsforventningerne. Sammenlignet med BLEU er den primære forskel, at den humanoversatte referencetekst rent faktisk er baseret på MT, hvilket øger sandsynligheden for, at maskinoversættelse og humanoversættelse ligner hinanden eller er identiske. Det skyldes, at oversættere med lang erfaring inden for post-editing ikke vil foretage unødvendige ændringer af MT. Såfremt oversætterne har udført deres arbejde korrekt, er PED meget bedre til at vise, om MT er egnet til post-editing, end det er tilfældet med BLEU.

Betyder det, at enhver lingvist med erfaring inden for post-editing kan udføre post-editing til en PED-analyse? Ikke helt. Den vigtige faktor er her, at oversætteren rent faktisk forstår kundens forventninger til tekstens kvalitet. En maskinoversættelse kan være flydende uden nogen åbenlyse forståelsesfejl, men stadig ikke leve op til kvalitetsforventningerne. F.eks. er en kundespecifik terminologi eller stil måske ikke blevet anvendt, teksten overskrider eventuelt længdebegrænsninger, eller formateringsoplysninger kan være gået tabt. Kort fortalt har du brug for en lingvist med både erfaring i post-editing og viden om kunden.

Med PED kræves der betingelser fra den virkelige verden for at finde frem til pålidelige tal, og post-editing-afvigelsen kan kun beregnes med udgangspunkt i post-editing, der lever op til kundens forventninger. En algoritme beregner forskellen mellem den rå MT og post-editing-oversættelsen og fremkommer med en værdi for hvert segment og hver tekstprøve. Denne værdi viser, hvor mange procent af den rå MT, der blev genbrugt at oversætteren, begyndende ved 100 % (dvs. oversætteren foretog ingen ændringer af segmentet eller teksten) og nedefter. En høj PED-score betyder en reel effektivitetsgevinst for oversætteren.

Hvordan er forholdet mellem PED-scores og post-editing?

En tommelfingerregel siger, at jo højere PED-scoren er, desto lavere er arbejdsindsatsen. Som det er tilfældet med matches fra oversættelseshukommelse, skal man op på en bestemt procentsats, for at man kan tale om en reel gevinst i effektivitet. Hvis den samlede PED-værdi for en bestemt type tekst konstant ligger under denne tærskel, vil MT ikke spare tid.

Er en høj PED-værdi således ensbetydende med, at oversætteren ikke skulle rette noget, og skal man betale for efterredigering, hvis PED er tæt på 100 %? Svaret er: Hvis du vil have efterredigering, så koster det. Det er vigtigt at holde sig for øje, at selvom PED-værdien er meget høj, skal oversætteren stadig udføre et stykke arbejde. Oversætteren har udført en komplet redigering af målteksten og sammenlignet den med kildeteksten, tjekket om terminologien, der er anvendt af MT-systemet, er korrekt, og vedkommende har muligvis udført ekstra research, tjekket op på uklarheder osv. Derfor er indsatsen i forbindelse med post-editing aldrig lig nul, heller ikke i tilfælde af næsten ingen redigering. Man kan sammenligne det med at få en anden læges vurdering. Det faktum, at begge læger kommer til samme konklusion, er ikke ensbetydende med, at den anden læge ikke behøvede at undersøge patienten grundigt.

Pålidelig forudsigelse for post-editing

Ved at analysere PED-værdier for en tilstrækkelig stor volumen af ens tekst, kan du få en pålidelig angivelse af den indsats, der er anvendt, og måle effektivitetsgevinsten. Mindre usystematiske prøver er ikke velegnede til den form for analyse, da de kan resultere i PED-tal, der er for positive eller negative og i sidste ende ikke repræsentative for gennemsnitsresultater fra den virkelige verden. Heldigvis betyder tests med en passende volumen ikke øgede omkostninger for den normale oversættelsesproces. Vi ved, hvad vi har med at gøre, så tøv endelig ikke med at spørge din kontaktperson hos Acolad, om du kan få en MT-pilotprøve og dermed finde ud af, hvad dine mulige besparelser kunne være.

En smilende mand skriver på en tablet-computer

Kvaliteten af maskinoversættelse - hvilket system er bedst?

Hos Acolad ved vi, hvad det kræver at producere oversættelser af høj kvalitet, og vi vælger vores menneskelige oversættere og MT-maskiner på den baggrund.

Ville vi arbejde sammen med en menneskelig oversætter, der leverer fremragende kvalitet, men som er kendt for at dele kundeindhold på sociale platforme og afsløre forretningshemmeligheder? Eller en, som ikke er i stand til at tilpasse sig de tekniske krav, og som jævnligt begår fejl i XML-struktur og -indhold? Det ville jo være vanvittigt! Og det ville også være helt vanvittigt, hvis du blev hos en leverandør af sprogtjenester, der tillader en sådan adfærd.

Kunne vi dernæst finde på at spørge en enkelt oversætter om at levere oversættelser på alle vores målsprog og inden for samtlige emner? Det ville være mindst lige så vanvittigt.

De samme overvejelser gør sig gældende for MT, og vi har udviklet en fornuftig tilgang til den udfordring: Vi anvender en række kriterier, når det kommer til udvælgelsen af MT-maskiner, og det er ikke alle kriterier, der drejer sig om den sproglige kvalitet – selvom det er en meget vigtig brik i puslespillet. For at anvende maskinoversættelse i vores processer på en sikker og effektiv måde tager vi også fortrolighed, tilgængelighed og bæredygtige tjenesteydelser (inklusive API), samlede omkostninger og systemets generelle robusthed med i overvejelserne.

Vi definerer robusthed som evnen til at producere god lingvistisk kvalitet uden for laboratorieomgivelser, herunder tolerance i forhold til bestemte typer af skrivefejl i udgangsteksten, kreativ formatering og talemåder fra andre sprog i udgangsteksten. Desuden bedømmer vi kvaliteten af integrationen i det relevante oversættelseshukommelsesværktøj.

I sidste ende findes der ikke en løsning, der passer til alle, og der kræves en specifik kontekst for at kunne svare på spørgsmålet om, hvilket MT-system der er bedst. Teknologi udvikler sig hurtigt, og vores foretrukne teknologi fra sidste år er måske ikke det bedste valg i dag. Vi holder os opdateret på den seneste teknologiske udvikling i branchen, så du ikke behøver at være MT-ekspert, og vi holder øje med markedet, så du kan vælge den bedst mulige oversættelsesmaskine til dit behov.

Det vigtigste at vide om kvalitetsvurdering af maskinoversættelse

Det viser sig altså, at såkaldte MT-kvalitetsindikatorer såsom BLEU, LEPOR, TER eller PED rent faktisk ikke måler kvaliteten. Men der er gode nyheder: De leverer de KPI'er, som vi skal bruge, når der skal træffes beslutninger om kvalitet.

Praktisk talt foregår vurderingen af den faktiske sproglige kvalitet i en oversættelse, hvad end den er lavet af et menneske eller en maskine, stadig i form af manuelt arbejde. Der findes på nuværende tidspunkt ingen automatiseret kvalitetsscore, og det er netop derfor, det er en fordel at have eksperter til rådighed inden for målsprogene, når det gælder udvælgelsen af det rigtige system og vurderingen af nye teknologier.

På grund af hastigheden af den teknologiske udvikling vil vi sandsynligvis komme til at se flere automatiserede løsninger til at bedømme oversættelseskvaliteten i den nærmeste fremtid. Indtil da har Acolad styr på begivenhedernes gang.