Uppdaterad 23 oktober 2023

Vad innebär kvalitetsåtgärderna för maskinöversättning?

Förstå de olika metoderna att utvärdera kvaliteten på en maskinöversättning – och vad de betyder för era behov av översättning och lokalisering.

Hands interacting with a laptop keyboard, illustrating the concept of social media engagement, online communication, and digital networking.

Maskinöversättningar (MT) växer i popularitet och blir mer sofistikerade i takt med att tekniken mognar. Förväntningarna på kvaliteten ökar i motsvarande grad. Frågan som översättningskunder ställs inför är om kvaliteten med MT räcker för deras syften, eller om det krävs processer för efterredigering och granskning av mänskliga experter.

Varje leverantör av efterredigering och språktjänster måste fastställa om de kan förbättra resultatet av en rå maskinöversättning för att möta kundernas förväntningar – och till vilken kostnad. Det är ett problem som kan vara knepigt att lösa, men det kan definitivt övervinnas med rätt metodik och kunskap.

Vi vet att MT inte alltid är tillförlitligt och att den råa produkten behöver ses över, men hur vet vi om det faktiskt kommer att bespara oss arbete när vi måste upprätthålla mänskliga kvalitetsstandarder? Hur avgör man storleken på arbetsbesparingen jämfört med att göra en mänsklig översättning från början? Vi vill inte gärna slösa med tid och kraft,

och just därför behöver vi metoder för att utvärdera kvaliteten hos maskinell råöversättning. De flesta människor förväntar sig att MT, en automatiskt genererad översättning, ska åtföljas av en automatiskt genererad uppskattning av översättningens noggrannhet eller tillförlitlighet, eller att det åtminstone finns verktyg som automatiskt bedömer MT-kvaliteten och ger rekommendationer om hur mycket efterredigering som behövs. Tyvärr är det inte så enkelt.

Leende kvinna som arbetar på laptop

Hur utvärderar man ens kvaliteten på en översättning?

För att få en bättre förståelse för hur man kan utvärdera kvaliteten hos maskinöversättning ska vi först titta på hur man för närvarade utvärderar kvaliteten hos mänsklig översättning.

Bland standarderna för mänsklig översättning kan nämnas Multidimensional Quality Metrics (MQM), Dynamic Quality Framework (DQF) samt J2450-standarden för översättningskvalitet. Dessa standarder används för att utvärdera språkliga kvalitetskriterier som korrekthet, begriplighet, flyt, kulturell lämplighet och så vidare.

Dessa utvärderingsmetoder utmynnar vanligen i ett sammanlagt poängvärde som återspeglar antalet misstag och dessas allvarlighetsgrad i förhållande till den givna textens längd. Sådana poängvärden kan finjusteras för att passa det aktuella användningsområdet (exempelvis genom att justera trösklarna), så att man kan bedöma om en översättning är bra eller dålig – med andra ord, om den fyller sitt syfte eller ej. Så långt allt väl.

Men oavsett vilken standard vi väljer – och hur vi än sätter våra trösklar – måste uppgiften att upptäcka och klassificera fel enligt dessa indikatorer fortfarande åläggas mänskliga korrekturläsare.

Och nu kommer den dåliga nyheten som du suttit och väntat på: Denna uppgift förblir en mänsklig, manuell uppgift även vid bedömning av maskinell översättningskvalitet.

teknisk arbetare som kodar med tre skärmar

Så, vad är då poängen med automatisk poängsättning av maskinöversättningarnas kvalitet?

Svaret är enkelt: Den automatiska poängsättningen är användbar – men hur pass användbar den är beror på vilket svar du förväntar dig.

Svårigheten med att bedöma faktisk översättningskvalitet trollas inte bort när man går från mänsklig till maskinell översättning. Dessutom finns det olika sätt att mäta maskinöversättningens kvalitet, och vilket man ska använda beror på vad man vill veta.

Om du till exempel vill utvärdera om det maskinöversatta innehållet kan användas utan efterredigering i ett visst användningsfall, använder du i praktiken samma kvalitetsutvärdering som för en mänsklig översättning: En kvalificerad språkexpert granskar översättningen och dess källa, klassificerar fel och får på så sätt fram en poäng som visar om den råa maskinöversättningen är godkänd eller underkänd i det relevanta sammanhanget. Det finns inga magiska genvägar: Om ni vill vara säkra på att en viss maskinöversatt text uppfyller era kvalitetsförväntningar måste ni använda er av mänsklig granskning.

Men om ni har en annan fråga då? Om ni till exempel vill jämföra MT med MT – det vill säga för att få en allmän uppfattning om hur väl en viss översätningsmotor fungerar för en given testuppsättning jämfört med andra motorer? För sådana jämförande utvärderingar kan metoden med tvåspråkig utvärdering (BLEU) passa era behov bäst.

Slutligen har vi kommit fram till den viktigaste frågan när det gäller efterredigering: Sparar vi arbete i översättningen genom att efterredigera maskinöversättning jämfört med att översätta från grunden? Och i så fall, hur mycket? Vill ni vara säkra på att tekniken inte kostar mer än den smakar, kan så kallad post-edit distance (PED) vara mätmetoden för er.

Låt oss ta en närmare titt på BLEU, PED och liknande metoder för att få en uppfattning om vad de faktiskt mäter.

En kvinna gör anteckningar på en laptop med olika nationalflaggor bredvid sig

BLEU och liknande metoder – Det finns bara ett rätt svar

Den tvåspråkiga utvärderings-metoden BLEU och liknande metoder som HTER (Human-targeted Translation Error Rate) och LEPOR (Length Penalty, Precision, n-gram Position difference Penalty and Recall) har utvecklats av MT-ingenjörer som ett snabbt och billigt sätt att utvärdera justeringar av översättningsmotorn, eftersom de inte kräver en mänsklig utvärderare. Men det betyder också att de inte ger samma svar som en mänsklig utvärderare kan ge.

Så fungerar BLEU

BLEU bygger på antagandet att det bara finns en rätt översättning av en text, och att maskinöversättningskvalitet innebär hur väl den liknar den rätta översättningen. Den ”rätta översättningen” kallas referensöversättning och består av text på både källspråk och målspråk. Mer konkret så handlar det om ett stycke text som har översatts av en människa och som anses hålla god kvalitet.

Mätningarna görs därför utifrån just denna referenstext: Källtexten översätts av en eller flera MT-motorer, och en algoritm beräknar skillnaden mellan varje enskilt MT-resultat och referensöversättningen. Resultatet är den så kallade BLEU-poängen, som uttrycks som ett tal mellan 0 och 1, eller mellan 0 % och 100 %. Ju högre BLEU-poäng, desto mer lika är de två texterna.

Bristerna med BLEU

Även om den här metoden beräknar likhet på ett ganska sofistikerat sätt är det primära problemet med BLEU och liknande mått antagandet att det bara finns en rätt översättning av en text. Men professionella lingvister vet att det kan finnas flera fullgoda översättningar av en given källtext.

BLEU som sådant mäter inte precis översättningens kvalitet, utan snarare i vilken mån en viss motor kan efterlikna vissa referenstexter.

Det är lätt att se att BLEU-poängen för en och samma MT-motor kommer att variera för olika referenstexter. Det är också lätt att inse att en BLEU-poäng som erhållits med en referenstext av låg kvalitet inte alls återspeglar MT-kvaliteten. Poängen påverkas även av textprovets storlek, teckenuppsättningen för de ingående språken och andra faktorer. Nu verkar det inte så enkelt längre, eller hur?

Dessutom kan BLEU inte ge en kvalitetsbedömning av nya texter eftersom det krävs ett testscenario med en etablerad (mänskligt översatt) referenstext. Man kan inte använda BLEU för att mäta kvaliteten på maskinöversättningar som inte redan har översatts av en människa, vilket gör BLEU olämpligt för prediktiva tillämpningar.

Däremot är BLEU ett godtagbart instrument för att mäta effekten av motorträning och – i viss mån – för att jämföra motorer från olika MT-leverantörer. Det är emellertid viktigt att notera att BLEU-poängen inte är en inneboende egenskap hos en MT-motor, utan snarare hos ett testscenario. Samma motor kommer att få olika poäng för olika referensöversättningar.

Vad blir då omdömet för BLEU?

Även om BLEU oftast korrelerar med det mänskliga omdömet gällande MT-kvalitet, kan metoden egentligen inte ge svar på vilken kvalitet en given text håller. Det anger bara hur troligt det är att en text som liknar referensöversättningen också är korrekt. Utöver det finns det alltmer som tyder på att BLEU närmar sig slutet på sin användbara livslängd även för detta begränsade användningsområde.

Två kollegor med olika bakgrunder arbetar tillsammans på en bärbar dator i ett modernt kontorslandskap, där den ena gör anteckningar medan den andra sköter datorn.

PE Distance (PED) – Mätning under verkliga förhållanden

Så fungerar PED

Måttet post-edit distance (PED) mäter den mängd redigering som en maskinöversatt text kräver för att uppfylla kvalitetsförväntningarna. Viktigaste skillnaden jämfört med BLEU är att den mänskliga referensöversättningen faktiskt baseras på MT, vilket ökar sannolikheten för att maskinöversättningen och den mänskliga översättningen är lika eller identiska. Det beror på att översättare med gedigen bakgrund inom efterredigering inte kommer att införa onödiga ändringar i MT. Förutsatt att översättarna gjort sitt jobb korrekt speglar PED en maskinöversättnings lämplighet för efterredigering mycket bättre än BLEU.

Kan varje lingvist med erfarenhet av efterredigering göra efterredigeringen för en PED-analys? Inte riktigt. Den avgörande faktorn är att översättaren måste förstå vilka förväntningar kunden har gällande textens kvalitet. En maskinöversättning kan låta flytande, till synes fri från fel som påverkar betydelsen nämnvärt, och ändå inte uppfylla kvalitetskraven. Det kan exempelvis bero på att kundspecifik terminologi eller stil inte har följts, att texten överskrider givna längdbegränsningar eller att formateringsinformation har gått förlorad. Kort sagt vill man ha en lingvist med både erfarenhet av efterredigering och kundkunnande.

Med PED krävs verkliga förhållanden för att få tillförlitliga siffror, och avståndet efter redigering kan bara beräknas på en efterredigering som uppfyller kvalitetsförväntningarna. En algoritm beräknar skillnaden mellan den råa och den efterredigerade maskinöversättningen och sätter ett värde per segment och per provtext. Värdet indikerar hur stor procentandel av råöversättningen som återanvänts av översättaren, från 100 % (översättaren gjorde inga ändringar i segmentet eller texten) och nedåt. Höga PED-poäng visar på en verklig effektivitetsvinst för översättaren.

Hur relaterar man PED-poängen till behovet av efterredigering?

Tumregeln är att högre PED-poäng betyder mindre behov av efterredigering. Men precis som med översättningsminnen måste procentvärdet passera en viss tröskel för att det ska handla om några verkliga effektivitetsvinster. Om det totala PED-värdet för en viss texttyp konsekvent ligger under denna tröskel så ger maskinöversättning inga tidsvinster.

Betyder då ett högt PED-värde att översättaren inte behövde anstränga sig, och måste man betala för efterredigering om PED ligger nära 100 %? Svaret är: Vill man ha efterredigering så kostar det. Det är viktigt att förstå att även med ett mycket högt PED-värde är översättarnas insats inte lika med noll. De har fortfarande utfört en fullständig granskning av måltexten och jämfört den med källtexten, validerat att terminologin som tillämpas av MT är den rätta, eventuellt gjort ytterligare efterforskningar eller bett om förtydliganden, och så vidare. Därför är arbetet med efterredigering aldrig noll, även när det nästan inte gjorts några ändringar. Man kan jämföra med när en patient ber om ett utlåtande från en annan läkare: Det faktum att båda läkarna kommer till samma slutsats betyder inte att den andra läkaren inte behövde undersöka patienten.

Pålitliga förutsägelser av efterredigeringen

Genom att bedöma PED-värden för en tillräckligt stor mängd likartade texter kan man få en tillförlitlig indikation på hur stor insats som krävs och sedan kvantifiera effektivitetsvinsterna. Små anekdotiska prover lämpar sig inte för denna typ av analys, eftersom de kan resultera i PED-poäng som är alltför höga eller låga och i slutändan inte representativa för de genomsnittliga verkliga resultaten. Lyckligtvis betyder testning med lämpliga textmängder inte att kostnaderna för den normala översättningsprocessen behöver öka. Vi vet vad vi sysslar med på det här området, så tveka inte att be din kontakt på Acolad att få tillgång till en Machine Translation Pilot, en expert som kan berätta hur mycket du kan spara..

En leende man skriver på en surfplatta

Kvaliteten på maskinöversättningen – vilket system är bäst?

På Acolad vet vi vad som krävs för att producera översättningar av hög kvalitet, och vi väljer våra mänskliga översättare och MT-motorer därefter.

Skulle vi arbeta med en mänsklig översättare som levererar överlägsen kvalitet men som brukar lägga ut kundernas innehåll på sociala medier eller avslöja affärshemligheter? Eller en översättare som inte kan uppfylla tekniska krav och som brukar introducera fel i XML-strukturer och format? Nej, då vore vi ju galna! Och du skulle också behöva vara galen för att behålla en språkleverantör som tillåter ett sådant beteende.

För att ta ett annat exempel, skulle vi be en enstaka översättare att utföra översättningar till alla våra målspråk, inom alla ämnesområden? Även det vore galet.

Samma överväganden gäller för maskinöversättningar, och till den utmaningen har vi utvecklat ett avgjort icke-galet förhållningssätt. När det handlar om att välja översättningsmotor tillämpar vi en rad kriterier, som inte allihop handlar om språklig kvalitet på utdata – även om det är en avgörande pusselbit. För att på ett säkert och effektivt sätt kunna använda maskinöversättning i våra processer gör vi även överväganden gällande sekretess, att kunna erbjuda ett hållbart tjänsteutbud (inklusive API:er), totalkostnad samt generell robusthet hos systemet.

Vi definierar robustheten som förmågan att producera god språklig kvalitet även utanför språklabbet. Det innefattar bland annat tolerans för stavfel, ofullständiga meningar, kreativ formatering och fraser på främmande språk i källtexten. Dessutom bedömer vi kvaliteten på integrationen med det aktuella översättningsminnet.

Det finns faktiskt ingen universallösning, utan det måste till ett konkret sammanhang för att kunna säga vilket MT-system som är ”bäst”. Tekniken utvecklas snabbt, och de tekniker vi föredrog i fjol kanske inte är de bästa alternativen idag. Vi hänger med i utvecklingen inom branschen så att ni inte behöver vara experter på MT, och vi bevakar marknaden för att ni ska kunna välja den bästa möjliga motorn för ert scenario.

Viktiga lärdomar om kvalitetsbedömning av maskinöversättning

Det visar sig alltså att så kallade MT-kvalitetsindikatorer som BLEU, LEPOR, TER och PED faktiskt inte mäter kvaliteten som sådan. Men de är ändå värdefulla verktyg eftersom de ger oss de nyckeltal som vi behöver för att kunna fatta kvalitetsrelaterade beslut.

I praktiken är det fortfarande ett manuellt arbete att mäta den faktiska språkliga kvaliteten hos en översättning – oavsett om den är utförd av människa eller maskin. Det finns i nuläget inget som kan kallas automatiserad kvalitetsbedömning, och därför är det en stor fördel att ha rätt experter inom alla relevanta målspråk till hands när man ska välja rätt system och utvärdera ny teknik.

Men med tanke på den snabba tekniska utvecklingen kan vi förvänta oss fler automatiserade lösningar för utvärdering av översättningskvalitet inom en snar framtid. Under tiden har Acolad full kontroll över situationen.