Aggiornato al 23 ottobre 2023

Scopri il significato delle metriche di qualità della traduzione automatica

Capire i diversi approcci per valutare qualitativamente una traduzione automatica e il loro valore per le tue necessità di traduzione e localizzazione
Scopri il significato delle metriche di qualità della traduzione automatica
Capire i diversi approcci per valutare qualitativamente una traduzione automatica e il loro valore per le tue necessità di traduzione e localizzazione

La traduzione automatica (MT) sta diventando sempre più popolare e sofisticata con lo sviluppo delle tecnologie impiegate; al contempo, aumentano anche le aspettative a livello di qualità. La domanda che tutti i clienti di traduzione si pongono è se la qualità dell’MT sia sufficiente per i loro scopi o se invece si rendano necessari processi di revisione e post-editing da parte di esperti.

Ogni post-editor o fornitore di servizi linguistici deve stabilire se sia possibile migliorare il risultato grezzo della traduzione automatica per rispondere alle aspettative del cliente, e a quale costo. Questo può essere un quesito difficile, ma al quale è assolutamente possibile rispondere con la metodologia e il know-how giusti.

Sappiamo che l’MT non è sempre affidabile e che è necessario ricontrollare il suo risultato grezzo; ma come facciamo a sapere se effettivamente ci risparmierà del lavoro, quando ci viene richiesto di fornire standard qualitativi umani? Come stabiliamo la mole di lavoro che si risparmia, rispetto a una traduzione umana fatta da zero? In fondo non vogliamo perdere tempo, né lavorare di più.

Con questo in mente, abbiamo bisogno di metodi per valutare la qualità della traduzione automatica grezza. Le persone di solito si aspettano che la traduzione automatica, una traduzione prodotta automaticamente, arrivi anche con un'indicazione prodotta automaticamente della sua correttezza o affidabilità, o almeno che esistano strumenti in grado di valutare automaticamente la qualità della traduzione automatica e indicare lo sforzo necessario per il post-editing. Purtroppo le cose non sono così semplici.

donna sorridente che lavora al computer portatile

 

Come si valuta la qualità di una traduzione, in primo luogo?

Per capire meglio come possiamo valutare la qualità della traduzione automatica, vediamo come si valuta attualmente la qualità della traduzione umana.

Gli standard di punteggio per la traduzione umana includono (ma non sono limitati a) le metriche di qualità multidimensionali (MQM), il quadro di qualità dinamico (DQF) e la metrica di qualità della traduzione J2450. Questi standard vengono utilizzati per valutare criteri di qualità quali correttezza linguistica, comprensibilità, fluidità, adeguatezza culturale e così via.

Questi metodi di valutazione di solito producono un punteggio unificato che riflette il numero di errori e la loro gravità in relazione al volume di un determinato testo. Tali punteggi possono essere adattati al caso d'uso pertinente (usando soglie modificate, ad esempio) in modo che tu possa decidere se una traduzione è fatta bene o no, cioè adatta o meno ai tuoi obiettivi. Fin qui tutto bene.

Ma qualunque sia lo standard scelto, e comunque si definiscano le soglie, il compito di rilevare e classificare gli errori in base a tali metriche viene interamente svolto da revisori umani.

Ed ecco la cattiva notizia: anche la valutazione della qualità della traduzione automatica viene effettuata da un revisore umano in modo completamente manuale!

codifica dell'operatore tecnico con tre monitor

 

Perché si vuole allora automatizzare la valutazione qualitativa della traduzione automatica?

La risposta è semplice: nonostante la misurazione automatizzata sia utile, la sua utilità dipende dall’obiettivo che ci si è preposti.

Le difficoltà di valutazione della qualità reale di una traduzione non scompaiono magicamente passando dalla traduzione umana a quella automatica. Inoltre, ci sono metriche diverse per misurare la qualità di una traduzione automatica, e la scelta dell’una o dell’altra dipende da cosa si vuol sapere.

Ad esempio, per valutare se dei contenuti tradotti automaticamente possono essere utilizzati senza post-editing per un determinato caso d'uso, dovrai ricorrere alla stessa valutazione qualitativa impiegata per la traduzione umana: un linguista qualificato rivede la traduzione e il relativo testo di partenza e classifica gli errori ottenendo così un punteggio che indica se l'output senza revisione è sufficiente o meno per il contesto in esame. Non ci sono alternative facili o scorciatoie: se vuoi essere sicuro che un testo tradotto automaticamente soddisfi le tue aspettative di qualità, dovrai ricorrere a una revisione umana.

Ma cosa accade se la domanda è diversa? Se si vogliono confrontare due MT per avere un’idea generale del livello produttivo di un certo motore MT per un determinato testo, rispetto ad altri motori? Per effettuare una valutazione comparativa il metodo BLEU (Bilingual Evaluation Understudy) potrebbe essere la soluzione giusta.

A questo punto dobbiamo rispondere a una domanda fondamentale per quanto riguarda il post-editing: il post-editing consente di ridurre il carico di lavoro rispetto a una traduzione manuale? Se sì, di quanto? In questo caso, se si vuole essere sicuri di non sprecare le proprie risorse, il metodo di misurazione "post-edit distance (PED)" è quello giusto.

Analizziamo più da vicino il BLEU e metodi simili come il PED per capire meglio che cosa misurano con esattezza.

Una donna che prende appunti al computer portatile con accanto diverse bandiere nazionali

 

BLEU e metodi simili – C’è solo una risposta corretta

Il metodo di valutazione "bilingual evaluation understudy (BLEU)" e metodologie simili quali HTER (Human-targeted Translation Error Rate) o LEPOR (Length Penalty, Precision, n-gram Position difference Penalty and Recall) sono stati sviluppati da ingegneri di MT come modalità rapide ed economiche per valutare il successo di un motore MT, perché non richiedono il coinvolgimento di un valutatore umano. Tuttavia, ciò significa anche che non forniscono le stesse risposte di un valutatore umano.

Come funziona il BLEU

Il BLEU si basa sull’assunzione che esiste solo una buona traduzione per un testo e la qualità dell’MT è il grado di somiglianza del risultato MT a quella traduzione. La "buona traduzione" viene definita come la traduzione di riferimento ed è un campione di testo sia nella lingua di partenza sia in quella di destinazione. Più concretamente, si tratta di un campione precedentemente tradotto da un traduttore umano e che è considerato di buona qualità.

La misurazione viene quindi effettuata proprio sulla base di quel testo di riferimento: il testo di partenza viene tradotto da uno o più motori MT e un algoritmo calcola la differenza tra ogni risultato dell’MT e la traduzione di riferimento. Il risultato è il cosiddetto punteggio BLEU, espresso in un numero tra 0 e 1 o tra 0% e 100%: Maggiore è il punteggio BLEU, più i due testi risultano simili.

Le lacune del BLEU

Sebbene il metodo di calcolo impiegato sia abbastanza sofisticato, la principale lacuna del BLEU e di metriche di questo tipo è che esse presumono che ci sia solo una buona traduzione per ogni testo. I linguisti professionisti sanno, tuttavia, che ci possono essere diverse traduzioni adeguate per un determinato testo sorgente.

Il BLEU, ad esempio, non misura realmente la qualità di una traduzione, ma piuttosto il grado di capacità di un dato motore di imitare determinati testi di riferimento.

È facile capire che i punteggi del BLEU per il medesimo motore MT cambieranno in base al testo di riferimento. È altresì chiaro che un punteggio BLEU ottenuto con un testo di riferimento di scarsa qualità non rispecchierà in alcun modo la reale qualità dell’MT. Inoltre, il punteggio dipenderà dalla grandezza del campione che si sta impiegando, dalla codifica di caratteri per le lingue misurate e da altri fattori. Non è così semplice in fondo, vero?

È anche chiaro che il BLEU non può fornire un’attestazione di qualità per testi nuovi, perché ha bisogno di un contesto di prova con un testo di riferimento (tradotto da un essere umano) definito. Non si può quindi impiegare il BLEU per misurare la qualità di traduzioni automatiche che non sono mai state tradotte da un essere umano, il che lo rende inadatto a un impiego predittivo.

Il BLEU rimane, tuttavia, un valido strumento per misurare gli effetti della formazione di un motore e, sotto certi aspetti, anche per confrontare i motori di diversi provider di MT. In ogni caso, è importante sottolineare che un punteggio BLEU è una caratteristica fissa non di un motore MT, ma piuttosto di uno scenario di test. Lo stesso motore otterrà infatti punteggi sempre diversi a seconda della traduzione di riferimento.

Il verdetto del BLEU

Sebbene il BLEU fornisca solitamente un giudizio simile a quello umano sulla qualità dell’MT, non risponde alla domanda sulla qualità di un determinato testo. Indica semplicemente quale sia la probabilità che un testo simile alla traduzione di riferimento sia corretto. Inoltre, esistono crescenti prove a conferma che anche in questo ambito limitato di impiego il BLEU si stia avvicinando al suo fine vita.

Due colleghi di diversa estrazione lavorano insieme su un computer portatile in un ufficio moderno, uno prende appunti e l'altro utilizza il computer.

 

PE Distance – Misurazione in condizioni reali

Come funziona il metodo PED

Il post-edit distance (PED) misura la quantità di editing di cui ha bisogno un testo tradotto automaticamente al fine di soddisfare le attese qualitative. La principale differenza rispetto al BLEU è che la traduzione umana di riferimento viene effettivamente eseguita sulla base dell’MT, il che aumenta la possibilità che la traduzione automatica e quella umana siano simili o identiche; questo perché i traduttori con una solida esperienza di post-editing non apportano modifiche superflue all’MT. Pertanto, partendo dal presupposto che i traduttori abbiano svolto il loro lavoro correttamente, il PED rappresenta molto meglio l’idoneità dell’MT al post-editing rispetto al BLEU.

Quindi, qualsiasi linguista con esperienza di post-editing può effettuare un lavoro di post-editing per un’analisi PED? Non esattamente. In questo caso, il fattore importante è che il traduttore comprenda a pieno le esigenze qualitative del cliente verso il testo. Una traduzione automatica può risultare fluida, senza apparenti errori di significato, ma non rispondere ancora alle esigenze qualitative del cliente. Ad esempio, potrebbe non essere stato impiegato lo stile del cliente o la sua terminologia specifica, il testo può non rispettare le limitazioni di lunghezza oppure sono state perse informazioni di formattazione. In breve, sarà necessario impiegare un linguista con esperienza di post-editing ma anche con un buon know-how del cliente.

Con il PED sono necessarie le condizioni del mondo reale per ottenere dati affidabili; una post-edit distance può essere calcolata solo sulla base di un lavoro di post-editing che soddisfi le attese qualitative. Un algoritmo calcola la differenza tra l’MT grezza e il risultato del post-editing, fornendo un valore per segmento e testo campione. Tale valore rappresenta la percentuale di MT grezza che è stata riutilizzata dal traduttore, iniziando dal 100% (il traduttore non ha apportato modifiche al segmento o al testo) per andare poi a diminuire. Punteggi PED alti indicano un reale vantaggio in termini di efficienza per il traduttore.

Come si rapporta il punteggio PED all’onere di post-editing?

La regola generale è che maggiore è il punteggio PED, minore è l’onere di post-editing. Tuttavia, come per le corrispondenze delle memorie di traduzione, esiste una certa soglia percentuale che si deve raggiungere per rappresentare un reale vantaggio in termini di efficienza. Se il valore PED complessivo per un dato tipo di testo si mantiene al di sotto di tale soglia, l’MT non fa risparmiare tempo.

Quindi, un valore PED elevato significa che il carico di lavoro del traduttore è praticamente nullo, ed è necessario pagare per il post-editing se il PED si avvicina al 100%? La risposta è: se si vuole un servizio di post-editing, bisogna pagarlo. È importante sottolineare che anche con un valore PED molto elevato, il carico di lavoro del traduttore non è mai pari a zero: Il traduttore infatti ha effettuato una revisione completa del testo di arrivo, confrontandolo con quello di partenza, ha verificato che il sistema MT abbia applicato la terminologia corretta, magari ha anche svolto ricerche aggiuntive o chiesto chiarimenti, ecc. Lo sforzo di post-editing non è quindi mai pari a zero, anche quando non ci sono praticamente modifiche. Si potrebbe dire che è come chiedere un secondo parere medico: il fatto che entrambi gli specialisti siano giunti alla stessa conclusione non significa che il secondo non abbia dovuto esaminare approfonditamente il paziente.

Previsioni affidabili sull’onere di post-editing

Determinando i valori PED in volumi sufficientemente ampi di testi simili, si può ottenere un’indicazione affidabile dell’onere necessario e quantificare il guadagno in termini di efficienza. Piccoli campioni aneddotici non sono una base adatta per questo tipo di analisi, perché potrebbero generare valori PED troppo positivi o troppo negativi e, pertanto, non rappresentativi dei risultati reali medi. Fortunatamente, effettuare test con volumi adeguati non significa incrementare il costo del normale processo di traduzione. Siamo dei professionisti in questo campo, quindi non esitate a contattare Acolad per un progetto pilota di traduzione automatica e per scoprire come calcolare il vostro potenziale di risparmio.

Un uomo sorridente sta digitando su un computer tablet

 

Qualità della traduzione automatica – Qual è il sistema migliore?

Acolad sa di cosa c’è bisogno per creare traduzioni di qualità elevata e scegliamo i nostri traduttori professionisti e i motori MT di conseguenza.

Potremmo mai lavorare con un traduttore che svolge un lavoro eccellente ma che è noto per condividere i contenuti dei clienti sulle piattaforme social e svelare i segreti professionali? O con uno incapace di rispettare i requisiti tecnici e che effettua abitualmente errori a livello di strutture e formati XML? Dovremmo essere pazzi! E anche voi dovreste esserlo per restare fedeli a un fornitore di servizi linguistici che permette comportamenti di questo tipo.

Inoltre, potremmo mai chiedere a un singolo traduttore di effettuare traduzioni verso tutte le nostre lingue target e per tutte le tematiche? Ancora una volta: dovremmo essere pazzi!

Le stesse considerazioni valgono per l’MT, per questo abbiamo sviluppato un approccio decisamente “non da pazzi” per affrontare questa sfida: quando dobbiamo scegliere un motore MT teniamo conto di tutta una serie di criteri, non tutti strettamente correlati alla qualità dell'output linguistico, sebbene si tratti di una tessera cruciale del puzzle. Al fine di applicare la traduzione automatica ai nostri processi in modo sicuro ed efficiente, teniamo conto anche di fattori quali riservatezza, disponibilità di un’offerta di servizio sostenibile (inclusa l’API), costo complessivo e solidità generale del sistema.

Con robustezza intendiamo la capacità di produrre una buona qualità linguistica al di fuori delle condizioni di laboratorio, ciò include la tolleranza dei refusi presenti nel testo di partenza, frasi incomplete, formattazioni creative e frasi in lingua straniera nei file di origine. Inoltre, valutiamo la qualità dell’integrazione nel relativo tool di memoria di traduzione.

Infine, non esiste una soluzione valida per tutto, è quindi necessario un contesto concreto per capire quale sistema MT sia il "migliore". Le tecnologie evolvono rapidamente e quelle che abbiamo apprezzato maggiormente lo scorso anno potrebbero non essere le opzioni migliori oggi. Restiamo quindi sempre aggiornati sugli sviluppi tecnologici nel settore, in questo modo non è necessario che siate degli esperti di MT. Siamo noi infatti a monitorare il mercato, affinché possiate selezionare il miglior motore possibile per il vostro caso d’uso.

Principali risultati sul punteggio di qualità della traduzione automatica

Alla fine dei conti, è chiaro che i cosiddetti indicatori di qualità dell’MT come BLEU, LEPOR, TER o PED non misurano la qualità in quanto tale. Ma c’è una buona notizia: ci forniscono i KPI di cui abbiamo bisogno per prendere decisioni in merito alla qualità.

In pratica, misurare la qualità linguistica reale di una traduzione, sia umana sia automatica, resta un’attività manuale. Al momento non esiste una valutazione automatizzata della qualità ed è proprio questo che disporre degli esperti giusti per tutte le lingue target rilevanti è un enorme vantaggio quando si tratta di scegliere il sistema giusto e valutare nuove tecnologie.

Considerando la rapidità delle evoluzioni tecnologiche, all’orizzonte potrebbero intravedersi nuove soluzioni automatizzate per stabilire la qualità di una traduzione, ma fino ad allora, Acolad ha tutto sotto controllo.

colorful portraits of people surrounding the Acolad logo

I nostri esperti sono pronti a guidarti nel tuo percorso di traduzione automatica

Risorse correlati