Scopri il significato delle metriche di qualità della traduzione automatica

Capire i diversi approcci per valutare qualitativamente una traduzione automatica e il loro valore per le tue necessità di traduzione e localizzazione

La traduzione automatica (MT) sta diventando sempre più popolare e sofisticata con lo sviluppo delle tecnologie impiegate; al contempo, aumentano anche le aspettative a livello di qualità. La domanda che tutti i clienti di traduzione si pongono è se la qualità dell’MT sia sufficiente per i loro scopi o se invece si rendano necessari processi di revisione e post-editing da parte di esperti.

Ogni post-editor o fornitore di servizi linguistici deve stabilire se sia possibile migliorare il risultato grezzo della traduzione automatica per rispondere alle aspettative del cliente, e a quale costo. Questo può essere un quesito difficile, ma al quale è assolutamente possibile rispondere con la metodologia e il know-how giusti. 

Sappiamo che l’MT non è sempre affidabile e che è necessario ricontrollare il suo risultato grezzo; ma come facciamo a sapere se effettivamente ci risparmierà del lavoro, quando ci viene richiesto di fornire standard qualitativi umani? Come stabiliamo la mole di lavoro che si risparmia, rispetto a una traduzione umana fatta da zero? In fondo non vogliamo perdere tempo, né lavorare di più.

Con questo in mente, abbiamo bisogno di metodi per valutare la qualità della traduzione automatica grezza. Le persone di solito si aspettano che la traduzione automatica, una traduzione prodotta automaticamente, arrivi anche con un'indicazione prodotta automaticamente della sua correttezza o affidabilità, o almeno che esistano strumenti in grado di valutare automaticamente la qualità della traduzione automatica e indicare lo sforzo necessario per il post-editing. Purtroppo le cose non sono così semplici.

Come si valuta la qualità di una traduzione, in primo luogo?

Per capire meglio come possiamo valutare la qualità della traduzione automatica, vediamo come si valuta attualmente la qualità della traduzione umana.

Gli standard di punteggio per la traduzione umana includono (ma non sono limitati a) le metriche di qualità multidimensionali (MQM), il quadro di qualità dinamico (DQF) e la metrica di qualità della traduzione J2450. Questi standard vengono utilizzati per valutare criteri di qualità quali correttezza linguistica, comprensibilità, fluidità, adeguatezza culturale e così via.

Questi metodi di valutazione di solito producono un punteggio unificato che riflette il numero di errori e la loro gravità in relazione al volume di un determinato testo. Tali punteggi possono essere adattati al caso d'uso pertinente (usando soglie modificate, ad esempio) in modo che tu possa decidere se una traduzione è fatta bene o no, cioè adatta o meno ai tuoi obiettivi. Fin qui tutto bene.

Ma qualunque sia lo standard che scegli, e comunque tu definisca le tue soglie, il compito di rilevare e classificare gli errori in base a tali metriche si basa interamente su revisori umani.

Ed ecco la cattiva notizia che stavi aspettando: questo compito rimane un compito manuale e umano anche quando stai valutando la qualità della traduzione automatica.

Allora perché si vuole automatizzare la valutazione qualitativa della traduzione automatica?

La risposta è semplice: una valutazione automatizzata è utile, solo che la sua utilità dipende dal tipo di risposta che ci si aspetta.

Le difficoltà nello stabilire la reale qualità di una traduzione non scompaiono magicamente passando dalle traduzioni umane a quelle automatiche. Inoltre, ci sono varie metriche per misurare la qualità della traduzione automatica e quella che dovresti usare dipende da ciò che vuoi sapere.

Se, ad esempio, si vuole stabilire se un contenuto tradotto automaticamente può essere utilizzato senza un servizio di post-editing per un determinato caso d’uso, si dovrà procedere alla medesima valutazione qualitativa impiegata per una traduzione umana: un linguista qualificato rivede la traduzione e il relativo testo di partenza, classifica gli errori e ottiene così un risultato attestante se l’MT grezza sia sufficiente o meno per il contesto in esame. Non ci sono alternative facili o scorciatoie: se si vuole essere sicuri che un determinato testo tradotto automaticamente risponda alla qualità attesa, è necessario ricorrere a una revisione umana.

Ma cosa accade se la domanda è diversa? Se si vogliono confrontare due MT per avere un’idea generale del livello produttivo di un certo motore MT per un determinato testo, rispetto ad altri motori? Per le valutazioni comparative, il metodo di valutazione bilingue "bilingual evaluation understudy (BLEU)" potrebbe essere la soluzione giusta.

E, infine, arriviamo alla domanda che più ci interessa quando si parla di post-editing: il post-editing dell’MT ci consente di ridurre l’onere di lavoro rispetto a una traduzione fatta da zero? Se sì, di quanto? In questo caso, se si vuole essere sicuri di non sprecare le proprie risorse, il metodo di misurazione "post-edit distance (PED)" è quello giusto.

Analizziamo più da vicino il BLEU e metodi simili come il PED per capire meglio che cosa misurano con esattezza.

BLEU e metodi simili – C’è solo una risposta corretta

Il metodo di valutazione "bilingual evaluation understudy (BLEU)" e metodologie simili quali HTER (Human-targeted Translation Error Rate) o LEPOR (Length Penalty, Precision, n-gram Position difference Penalty and Recall) sono stati sviluppati da ingegneri di MT come modalità rapide ed economiche per valutare il successo di un motore MT, perché non richiedono il coinvolgimento di un valutatore umano. Tuttavia, ciò significa anche che non forniscono le stesse risposte di un valutatore umano.


Come funziona il BLEU

Il BLEU si basa sull’assunzione che esiste solo una buona traduzione per un testo e la qualità dell’MT è il grado di somiglianza del risultato MT a quella traduzione. La "buona traduzione" viene definita come la traduzione di riferimento ed è un campione di testo sia nella lingua di partenza sia in quella di destinazione. Più concretamente, è un campione che era stato tradotto prima da un traduttore umano e che è considerato di buona qualità.

La misurazione viene quindi effettuata proprio sulla base di quel testo di riferimento: il testo di partenza viene tradotto da uno o più motori MT e un algoritmo calcola la differenza tra ogni risultato dell’MT e la traduzione di riferimento. Il risultato è il cosiddetto punteggio BLEU, espresso in un numero tra 0 e 1 o tra 0% e 100%: maggiore è il punteggio BLEU, più simili saranno i due testi. 

 

Le lacune del BLEU

Sebbene il metodo di calcolo impiegato sia abbastanza sofisticato, la principale lacuna del BLEU e di metriche di questo tipo è che esse presumono che ci sia solo una buona traduzione per ogni testo. I linguisti professionisti sanno, tuttavia, che ci possono essere diverse traduzioni adeguate per un determinato testo sorgente.

Il BLEU, ad esempio, non misura realmente la qualità di una traduzione, ma piuttosto il grado di capacità di un dato motore di imitare determinati testi di riferimento.

È facile capire che i punteggi del BLEU per il medesimo motore MT cambieranno in base al testo di riferimento. È altresì chiaro che un punteggio BLEU ottenuto con un testo di riferimento di scarsa qualità non rispecchierà in alcun modo la reale qualità dell’MT. Inoltre, il punteggio dipenderà dalla grandezza del campione che si sta impiegando, dalla codifica di caratteri per le lingue misurate e da altri fattori. Non è così semplice in fondo, vero?

È anche chiaro che il BLEU non può fornire un attestazione di qualità per testi nuovi , perché ha bisogno di un contesto di prova con un testo di riferimento (tradotto da un essere umano) definito. Non si può quindi impiegare il BLEU per misurare la qualità di traduzioni automatiche che non sono mai state tradotte da un essere umano, il che lo rende inadatto a un impiego predittivo.

Il BLEU rimane, tuttavia, un valido strumento per misurare gli effetti della formazione di un motore e, sotto certi aspetti, anche per confrontare i motori di diversi provider di MT. In ogni caso, è importante sottolineare che un punteggio BLEU è una caratteristica fissa non di un motore MT, ma piuttosto di uno scenario di test. Lo stesso motore otterrà infatti punteggi sempre diversi a seconda della traduzione di riferimento.

 

Il verdetto del BLEU

Sebbene il BLEU fornisca solitamente un giudizio simile a quello umano sulla qualità dell’MT, non risponde alla domanda sulla qualità di un determinato testo. Indica semplicemente quale sia la probabilità che un testo simile alla traduzione di riferimento sia corretto. Inoltre, esistono crescenti prove a conferma che anche in questo ambito limitato di impiego il BLEU si stia avvicinando al suo fine vita.

PE Distance – Misurazione in condizioni reali

Come funziona il metodo PED

Il post-edit distance (PED) misura la quantità di editing di cui ha bisogno un testo tradotto automaticamente al fine di soddisfare le attese qualitative. La principale differenza rispetto al BLEU è che la traduzione umana di riferimento viene effettivamente eseguita sulla base dell’MT, il che aumenta la possibilità che la traduzione automatica e quella umana siano simili o identiche. Questo perché i traduttori con una solida esperienza di post-editing non apportano modifiche superflue all’MT. Pertanto, partendo dal presupposto che i traduttori abbiano svolto il loro lavoro correttamente, il PED rappresenta molto meglio l’idoneità dell’MT al post-editing rispetto al BLEU.

Quindi, qualsiasi linguista con esperienza di post-editing può effettuare un lavoro di post-editing per un’analisi PED? Non esattamente. In questo caso, il fattore importante è che il traduttore comprenda a pieno le esigenze qualitative del cliente verso il testo. Una traduzione automatica può risultare fluida, senza apparenti errori di significato, ma non rispondere ancora alle esigenze qualitative del cliente. Ad esempio, potrebbe non essere stato impiegato lo stile del cliente o la sua terminologia specifica, il testo può non rispettare le limitazioni di lunghezza oppure sono state perse informazioni di formattazione. In breve, sarà necessario impiegare un linguista con esperienza di post-editing ma anche con un buon know-how del cliente.

Con il PED sono necessarie le condizioni del mondo reale per ottenere dati affidabili; una post-edit distance può essere calcolata solo sulla base di un lavoro di post-editing che soddisfi le attese qualitative. Un algoritmo calcola la differenza tra l’MT grezza e il risultato del post-editing, fornendo un valore per segmento e testo campione. Tale valore rappresenta la percentuale di MT grezza che è stata riutilizzata dal traduttore, iniziando dal 100% (il traduttore non ha apportato modifiche al segmento o al testo) per andare poi a diminuire. Punteggi PED alti indicano un reale vantaggio in termini di efficienza per il traduttore.

 

Come si rapporta il punteggio PED all’onere di post-editing?

La regola generale è che maggiore è il punteggio PED, minore è l’onere di post-editing. Tuttavia, come per le corrispondenze delle memorie di traduzione, esiste una certa soglia percentuale che si deve raggiungere per rappresentare un reale vantaggio in termini di efficienza. Se il valore PED complessivo per un dato tipo di testo si mantiene al di sotto di tale soglia, l’MT non fa risparmiare tempo.

Quindi, un valore PED elevato significa che il traduttore non ha lavorato affatto e bisogna pagare per il post-editing se il PED è vicino al 100%? La risposta è: se si vuole un servizio di post-editing, bisogna pagarlo. È importante sottolineare che anche con un valore di post-edit distance molto elevato, lo sforzo del traduttore non è zero: egli ha infatti effettuato una revisione completa del testo target, confrontandolo con quello di partenza, ha verificato che la terminologia applicata dal sistema MT fosse quella giusta, potrebbe aver svolto ricerche aggiuntive o richiesto chiarimenti, ecc. Lo sforzo di post-editing non è quindi mai pari a zero, anche quando non ci sono praticamente modifiche. Il suo lavoro può essere paragonato alla seconda opinione di un medico: il fatto che entrambi gli specialisti siano giunti alla medesima conclusione non significa che il secondo non abbia dovuto esaminare il paziente con attenzione. 

 

Previsioni affidabili sull’onere di post-editing

Determinando i valori PED in volumi sufficientemente ampi di testi simili, si può ottenere un’indicazione affidabile dell’onere necessario e quantificare il guadagno in termini di efficienza. Piccoli campioni aneddotici non sono una base adatta per questo tipo di analisi, perché potrebbero generare valori PED troppo positivi o troppo negativi e, pertanto, non rappresentativi dei risultati reali medi. Fortunatamente, effettuare test con volumi adeguati non significa incrementare il costo del normale processo di traduzione. Siamo dei professionisti in questo campo, quindi non esitate a contattare Acolad per un progetto pilota di traduzione automatica e per scoprire come calcolare il vostro potenziale di risparmio. 

Qualità della traduzione automatica – Qual è il sistema migliore?

Acolad sa di cosa c’è bisogno per creare traduzioni di qualità elevata e scegliamo i nostri traduttori professionisti e i motori MT di conseguenza.

Potremmo mai lavorare con un traduttore che svolge un lavoro eccellente ma che è noto per condividere i contenuti dei clienti sulle piattaforme social e svelare i segreti professionali? O con uno incapace di rispettare i requisiti tecnici e che effettua abitualmente errori a livello di strutture e formati XML? Dovremmo essere pazzi! E anche voi dovreste esserlo per restare fedeli a un fornitore di servizi linguistici che permette comportamenti di questo tipo.

Inoltre, potremmo mai chiedere a un singolo traduttore di effettuare traduzioni verso tutte le nostre lingue target e per tutte le tematiche? Di nuovo, dovremmo essere pazzi.

Le medesime considerazioni valgono per l’MT e per questo abbiamo sviluppato un approccio decisamente non folle per affrontare questa sfida: impieghiamo una serie di criteri quando si tratta di scegliere un motore MT e non tutti sono strettamente correlati alla qualità del risultato linguistico, sebbene questo sia un elemento cruciale del puzzle. Al fine di applicare in modo sicuro ed efficiente la traduzione automatica ai nostri processi, teniamo anche conto di fattori quali riservatezza, disponibilità di un’offerta di servizio sostenibile (inclusa l’API), costo complessivo e robustezza generale del sistema.

Con robustezza intendiamo la capacità di produrre una buona qualità linguistica al di fuori delle condizioni di laboratorio, ciò include la tolleranza dei refusi presenti nel testo di partenza, frasi incomplete, formattazioni creative e frasi in lingua straniera nei file di origine. Inoltre, valutiamo la qualità dell’integrazione nel relativo tool di memoria di traduzione.

Infine, non esiste una soluzione valida per tutto, è quindi necessario un contesto concreto per capire quale sistema MT sia il "migliore". Le tecnologie evolvono rapidamente e quelle che abbiamo apprezzato maggiormente lo scorso anno potrebbero non essere le opzioni migliori oggi. Restiamo quindi sempre aggiornati sugli sviluppi tecnologici nel settore, in questo modo non è necessario che siate degli esperti di MT. Siamo noi infatti a monitorare il mercato, affinché possiate selezionare il miglior motore possibile per il vostro caso d’uso.

Conclusione

A quanto pare i cosiddetti indicatori di qualità dell’MT come BLEU, LEPOR, TER o PED non misurano la qualità in quanto tale. La buona notizia è che ci forniscono i KPI di cui abbiamo bisogno per prendere decisioni sulla qualità.

In pratica, misurare la reale qualità linguistica di una traduzione, sia umana sia automatica, resta un’attività da svolgere manualmente. Al momento non esiste una valutazione automatizzata della qualità ed è proprio questo che disporre degli esperti giusti per tutte le lingue target rilevanti è un enorme vantaggio quando si tratta di scegliere il sistema giusto e valutare nuove tecnologie.

Considerando la rapidità delle evoluzioni tecnologiche, all’orizzonte potrebbero intravedersi nuove soluzioni automatizzate per stabilire la qualità di una traduzione, ma fino ad allora, Acolad ha tutto sotto controllo.

Se vuoi approfondire il tema degli indicatori di qualità MT e testare il nostro approccio all’MT.

Rivolgiti a un esperto di servizi linguistici

Hai bisogno di aiuto per un progetto di traduzione e localizzazione? Oppure con la creazione e/o elaborazione di contenuti multilingue? Siamo qui per te!