Tout sur les méthodes d’évaluation de la qualité de la traduction automatique

Comprendre les différentes approches de l’évaluation de la qualité de la traduction automatique et leur incidence sur vos projets de traduction et de localisation.

Grâce aux récentes avancées technologiques, la traduction automatique (TA) gagne en notoriété et en sophistication, alors que les exigences en matière de qualité augmentent. Pour les acheteurs de traduction, il s’agit de savoir si la qualité de la traduction automatique peut satisfaire leurs besoins ou s’ils doivent recourir à des processus supplémentaires de postédition et de révision par des experts.

Il revient au prestataire de services linguistiques de déterminer si les résultats de la traduction automatique brute peuvent être améliorés pour mieux répondre aux attentes du client, et à quel coût. Cela peut paraître complexe. Cependant, une méthodologie adaptée et un bon savoir-faire peuvent contribuer à apporter une réponse à ces questions. 

Le résultat de la TA brute n’est pas toujours fiable et nécessite une révision. Comment savoir si la traduction automatique permettra un gain de temps, surtout quand il faut maintenir un standard de qualité de traduction dite « humaine »? Comment déterminer le gain de temps et d’efforts obtenu par rapport à une traduction « humaine » sans outil? Personne ne souhaite perdre son temps et son énergie.

Nous avons donc besoin de méthodes d’évaluation de la qualité de la traduction automatique brute. On s’attend généralement à ce que la TA, qui est une traduction produite automatiquement, nous fournisse aussi une indication automatique du niveau d’exactitude ou de fiabilité, ou du moins, à ce qu’il existe des outils pour évaluer automatiquement la qualité de la TA et nous indiquer le temps que prendra la postédition. Malheureusement, ce n’est pas si simple.

Commençons par le début : comment évaluer la qualité d’une traduction?

Pour mieux comprendre comment évaluer la qualité de la traduction automatique, étudions tout d’abord l’évaluation de la qualité d’une traduction humaine.

Les exigences de notation de la traduction humaine comprennent (mais sans s’y limiter) les indicateurs qualité multidimensionnels (Multidimensional Quality Metric - MQM), les cadres dynamiques de qualité (Dynamic Quality Frameworks - DQF) et l’indicateur de qualité J2450. Ces normes sont utilisées pour évaluer plusieurs critères de qualité. La traduction doit être exacte d’un point de vue linguistique, compréhensible, fluide, ciblée, etc.

Ces méthodes d’évaluation permettent généralement d’obtenir un score global qui reflète le nombre d’erreurs et leur gravité par rapport à un certain volume de texte. Les résultats obtenus peuvent être adaptés au cas par cas (à l’aide de seuils prédéfinis, par exemple). Vous pouvez ainsi décider si une traduction est bonne ou mauvaise – c’est-à-dire si elle est adaptée à vos besoins ou non. Jusqu’ici, tout va bien.

Mais, quelles que soient la norme choisie et la manière de définir les seuils de notation, ce sont les réviseurs qui en fin de compte repèrent et classifient les erreurs.

En conclusion, cette tâche reste manuelle et humaine, même pour l’évaluation qualité d’une traduction automatique.

Alors quel est l’intérêt d’une évaluation automatique de la qualité d’une TA?

La réponse est simple : les scores automatiques sont utiles, mais leur utilité dépend de la réponse que vous attendez.

Le passage de la traduction humaine à la traduction automatique ne fait pas disparaître comme par magie les défis posés par l’évaluation de la qualité d’une traduction à proprement parler. En outre, il existe différents indicateurs de mesure de la qualité de la traduction automatique et votre choix dépendra de ce que vous voulez savoir.

Par exemple, pour savoir si vous pouvez utiliser un contenu traduit automatiquement sans le faire passer par la postédition, appliquez la même évaluation de qualité que pour la traduction humaine. Le langagier évaluera le texte cible par rapport au texte source, classifiera les erreurs puis obtiendra un score indiquant si la traduction automatique brute est acceptable ou non dans le contexte donné. Il n’y a pas de formule magique ni de raccourci : si vous voulez vous assurer qu’un texte traduit automatiquement satisfait à vos exigences de qualité, vous devez recourir à un langagier.

Mais peut-être souhaitez-vous évaluer autre chose? Par exemple, comparer deux traductions automatiques – c’est-à-dire, avoir une idée générale de la façon dont un moteur de TA se distingue des autres? Pour les évaluations comparatives, la méthode « BLEU » (BiLingual Evaluation Understudy) pourrait être la mieux adaptée à vos besoins.

Et enfin, qu’en est-il du point le plus important en postédition : gagne-t-on du temps de traduction en postéditant un texte traduit automatiquement plutôt qu’en le faisant traduire entièrement? Et si c’est le cas, dans quelles proportions? Si vous voulez être sûr de ne pas déployer trop d’efforts inutiles, la distance de postédition (PED) pourrait être la méthode qu’il vous faut.

Examinons plus en détail la méthode « BLEU » et d’autres méthodes similaires ainsi que la méthode « PED » pour mieux comprendre ce qu’elles permettent d’évaluer.

Méthode « BLEU » et méthodes similaires : une seule bonne réponse

La méthode de notation « BLEU » et d’autres méthodes similaires telles que « HTER » (Human-targeted Translation Error Rate) ou « LEPOR » (Length Penalty, Precision, n-gram Position difference Penalty and Recall) ont été élaborées par des ingénieurs de TA comme solutions rapides et abordables d’évaluation de la performance de leur moteur de TA. Elles ne nécessitent en effet aucune intervention humaine. Toutefois, cela signifie aussi qu’elles n’apportent pas les mêmes réponses qu’un langagier.


Fonctionnement de la méthode « BLEU »

La méthode « BLEU » repose sur l’hypothèse qu’il n’y a qu’une seule bonne traduction pour un texte et que la qualité de la TA correspond alors au degré de similarité entre le résultat de la TA et cette traduction. La « bonne traduction » est appelée « traduction de référence ». C’est un échantillon de texte en langue source et en langue cible. En d’autres termes, cet échantillon a été préalablement traduit par un vrai traducteur et est considéré comme étant de bonne qualité.

La mesure repose donc sur ce texte de référence : le texte source est traduit par un ou plusieurs moteurs de TA, et un algorithme calcule la différence entre chaque résultat de TA et la traduction de référence. On obtient alors le score « BLEU », exprimé sous forme de chiffre entre 0 et 1, ou entre 0 % et 100 %. Plus le score « BLEU » est élevé, plus les deux textes sont similaires. 

 

Les lacunes de la méthode « BLEU »

Bien que le calcul de la similarité soit plutôt sophistiqué, le principal problème avec la méthode « BLEU » et les méthodes similaires est qu’elles partent du principe qu’il n’existe qu’une seule bonne traduction pour chaque texte. Or, les langagiers professionnels savent bien qu’il peut y en avoir plusieurs.

Ainsi, la méthode « BLEU » ne mesure pas réellement la qualité de la traduction, mais plutôt la capacité d’un moteur à imiter certains textes de référence.

Les résultats BLEU relatifs à un même moteur de TA varieront en fonction du texte de référence. Il est également clair qu’un résultat BLEU obtenu avec un texte de référence de mauvaise qualité ne reflétera pas du tout la qualité de la TA. De plus, le résultat dépend du volume de l’échantillon, du jeu de caractères de la langue évaluée, etc. Ce n’est finalement plus aussi simple, n’est-ce pas?

Il apparaît également clairement que la méthode « BLEU » ne peut fournir un jugement de qualité sur de nouveaux textes, car elle doit reposer sur un texte de référence établi (traduit par une personne). Vous ne pouvez pas l’utiliser pour mesurer la qualité de traductions automatiques qui n’ont jamais été traduites par des humains, ce qui la rend inadaptée à une application prédictive.

Cela reste toutefois un instrument utile pour mesurer l’efficacité de l’entraînement des moteurs de TA et, dans une certaine mesure, pour comparer les moteurs de différents fournisseurs de TA. Il faut cependant rappeler qu’un résultat BLEU n’est pas une caractéristique fixe d’un moteur de TA, mais plutôt un scénario de test. Le même moteur obtiendra un résultat différent en fonction de la traduction de référence utilisée.

 

Le verdict BLEU

Bien que la méthode « BLEU » soit généralement liée au jugement humain de la qualité d’une TA, elle ne mesure pas réellement la qualité d’un texte donné. Elle indique simplement la probabilité qu’un texte semblable à la traduction de référence soit correct. Il apparaît de plus en plus clairement que même dans ce champ d’application limité, la méthode « BLEU » pourrait bientôt devenir obsolète.

La distance de postédition : mesurer dans des conditions réelles

En quoi consiste la distance de postédition?

La distance de postédition (post-edit distance, PED) correspond au pourcentage de modifications effectuées sur la traduction automatique pour obtenir une traduction de qualité suffisante. La principale différence par rapport à la méthode « BLEU » est que la traduction de référence faite par un humain est réalisée à partir d’un texte issu de la TA, ce qui augmente la probabilité que la traduction automatique et la traduction humaine soient similaires ou identiques. La raison en est que les traducteurs maîtrisant la postédition n’apportent pas de modifications inutiles aux textes traduits automatiquement. En partant du principe que les traducteurs ont fait leur travail correctement, la PED reflète alors bien mieux l’adéquation entre TA et postédition que la méthode « BLEU ».

N’importe quel traducteur maîtrisant la postédition peut-il effectuer un travail de postédition pour une analyse PED? Pas vraiment. Le facteur à prendre en compte ici est que le traducteur connaît les attentes du client en matière de qualité. Une traduction automatique peut sembler fluide, sans erreur de sens apparente, et pourtant ne pas avoir le niveau de qualité requis. Par exemple : terminologie ou style propre au client non respectés, limitation de caractères non suivie, informations de formatage perdues, etc. En bref, un langagier avec une expérience en postédition et au fait des exigences du client sera toujours préférable.

Avec la PED, des conditions réelles sont nécessaires pour obtenir des chiffres fiables, et la distance de postédition peut être calculée uniquement sur la base d’une postédition conforme au niveau de qualité attendu. Un algorithme calcule la différence entre la TA brute et la traduction postéditée et émet une valeur par segment et par échantillon de texte. Cette valeur indique le pourcentage de TA brute réutilisée par le traducteur, en partant de 100 % (qui signifie que le traducteur n’a effectué aucun changement au segment ou texte) et en allant en décroissant. Des résultats de PED élevés indiquent un réel gain d’efficacité pour le traducteur.

 

Comment les scores de PED reflètent-ils l’effort de postédition nécessaire?

En règle générale, plus le score de PED est élevé, moins l’intervention sera conséquente. Toutefois, au même titre que les correspondances des mémoires de traduction, un certain pourcentage limite doit être atteint pour qu’il y ait de réels gains d’efficacité. Si la valeur de PED totale d’un type de texte est inférieure à ce seuil, la TA ne permettra pas de gagner du temps.

Dans ce cas, est-ce qu’un score de PED élevé signifie que le traducteur n’a pas effectué de modifications? Devez-vous payer pour la postédition si la PED est proche de 100 %? Nous répondrons simplement que tout travail de postédition a un coût. Il faut savoir que même avec une valeur PED très élevée, le traducteur n’a pas chômé. Il a revu entièrement le texte cible en le comparant au texte source, vérifié que la terminologie appliquée par le système de TA était la bonne, et effectué éventuellement des recherches ou demandé des explications, etc. Par conséquent, l’effort de postédition n’est jamais nul, même lorsqu’on ne voit pratiquement aucune modification. C’est comme lorsqu’on demande un second avis à un autre médecin : si les deux médecins parviennent à la même conclusion, cela ne signifie pas que le deuxième n’a pas procédé à un examen approfondi du patient. 

 

Estimation fiable du travail de postédition

En évaluant les valeurs de PED sur de gros volumes de texte, vous pouvez avoir une indication fiable de l’intervention nécessaire et une estimation des gains d’efficacité. De petits échantillons anecdotiques ne constituent pas une base suffisante pour ce genre d’analyse : les chiffres de PED obtenus peuvent être trop positifs ou négatifs et finalement ne pas être représentatifs des résultats réels moyens. Heureusement, les tests effectués sur des volumes adéquats ne signifient pas que des coûts supplémentaires devront être appliqués à votre processus de traduction normal. Nous sommes experts en la matière, alors n’hésitez pas à demander à votre interlocuteur chez Acolad un pilote de traduction automatique pour apprendre à calculer les économies que vous pourriez réaliser. 

Qualité de la traduction automatique : quel est le meilleur système?

Chez Acolad, nous savons comment produire des traductions d’excellente qualité et choisissons nos traducteurs et moteurs de TA en conséquence.

Serions-nous prêts à travailler avec un traducteur qui produit un travail d’excellente qualité, mais qui est connu pour partager le contenu de ses clients sur les réseaux sociaux et dévoiler des données confidentielles? Ou avec un traducteur incapable de se conformer aux exigences techniques et qui introduit régulièrement des erreurs dans les structures et formats XML? Il faudrait être inconscient! Tout comme vous auriez tort de faire confiance à un prestataire de services linguistiques qui tolérerait de tels comportements.

De la même manière, demanderait-on à un seul traducteur de réaliser des traductions dans toutes nos langues cibles et dans tous les domaines? Là encore, cela n’aurait aucun sens.

Les mêmes considérations valent pour la TA, et nous avons développé une approche rationnelle à cet égard : pour choisir un moteur de TA, nous appliquons une série de critères. Tous ces critères ne portent pas strictement sur la qualité des résultats linguistiques – bien que ce soit une pièce essentielle du casse-tête. Afin d’intégrer la traduction automatique dans nos processus de façon sûre et efficace, nous tenons aussi compte de la confidentialité, de la disponibilité d’une offre de service durable (y compris en matière d’API), des coûts totaux et de la solidité générale du système.

On entend par « solidité » la capacité à produire une bonne qualité linguistique en dehors des conditions de « laboratoire », c’est-à-dire la tolérance envers les fautes, les phrases incomplètes, le formatage créatif et les expressions en langue étrangère dans les fichiers sources. De plus, nous évaluons la qualité de l’intégration dans l’outil de mémoire de traduction adéquat.

Finalement, il n’y a pas de solution universelle : un contexte est nécessaire pour déterminer lequel des systèmes de TA est le mieux adapté. La technologie évolue rapidement et nos technologies de prédilection de l’an dernier peuvent ne pas être les meilleures options aujourd’hui. Nous restons à la pointe des avancées du secteur pour que vous n’ayez pas à être vous-même un spécialiste de la TA et nous suivons le marché avec attention pour que vous puissiez choisir le moteur le mieux adapté à votre projet.

Conclusion

Les indicateurs de qualité de la TA comme BLEU, LEPOR, TER ou PED s’avèrent finalement insuffisants pour mesurer la qualité en tant que telle. Mais la bonne nouvelle, c’est qu’ils nous fournissent les indicateurs de rendement clés dont nous avons besoin pour prendre les bonnes décisions en matière de qualité.

D’un point de vue pratique, l’évaluation de la qualité linguistique réelle d’une traduction (qu’elle soit humaine ou automatique) reste un exercice manuel. Il n’existe actuellement pas de score de qualité automatisé. C’est la raison pour laquelle il est très avantageux d’avoir dans ses équipes des experts dans toutes les langues cibles pour choisir le bon système et évaluer les nouvelles technologies.

Au vu de l’évolution rapide des technologies, de plus en plus de solutions automatisées d’évaluation de la qualité des traductions devraient voir le jour. En attendant, Acolad est là pour vous guider.

Découvrez les indicateurs de qualité de la traduction automatique et testez notre approche « MT to fit » (« TA sur mesure »)