O que isto significa para o futuro dos LLM e da tradução automática
À medida que olhamos para um futuro em que os LLM se tornam cada vez mais sofisticados, parece que, por agora, os modelos NMT afinados produzem resultados mais consistentes, que são mais fáceis de pós-editar para alta qualidade, particularmente com conteúdo do mundo real processado em fluxos de trabalho clássicos de sistemas de gestão de tradução.
Também é importante notar que os modelos NMT altamente treinados (utilizando conteúdo e terminologia específicos do domínio) não estão sujeitos a alguns dos desafios técnicos e peculiaridades que persistem quando se utiliza a IA generativa.
Os NMT oferece uma maior previsibilidade, especialmente ao longo do tempo, e entre línguas sintonizadas. Também comparámos anteriormente a produção genérica de NMT com a produção de LLM e, embora a qualidade seja inferior (aumento das distâncias de pós-edição, etc.), a previsibilidade na produção é consistente. Com os LLM, a qualidade diminui rapidamente e, nomeadamente, com as línguas não inglesas como fonte, e com as línguas com menos recursos em geral. A produção de conteúdos pode variar substancialmente ao longo do tempo.
Um exemplo está relacionado com as alucinações da IA - especialmente em línguas com menos recursos - que podem afetar o resultado ao ponto de a tradução simplesmente não ser utilizável. Isto foi observado no tratamento incorreto de conteúdos técnicos, como URL, terminologia específica do cliente ou do domínio e frases curtas, o que significa que os LLM ainda não produzem resultados tão fiáveis quando processam conteúdos em grandes lotes ou em escala.
De um modo geral, os resultados da Acolad combinados com a revisão humana especializada mostraram que, embora o resultado do LLM tenha tido uma pontuação relativamente elevada, teve dificuldades com conteúdos mais complexos com elementos estruturais, como a formatação e a marcação em linha.
Além disso, com a necessidade de gerir prompts relativamente complexos em várias línguas e modelos, a aplicação mais alargada da tecnologia LLM nos fluxos de trabalho de tradução irá aumentar o custo total da tradução, apesar de os custos de processamento em bruto estarem a diminuir.
Efetivamente, se precisar de traduções automáticas para grandes quantidades de conteúdo sem intervenção humana ou pós-edição, é provavelmente melhor confiar numa solução de tradução automática de qualidade comprovada - por enquanto.
Como já referimos, mesmo quando se emprega um toque humano para editar o resultado da tradução automática, pode ser mais económico utilizar a tradução automática do que a IA generativa, simplesmente devido ao tempo que se poupa com a iteração sobre os prompts para refinar o resultado do LLM. Além disso, a NMT tem uma distância pós-edição (PED) e uma taxa de edição da tradução (TER) mais baixas, o que significa que requer menos trabalho para corrigir em comparação com o início com LLM.
Apesar destes resultados, é evidente que os LLM de IA generativa continuarão a ter um grande papel a desempenhar na automatização das traduções - especialmente à medida que os modelos forem sendo aperfeiçoados. Tem aplicações potenciais interessantes para reescrever estilisticamente os resultados da tradução automática, por exemplo. Há fortes indícios de que os LLM podem desempenhar um papel fundamental na avaliação da qualidade, o que pode apoiar capacidades de tradução como pós-edição auto-reflexiva.
Mostram claramente possibilidades interessantes quando lidam com ambiguidades, expressões idiomáticas, referências culturais e até mesmo humor, com os quais alguns modelos de MT têm tradicionalmente tido dificuldades, dados os conjuntos de dados contidos utilizados para construir os seus modelos.