Una valutazione completa delle capacità di traduzione di Lara

Per analizzare la performance di Lara, abbiamo tradotto 300 frasi dall'inglese alle lingue più comunemente richieste nella localizzazione utilizzando Lara e vari sistemi di traduzione automatica. Abbiamo quindi domandato a traduttori professionisti di valutare l'accuratezza di ogni traduzione. Inoltre, abbiamo chiesto loro di segnalare gli errori nelle traduzioni di Lara e in quelle dei loro colleghi, in particolare quelli di livello medio e quelli che fanno parte dell'1% dei migliori traduttori nella nostra rete di professionisti.

Valutazione dell'accuratezza di Lara rispetto ad altri sistemi di MT

* Percentuale di volte in cui almeno 2 traduttori professionisti su 3 erano d'accordo sul fatto che una traduzione fosse accurata in 2.700 traduzioni dall'inglese all'italiano, francese, spagnolo, tedesco, portoghese, giapponese, cinese, russo e coreano.

Con questa valutazione volevamo confrontare le performance di vari motori di traduzione automatica utilizzando contenuti reali di tipo aziendale. Il nostro test ha preso in esame un set di dati composto da 2.700 unità: 300 frasi di partenza in inglese tradotte dai sistemi di traduzione automatica in 9 delle lingue più richieste nella localizzazione, ossia italiano, francese, spagnolo, tedesco, portoghese, giapponese, cinese, russo e coreano. L'accuratezza di queste traduzioni generate automaticamente è stata meticolosamente valutata da traduttori professionisti selezionati con la massima cura per il processo di revisione. Per garantire l'obiettività ed evitare ogni preconcetto, abbiamo applicato un metodo in doppio cieco: i revisori non erano a conoscenza del motore di traduzione automatica che aveva generato ciascuna traduzione né delle valutazioni dei loro colleghi. Questo approccio ha garantito una valutazione imparziale ed equa della performance di ciascun sistema.

Preparazione della valutazione

Abbiamo selezionato 300 frasi tratte da contenuti reali di progetti di traduzione attivi in 3 settori: turismo, finanza e tecnologia. La valutazione si è concentrata sull'accuratezza dei seguenti modelli di traduzione automatica:

Lara
Google Translate
DeepL
GPT-4o di OpenAI (utilizzando una strategia di apprendimento "5-shot", che prevede la fornitura di 5 traduzioni di esempio all'interno del prompt al fine di guidare e migliorare la performance traduttiva del modello)

Processo di valutazione

Selezione di traduttori professionisti

Per valutare la qualità delle traduzioni, abbiamo selezionato i traduttori con le performance migliori da una rete di 500.000 professionisti utilizzando T-Rank, un sistema di classificazione sviluppato da Translated e basato sull'IA. T-Rank ci permette di selezionare i traduttori professionisti più qualificati e con la migliore performance in una determinata area, valutando le loro prestazioni passate e le loro competenze in base a oltre 30 criteri. In questo modo, abbiamo avuto la certezza che i traduttori selezionati fossero altamente qualificati e madrelingua nelle lingue di destinazione.

Valutazione umana

Le revisioni di ogni frase tradotta in ciascuna lingua di destinazione sono state assegnate in modo indipendente a 3 traduttori madrelingua professionisti, che ignoravano quale fosse il modello utilizzato per generare le traduzioni, garantendo così l'imparzialità della valutazione.

Accordo della maggioranza

Se almeno 2 traduttori su 3 stabilivano che una traduzione era adatta all'uso professionale, il modello riceveva un punto per quella specifica frase. Abbiamo così ridotto la soggettività e posto l'accento sulla concordanza di opinioni.

Metodologia di assegnazione del punteggio

Il punteggio finale di ciascun motore rappresenta la percentuale di casi in cui la maggior parte dei valutatori ha approvato la traduzione. Questo approccio riflette la coerenza e l'affidabilità di ciascun modello di MT nella traduzione di contenuti professionali.

Risultati

I grafici sottostanti mostrano le performance dei 4 motori di MT nelle 3 aree di riferimento. Lara ha dimostrato una maggiore accuratezza, registrando un punteggio del 65%, mentre altri modelli (tra cui Google Translate, DeepL e GPT-4) hanno ottenuto votazioni comprese tra 54% e 58%. Questi risultati dimostrano che la performance di Lara è costantemente superiore in tutte le aree di riferimento.

Torna alla presentazione di Lara Torna alla presentazione di Lara

Valutazione dell'accuratezza di Lara rispetto a traduttori professionisti

Monitoriamo regolarmente i progressi di Lara attraverso valutazioni umane. Una delle metriche principali che utilizziamo è quella degli "Errors Per Thousand Words" (EPT o EPTW), con cui valutiamo l'accuratezza della traduzione calcolando il numero di errori per 1.000 parole di contenuto tradotto. Con l'EPT possiamo misurare oggettivamente le performance di Lara e individuare le aree di miglioramento.

Preparazione della valutazione

In quest'analisi, ci siamo concentrati sui contenuti generati dagli utenti, tra cui chat, recensioni e descrizioni di prodotti. Abbiamo tradotto i contenuti utilizzando Lara e chiesto ad alcuni traduttori selezionati dalla fascia media e dall'1% dei migliori professionisti nella nostra rete di tradurre gli stessi materiali senza utilizzare alcun sistema di MT. Tutte le traduzioni sono poi state sottoposte a revisione da parte di traduttori professionisti selezionati allo scopo di segnalare eventuali errori.

Processo di valutazione

Selezione dei contenuti

Abbiamo selezionato un'ampia gamma di materiali generati dagli utenti, tra cui trascrizioni di chat, recensioni dei clienti e descrizioni dettagliate di prodotti, per valutare in modo completo le performance di traduzione di diversi tipi di contenuti.

Traduzione

I contenuti selezionati sono stati prima tradotti utilizzando Lara. Allo stesso tempo, abbiamo chiesto ad alcuni traduttori professionisti di tradurre gli stessi contenuti senza l'ausilio di strumenti di MT. Questi traduttori sono stati accuratamente selezionati dalla fascia media e dall'1% dei migliori traduttori della nostra rete per garantire un'ampia rappresentanza della qualità della traduzione umana.

Rilevazione di errori

Indipendentemente dal metodo utilizzato, tutte le traduzioni sono state sottoposte a un rigoroso processo di revisione condotto da un team separato di traduttori professionisti. Si è trattato di revisori appositamente selezionati per la loro esperienza, incaricati di segnalare gli errori senza conoscere la fonte delle traduzioni. Tra questi figuravano errori grammaticali, traduzioni errate e omissioni. Questa operazione è stata svolta in modo coerente sia sulle traduzioni di Lara che su quelle professionali.

Calcolo dell'EPT

Abbiamo ottenuto il valore medio dell'EPT combinando i risultati di più traduzioni. Questo punteggio, che rappresenta la frequenza degli errori, ci permette di monitorare i miglioramenti delle performance di Lara.

Valutazione della prossima versione di Lara

Abbiamo applicato lo stesso processo di valutazione dell'EPT al modello alfa della prossima versione di Lara, il cui lancio è previsto per il 2025. Abbiamo così potuto misurare i primi miglioramenti della nuova versione e confrontarne le performance con il modello attuale. Il monitoraggio di questi progressi ci fornisce preziose informazioni sul miglioramento di Lara, finalizzato a ottenere una maggiore accuratezza nelle traduzioni.

Risultati

I risultati dell'EPT mostrano il costante miglioramento di Lara nella riduzione degli errori di traduzione in più aree di riferimento. Inoltre, riflettono chiaramente i progressi di Lara verso la singolarità linguistica.

Torna alla presentazione di Lara Torna alla presentazione di Lara

La lingua è il fattore più importante dell'evoluzione umana. Grazie a essa, possiamo comprenderci a vicenda e lavorare insieme per costruire un futuro migliore. Il linguaggio complesso ci ha permesso di evolverci più velocemente di qualsiasi altra specie.

Consentendo a tutti di comprendere ed essere compresi nella propria lingua, stiamo dando il via alla prossima fase dell'evoluzione umana. We believe in humans.