
Cos'è la traduzione automatica?
La traduzione automatica, definita anche traduzione automatizzata o MT (Machine Translation) è un processo mediante il quale un software viene utilizzato per tradurre un testo da una lingua naturale (ad esempio, l'inglese) a un'altra (ad esempio, lo spagnolo).
Per elaborare qualunque traduzione, sia umana che automatica, è necessario che il significato di un testo in lingua originale (di partenza) sia restituito integralmente nella lingua di arrivo, cioè la traduzione. Anche se in superficie sembra essere elementare, si tratta di una questione molto più complessa. La traduzione non è una mera traduzione parola per parola. Un traduttore deve interpretare e analizzare tutti gli elementi in un testo e sapere quale parola può influenzarne un'altra. Ciò richiede un'estesa competenza in grammatica, sintassi (struttura delle frasi), semantica (significati) e così via in entrambe le lingue, quella di partenza e quella di arrivo, oltre che una familiarità con le corrispondenti aree geografiche locali.
La traduzione umana e automatica presentano entrambe delle sfide. Ad esempio, due singoli traduttori non produrranno mai traduzioni identiche di uno stesso testo nella stessa combinazione linguistica, e possono essere necessarie varie fasi di revisione per soddisfare un cliente. Ma la sfida maggiore è rappresentata dal modo in cui una traduzione automatica può produrre testi di qualità pubblicabile.
Tecnologia di traduzione basata su regole
La traduzione automatica basata su regole fa affidamento su un numero quasi infinito di regole linguistiche incorporate e su milioni di dizionari bilingue per ogni combinazione linguistica.
Il software analizza la sintassi del testo e crea una rappresentazione temporanea da cui viene generato il testo nella lingua di arrivo. Questo processo richiede lessici estesi con informazioni di tipo morfologico, sintattico e semantico e un gruppo di regole molto vasto. Il software utilizza questi gruppi complessi di regole e successivamente trasferisce la struttura grammaticale della lingua di partenza alla lingua di arrivo.
Le traduzioni vengono create in base a dizionari di proporzioni gigantesche e sofisticate regole linguistiche. Gli utenti possono migliorare la traduzione predefinita aggiungendo la propria terminologia al processo di traduzione. A tale scopo, creano e definiscono dei dizionari personalizzati, che hanno la precedenza sulle impostazioni predefinite del sistema.
Nella maggior parte dei casi, sono previste due fasi: un investimento iniziale che aumenta significativamente la qualità a un costo limitato, e un investimento continuativo per migliorare in modo incrementale la qualità. Anche se la traduzione automatica basata su regole consente alle aziende di raggiungere e superare la soglia di qualità desiderata, il processo di miglioramento della qualità può essere lungo e costoso.
Tecnologia di traduzione automatica statistica
La traduzione automatica di tipo statistico utilizza modelli di traduzione statistica i cui parametri derivano dall'analisi di corpora monoligue o bilingue. La creazione dei modelli di traduzione statistica è un processo rapido, ma la tecnologia fa affidamento in modo significativo sui corpora multilingue pre-esistenti. È richiesto un minimo di 2 milioni di parole per un dominio specifico, e anche di più per una lingua generica. In teoria, in tal modo è possibile raggiungere la soglia di qualità ma la maggior parte delle aziende non è provvista di corpora multilingue sufficientemente estesi per creare i modelli di traduzione necessari. Inoltre, la traduzione automatica statistica sottopone la CPU a un grosso carico di elaborazione e richiede una configurazione hardware estesa per eseguire i modelli di traduzione con livelli di prestazione medi.
Confronto tra traduzione automatica basata su regole e statistica
La traduzione automatica basata su regole fornisce una buona qualità nelle situazioni generiche (cioè, non specifiche di un dominio) ed è per natura prevedibile. La personalizzazione basata su dizionari garantisce un miglioramento della qualità e della conformità alla terminologia aziendale. Tuttavia, alla traduzione risultante potrebbe mancare la fluidità attesa dai lettori. In termini di investimento, il ciclo di personalizzazione necessario per raggiungere la soglia di qualità può risultare lungo e costoso. Le prestazioni sono però elevate anche con l'hardware standard.
La traduzione automatica statistica fornisce una buona qualità solo se sono disponibili corpora estesi e qualificati. La traduzione è fluida, nel senso che è di facile lettura e pertanto soddisfa le aspettative degli utenti. Tuttavia, la traduzione non è né prevedibile né coerente. L'addestramento basato su corpora di qualità è automatizzato e più economico, ma quello basato su corpora linguistici generici, cioè su testi diversi da quelli di un dominio specificato, è scarso. Inoltre, la traduzione automatica statistica richiede molte risorse hardware per poter creare e gestire modelli di traduzione di grandi dimensioni.
| Traduzione automatica basata su regole | Traduzione automatica statistica |
|---|---|
| + Qualità coerente e prevedibile | - Qualità di traduzione imprevedibile |
| + Traduzione di qualità anche al di fuori dei domini | - Scarsa qualità al di fuori dei domini |
| + Riconoscimento delle regole grammaticali | - Mancato riconoscimento della grammatica |
| + Prestazioni elevate e solidità | - Requisiti elevati per CPU e spazio su disco |
| + Coerenza tra le versioni | - Incoerenza tra le versioni |
| - Mancanza di fluidità | + Buona fluidità |
| - Difficoltà di gestione delle eccezioni alle regole | + Buona capacità di individuare le eccezioni alle regole |
| - Costi elevati di sviluppo e personalizzazione | + Costi di sviluppo rapidi ed economici in presenza del corpus richiesto |
Dati i requisiti complessivi, emerge chiaramente l'esigenza di un terzo approccio attraverso il quale gli utenti ottengano una migliore qualità di traduzione e prestazioni elevate (come accade con la traduzione automatica basata su regole) con un investimento più ridotto (come accade con la traduzione automatica statistica).










