BLEU Score — Cosa significa, esempi, come si usa

Il BLEU score è la metrica classica della traduzione automatica, in giro dal 2002 (paper IBM). Confronta una traduzione candidata con una o più traduzioni di riferimento prodotte da umani. Più simile = più alto.

Come funziona, in soldoni:

Confronta gli n-gram (1-gram, 2-gram, 3-gram, 4-gram) della candidata con quelli del riferimento.
Calcola la precision: che frazione degli n-gram della candidata appare nel riferimento.
Penalità di brevità: se la candidata è troppo corta, penalizza.
Combina tutto in un numero tra 0 e 1 (spesso 0-100).

Valori tipici:

Traduzione umana professionale: 50-70.
Google Translate moderno: 40-50 su lingue europee.
Sistemi pre-neural (anni 2000): 20-30.
Modelli scarsi: sotto 15.

Critiche serie e ben note:

Premia traduzioni simili al riferimento, anche se altre traduzioni sono ugualmente valide. Soffoca la creatività.
Non capisce il significato: due frasi con stesso significato ma parole diverse possono avere BLEU bassissimo.
Non correla bene con giudizio umano per traduzioni di alta qualità.

Alternative moderne:

METEOR: tiene conto di sinonimi e lemmatizzazione.
BERTScore: usa embedding da BERT, misura similarità semantica.
COMET: modello neurale addestrato su giudizi umani. Molto correlato con la qualità reale.
chrF / chrF++: basata su caratteri, robusta su lingue con morfologia ricca.

BLEU resta perché è veloce, deterministica, ha decenni di letteratura. Per evaluation seria moderna, COMET o BERTScore dicono di più.