BLEU Score(Bilingual Evaluation Understudy)

[blu scor]

Metrica classica per valutare traduzioni automatiche. Confronta n-gram della traduzione con quelle di riferimento. Va da 0 a 1 (o 0-100).

Il BLEU score è la metrica classica della traduzione automatica, in giro dal 2002 (paper IBM). Confronta una traduzione candidata con una o più traduzioni di riferimento prodotte da umani. Più simile = più alto.

Come funziona, in soldoni:

  • Confronta gli n-gram (1-gram, 2-gram, 3-gram, 4-gram) della candidata con quelli del riferimento.
  • Calcola la precision: che frazione degli n-gram della candidata appare nel riferimento.
  • Penalità di brevità: se la candidata è troppo corta, penalizza.
  • Combina tutto in un numero tra 0 e 1 (spesso 0-100).

Valori tipici:

  • Traduzione umana professionale: 50-70.
  • Google Translate moderno: 40-50 su lingue europee.
  • Sistemi pre-neural (anni 2000): 20-30.
  • Modelli scarsi: sotto 15.

Critiche serie e ben note:

  • Premia traduzioni simili al riferimento, anche se altre traduzioni sono ugualmente valide. Soffoca la creatività.
  • Non capisce il significato: due frasi con stesso significato ma parole diverse possono avere BLEU bassissimo.
  • Non correla bene con giudizio umano per traduzioni di alta qualità.

Alternative moderne:

  • METEOR: tiene conto di sinonimi e lemmatizzazione.
  • BERTScore: usa embedding da BERT, misura similarità semantica.
  • COMET: modello neurale addestrato su giudizi umani. Molto correlato con la qualità reale.
  • chrF / chrF++: basata su caratteri, robusta su lingue con morfologia ricca.

BLEU resta perché è veloce, deterministica, ha decenni di letteratura. Per evaluation seria moderna, COMET o BERTScore dicono di più.