ROUGE Score — Cosa significa, esempi, come si usa

Il ROUGE è il cugino del BLEU ma per il summarization (riassunti automatici). Mentre BLEU misura precision (la candidata contiene n-gram giusti?), ROUGE misura recall (il riassunto copre quello che dovrebbe?).

Varianti che si usano:

ROUGE-N: n-gram overlap (di solito ROUGE-1 e ROUGE-2). Quanti unigrammi/bigrammi del riferimento appaiono nel riassunto.
ROUGE-L: usa la longest common subsequence. Più flessibile sull'ordine.
ROUGE-W: variante pesata di ROUGE-L.
ROUGE-S: usa skip-bigrams (bigrammi con possibili gap).

Valori tipici per summarization su CNN/DailyMail (benchmark classico):

Modelli pre-Transformer: ROUGE-1 ~35.
BART, T5: ROUGE-1 ~44.
LLM moderni con prompt: ROUGE-1 35-40 ma con qualità soggettiva spesso superiore.

Problemi:

Premia copia letterale: un riassunto estrattivo (taglia frasi originali) batte uno astrattivo (riformula) anche se peggiore.
Non valuta correttezza fattuale: un riassunto con un fatto sbagliato ha ROUGE buono se le parole giuste ci sono.
Non valuta coerenza: testo grammaticalmente rotto ma con parole giuste passa.

Negli ultimi anni si sta passando a valutazioni miste: ROUGE per riproducibilità + valutazione umana + giudici LLM (un altro modello che valuta). Per i riassunti generati da LLM moderni, ROUGE da solo dice poco.

Comunque ROUGE rimane standard nei paper accademici. Se pubblichi su summarization, devi riportarlo, anche se la metrica vera è altrove.