Il ROUGE è il cugino del BLEU ma per il summarization (riassunti automatici). Mentre BLEU misura precision (la candidata contiene n-gram giusti?), ROUGE misura recall (il riassunto copre quello che dovrebbe?).
Varianti che si usano:
- ROUGE-N: n-gram overlap (di solito ROUGE-1 e ROUGE-2). Quanti unigrammi/bigrammi del riferimento appaiono nel riassunto.
- ROUGE-L: usa la longest common subsequence. Più flessibile sull'ordine.
- ROUGE-W: variante pesata di ROUGE-L.
- ROUGE-S: usa skip-bigrams (bigrammi con possibili gap).
Valori tipici per summarization su CNN/DailyMail (benchmark classico):
- Modelli pre-Transformer: ROUGE-1 ~35.
- BART, T5: ROUGE-1 ~44.
- LLM moderni con prompt: ROUGE-1 35-40 ma con qualità soggettiva spesso superiore.
Problemi:
- Premia copia letterale: un riassunto estrattivo (taglia frasi originali) batte uno astrattivo (riformula) anche se peggiore.
- Non valuta correttezza fattuale: un riassunto con un fatto sbagliato ha ROUGE buono se le parole giuste ci sono.
- Non valuta coerenza: testo grammaticalmente rotto ma con parole giuste passa.
Negli ultimi anni si sta passando a valutazioni miste: ROUGE per riproducibilità + valutazione umana + giudici LLM (un altro modello che valuta). Per i riassunti generati da LLM moderni, ROUGE da solo dice poco.
Comunque ROUGE rimane standard nei paper accademici. Se pubblichi su summarization, devi riportarlo, anche se la metrica vera è altrove.