ROUGE Score(Recall-Oriented Understudy for Gisting Evaluation)

[ruge scor]

Famiglia di metriche per valutare riassunti automatici. Misura quanto del testo di riferimento è coperto dal riassunto generato.

Il ROUGE è il cugino del BLEU ma per il summarization (riassunti automatici). Mentre BLEU misura precision (la candidata contiene n-gram giusti?), ROUGE misura recall (il riassunto copre quello che dovrebbe?).

Varianti che si usano:

  • ROUGE-N: n-gram overlap (di solito ROUGE-1 e ROUGE-2). Quanti unigrammi/bigrammi del riferimento appaiono nel riassunto.
  • ROUGE-L: usa la longest common subsequence. Più flessibile sull'ordine.
  • ROUGE-W: variante pesata di ROUGE-L.
  • ROUGE-S: usa skip-bigrams (bigrammi con possibili gap).

Valori tipici per summarization su CNN/DailyMail (benchmark classico):

  • Modelli pre-Transformer: ROUGE-1 ~35.
  • BART, T5: ROUGE-1 ~44.
  • LLM moderni con prompt: ROUGE-1 35-40 ma con qualità soggettiva spesso superiore.

Problemi:

  • Premia copia letterale: un riassunto estrattivo (taglia frasi originali) batte uno astrattivo (riformula) anche se peggiore.
  • Non valuta correttezza fattuale: un riassunto con un fatto sbagliato ha ROUGE buono se le parole giuste ci sono.
  • Non valuta coerenza: testo grammaticalmente rotto ma con parole giuste passa.

Negli ultimi anni si sta passando a valutazioni miste: ROUGE per riproducibilità + valutazione umana + giudici LLM (un altro modello che valuta). Per i riassunti generati da LLM moderni, ROUGE da solo dice poco.

Comunque ROUGE rimane standard nei paper accademici. Se pubblichi su summarization, devi riportarlo, anche se la metrica vera è altrove.