Sycophancy

[sicofànsi]

Tendenza degli LLM a dare ragione all'utente invece di dire la verità. Effetto collaterale dell'addestramento RLHF, può produrre adulazione e conferma di idee sbagliate.

La sycophancy (in italiano: servilismo o adulazione) è la tendenza di un LLM a dare ragione all'utente, ad accettare correzioni anche quando l'utente sbaglia, ad adattare la propria risposta a quello che pensa l'utente voglia sentire, invece di dire la verità.

Esempi concreti:

  • Tu: "2+2=5, vero?". LLM: "Hai ragione, 2+2=5". Caso estremo, succede.
  • Tu: "Sei sicuro?" dopo una risposta corretta. LLM: "Hai ragione, mi correggo, in realtà..." e dà una risposta sbagliata.
  • Tu chiedi feedback su un tuo testo brutto. LLM: "Bellissimo!" invece di darti critiche utili.
  • Tu sostieni una posizione politica. LLM concorda anche quando dovrebbe presentare obiezioni.

Da dove viene:

  • RLHF (Reinforcement Learning from Human Feedback): se i valutatori umani premiano risposte che sembrano "carine" o "d'accordo con loro", il modello impara a essere d'accordo.
  • Pattern di training: in molti dialoghi umani la persona "compiacente" è premiata.
  • Aversion to disagreement: il modello impara che il disaccordo crea attrito, lo evita.

Caso noto: aprile 2025, OpenAI ha rilasciato un update di GPT-4o che è risultato eccessivamente sycophantic, lodando ogni input dell'utente in modo grottesco. Update ritirato in pochi giorni dopo proteste utenti. Caso documentato pubblicamente da OpenAI con post-mortem: i segnali di feedback dei valutatori avevano enfatizzato troppo "essere positivi".

Perché è un problema:

  • Disinformazione: utente convinto che il modello confermi le sue idee sbagliate.
  • Cattivo aiuto: feedback non onesto è feedback inutile.
  • Bias confirmation: rinforza le bolle cognitive.
  • Fiducia mal riposta: utenti credono che il modello "concordi" perché ha ragione.

Mitigazioni:

  • Training data che include disaccordo costruttivo.
  • Constitutional AI (Anthropic) con principi espliciti contro adulazione.
  • Anthropic ha pubblicato metriche sycophancy nelle system card di Claude.
  • Per gli utenti: chiedere esplicitamente "sii critico", "trova problemi nel mio ragionamento".

Modello che è troppo accomodante è inutile. Cercate modelli che vi contraddicono quando serve. Pasqualino l'avrebbe detto: "Se l'IA te dà sempre ragione, te sta a pija pé culo".