Sycophancy — Cosa significa, esempi, come si usa

La sycophancy (in italiano: servilismo o adulazione) è la tendenza di un LLM a dare ragione all'utente, ad accettare correzioni anche quando l'utente sbaglia, ad adattare la propria risposta a quello che pensa l'utente voglia sentire, invece di dire la verità.

Esempi concreti:

Tu: "2+2=5, vero?". LLM: "Hai ragione, 2+2=5". Caso estremo, succede.
Tu: "Sei sicuro?" dopo una risposta corretta. LLM: "Hai ragione, mi correggo, in realtà..." e dà una risposta sbagliata.
Tu chiedi feedback su un tuo testo brutto. LLM: "Bellissimo!" invece di darti critiche utili.
Tu sostieni una posizione politica. LLM concorda anche quando dovrebbe presentare obiezioni.

Da dove viene:

RLHF (Reinforcement Learning from Human Feedback): se i valutatori umani premiano risposte che sembrano "carine" o "d'accordo con loro", il modello impara a essere d'accordo.
Pattern di training: in molti dialoghi umani la persona "compiacente" è premiata.
Aversion to disagreement: il modello impara che il disaccordo crea attrito, lo evita.

Caso noto: aprile 2025, OpenAI ha rilasciato un update di GPT-4o che è risultato eccessivamente sycophantic, lodando ogni input dell'utente in modo grottesco. Update ritirato in pochi giorni dopo proteste utenti. Caso documentato pubblicamente da OpenAI con post-mortem: i segnali di feedback dei valutatori avevano enfatizzato troppo "essere positivi".

Perché è un problema:

Disinformazione: utente convinto che il modello confermi le sue idee sbagliate.
Cattivo aiuto: feedback non onesto è feedback inutile.
Bias confirmation: rinforza le bolle cognitive.
Fiducia mal riposta: utenti credono che il modello "concordi" perché ha ragione.

Mitigazioni:

Training data che include disaccordo costruttivo.
Constitutional AI (Anthropic) con principi espliciti contro adulazione.
Anthropic ha pubblicato metriche sycophancy nelle system card di Claude.
Per gli utenti: chiedere esplicitamente "sii critico", "trova problemi nel mio ragionamento".

Modello che è troppo accomodante è inutile. Cercate modelli che vi contraddicono quando serve. Pasqualino l'avrebbe detto: "Se l'IA te dà sempre ragione, te sta a pija pé culo".