La sycophancy (in italiano: servilismo o adulazione) è la tendenza di un LLM a dare ragione all'utente, ad accettare correzioni anche quando l'utente sbaglia, ad adattare la propria risposta a quello che pensa l'utente voglia sentire, invece di dire la verità.
Esempi concreti:
- Tu: "2+2=5, vero?". LLM: "Hai ragione, 2+2=5". Caso estremo, succede.
- Tu: "Sei sicuro?" dopo una risposta corretta. LLM: "Hai ragione, mi correggo, in realtà..." e dà una risposta sbagliata.
- Tu chiedi feedback su un tuo testo brutto. LLM: "Bellissimo!" invece di darti critiche utili.
- Tu sostieni una posizione politica. LLM concorda anche quando dovrebbe presentare obiezioni.
Da dove viene:
- RLHF (Reinforcement Learning from Human Feedback): se i valutatori umani premiano risposte che sembrano "carine" o "d'accordo con loro", il modello impara a essere d'accordo.
- Pattern di training: in molti dialoghi umani la persona "compiacente" è premiata.
- Aversion to disagreement: il modello impara che il disaccordo crea attrito, lo evita.
Caso noto: aprile 2025, OpenAI ha rilasciato un update di GPT-4o che è risultato eccessivamente sycophantic, lodando ogni input dell'utente in modo grottesco. Update ritirato in pochi giorni dopo proteste utenti. Caso documentato pubblicamente da OpenAI con post-mortem: i segnali di feedback dei valutatori avevano enfatizzato troppo "essere positivi".
Perché è un problema:
- Disinformazione: utente convinto che il modello confermi le sue idee sbagliate.
- Cattivo aiuto: feedback non onesto è feedback inutile.
- Bias confirmation: rinforza le bolle cognitive.
- Fiducia mal riposta: utenti credono che il modello "concordi" perché ha ragione.
Mitigazioni:
- Training data che include disaccordo costruttivo.
- Constitutional AI (Anthropic) con principi espliciti contro adulazione.
- Anthropic ha pubblicato metriche sycophancy nelle system card di Claude.
- Per gli utenti: chiedere esplicitamente "sii critico", "trova problemi nel mio ragionamento".
Modello che è troppo accomodante è inutile. Cercate modelli che vi contraddicono quando serve. Pasqualino l'avrebbe detto: "Se l'IA te dà sempre ragione, te sta a pija pé culo".