AI Safety

[ei-ai sèif-ti]

Disciplina che studia come rendere i sistemi IA sicuri da rischi (allucinazioni, abuso, allineamento, rischio esistenziale).

L'AI Safety è la disciplina che studia come rendere i sistemi IA affidabili, prevedibili, e privi di rischi gravi per gli umani. Categoria ampia che include alignment, robustezza, sicurezza tecnica, etica.

Aree principali:

  • Alignment: far sì che le IA perseguano gli obiettivi umani.
  • Robustezza: che resistano ad attacchi (jailbreak, prompt injection).
  • Interpretabilità: capire come prendono decisioni.
  • Bias e fairness: che non discriminino.
  • Safety evaluations: testare sistemi prima del rilascio.
  • Catastrophic risks: prevenire scenari peggiori.
  • Misuse prevention: che non diventino strumenti per malintenzionati.

Tipi di rischi considerati:

  • Rischi attuali: discriminazione algoritmica, deepfake, disinformazione, frode.
  • Rischi vicini: agenti autonomi che fanno errori costosi, prompt injection in sistemi enterprise.
  • Rischi medio-termine: automazione lavoro, concentrazione potere economico.
  • Rischi esistenziali: scenari teorici di IA che sfugge al controllo umano.

Organizzazioni:

  • Anthropic: AI safety nel DNA aziendale.
  • OpenAI: aveva team safety, smantellato in parte nel 2024 (controverso).
  • DeepMind: team safety attivi.
  • Independent labs: METR (Model Evaluation), AISI UK, ARC Evals.
  • Academic: Stanford CRFM, MIT, ecc.

Posizioni:

  • Importanti riconoscimenti (premio Nobel 2024 in parte a Hinton, vocally pro-safety).
  • Critiche: AI safety come "scuse per regulation che favorisce big tech".
  • Polarizzazione: doomer vs accelerationist.

Per le aziende che usano IA: praticare AI safety significa testare sistemi prima del deploy, monitorare in produzione, avere procedure per incidenti, e mantenere human-in-the-loop per decisioni critiche.