AI Safety — Cosa significa, esempi, come si usa

L'AI Safety è la disciplina che studia come rendere i sistemi IA affidabili, prevedibili, e privi di rischi gravi per gli umani. Categoria ampia che include alignment, robustezza, sicurezza tecnica, etica.

Aree principali:

Alignment: far sì che le IA perseguano gli obiettivi umani.
Robustezza: che resistano ad attacchi (jailbreak, prompt injection).
Interpretabilità: capire come prendono decisioni.
Bias e fairness: che non discriminino.
Safety evaluations: testare sistemi prima del rilascio.
Catastrophic risks: prevenire scenari peggiori.
Misuse prevention: che non diventino strumenti per malintenzionati.

Tipi di rischi considerati:

Rischi attuali: discriminazione algoritmica, deepfake, disinformazione, frode.
Rischi vicini: agenti autonomi che fanno errori costosi, prompt injection in sistemi enterprise.
Rischi medio-termine: automazione lavoro, concentrazione potere economico.
Rischi esistenziali: scenari teorici di IA che sfugge al controllo umano.

Organizzazioni:

Anthropic: AI safety nel DNA aziendale.
OpenAI: aveva team safety, smantellato in parte nel 2024 (controverso).
DeepMind: team safety attivi.
Independent labs: METR (Model Evaluation), AISI UK, ARC Evals.
Academic: Stanford CRFM, MIT, ecc.

Posizioni:

Importanti riconoscimenti (premio Nobel 2024 in parte a Hinton, vocally pro-safety).
Critiche: AI safety come "scuse per regulation che favorisce big tech".
Polarizzazione: doomer vs accelerationist.

Per le aziende che usano IA: praticare AI safety significa testare sistemi prima del deploy, monitorare in produzione, avere procedure per incidenti, e mantenere human-in-the-loop per decisioni critiche.