L'AI Safety è la disciplina che studia come rendere i sistemi IA affidabili, prevedibili, e privi di rischi gravi per gli umani. Categoria ampia che include alignment, robustezza, sicurezza tecnica, etica.
Aree principali:
- Alignment: far sì che le IA perseguano gli obiettivi umani.
- Robustezza: che resistano ad attacchi (jailbreak, prompt injection).
- Interpretabilità: capire come prendono decisioni.
- Bias e fairness: che non discriminino.
- Safety evaluations: testare sistemi prima del rilascio.
- Catastrophic risks: prevenire scenari peggiori.
- Misuse prevention: che non diventino strumenti per malintenzionati.
Tipi di rischi considerati:
- Rischi attuali: discriminazione algoritmica, deepfake, disinformazione, frode.
- Rischi vicini: agenti autonomi che fanno errori costosi, prompt injection in sistemi enterprise.
- Rischi medio-termine: automazione lavoro, concentrazione potere economico.
- Rischi esistenziali: scenari teorici di IA che sfugge al controllo umano.
Organizzazioni:
- Anthropic: AI safety nel DNA aziendale.
- OpenAI: aveva team safety, smantellato in parte nel 2024 (controverso).
- DeepMind: team safety attivi.
- Independent labs: METR (Model Evaluation), AISI UK, ARC Evals.
- Academic: Stanford CRFM, MIT, ecc.
Posizioni:
- Importanti riconoscimenti (premio Nobel 2024 in parte a Hinton, vocally pro-safety).
- Critiche: AI safety come "scuse per regulation che favorisce big tech".
- Polarizzazione: doomer vs accelerationist.
Per le aziende che usano IA: praticare AI safety significa testare sistemi prima del deploy, monitorare in produzione, avere procedure per incidenti, e mantenere human-in-the-loop per decisioni critiche.