La moderazione contenuti con IA è quello che permette a Meta, YouTube, TikTok, X di gestire miliardi di post al giorno. Senza IA, la moderazione manuale sarebbe impossibile per scala. Con solo IA, sarebbe disastrosa per qualità.
Tipi di moderazione automatizzata:
- Image hash matching: confronto con database di contenuti già classificati (CSAM, terrorismo).
- Classifier-based: modelli ML che giudicano se un post è hate speech, spam, harassment.
- Multimodale: analisi testo + immagine + audio + contesto sociale.
- Behavioral: pattern di account (bot, coordinated inauthentic behavior).
Problemi noti:
- Falsi positivi: post legittimi cancellati. Esempi famosi: foto di sopravvissuti dell'Olocausto, opere d'arte classiche, rapporti giornalistici.
- Falsi negativi: hate speech sfumato, sarcasmo, contenuti in lingue minoritarie sfuggono.
- Bias linguistici: i modelli funzionano molto meglio in inglese che in arabo, swahili, italiano.
- Censura indiretta: chi decide cosa è "controverso"? Chi addestra il modello.
- Lavoro umano nascosto: i moderatori reali (spesso in Kenya, Filippine) annotano contenuti traumatici per stipendi bassi.
Inchieste serie:
- Time, 2023: OpenAI ha pagato moderatori kenioti meno di 2$/ora per annotare contenuti orribili.
- Documentari su moderatori Facebook: PTSD documentato in centinaia di lavoratori.
Quadro normativo:
- DSA (Digital Services Act, UE 2024): obblighi di trasparenza, ricorso, audit per VLOP (Very Large Online Platforms).
- NetzDG tedesco: pioniere, copia-modello per altre giurisdizioni.
- AI Act: sistemi di moderazione in alcuni casi sono "alto rischio".
Verità scomoda: la moderazione perfetta non esiste. La moderazione completamente automatica è un'illusione. Quella completamente umana è impossibile. La via è ibrida e sempre imperfetta.