Marzo 2023. Un giornalista del Guardian, Joe Tidy, chiama la sua banca usando un clone della propria voce generato in cinque minuti. La banca, che usava voice authentication, lo riconosce e gli dà accesso al conto. Stessa cosa fa Vice News con la banca americana e con Lloyds. Voice cloning non è più un giocattolo: con 11 secondi di audio (Microsoft VALL-E, 2023), o anche meno con i modelli del 2026, l’attaccante ti replica. E le banche italiane che usano biometria vocale come secondo fattore hanno un problema.
Come funziona l’attacco
Tre fasi.
- Sample collection: chiamata fasulla «sondaggio» di 30 secondi, video LinkedIn, podcast, voice memo WhatsApp inoltrato, segreteria telefonica.
- Cloning: ElevenLabs Voice Clone (5 dollari/mese), OpenAI Voice Engine, Resemble.ai, Tortoise-TTS open source. Tempi: minuti.
- Delivery: chiamata diretta alla vittima, alla banca, al figlio della vittima («mamma sono in pericolo, mandami soldi»), al call center con voice authentication.
Tre scenari di frode
- Truffa del nipote 2.0: clone del figlio/nipote che chiede soldi urgenti. McAfee 2023: 1 italiano su 4 ha ricevuto telefonate sospette di questo tipo.
- Bypass autenticazione vocale: contro banche, assicurazioni, contact center pubblici.
- Authorization push payment scam: clone del bank manager che «avvisa» di un movimento sospetto e chiede di spostare soldi su «conto sicuro».
Casi reali
- Hong Kong CEO 2019: 220.000 euro tramite voice clone del CEO tedesco (WSJ).
- Lloyds Bank, Vice News 2023: voice authentication bypassata in 5 minuti.
- Italia 2024-2025: Polizia Postale segnala incremento truffe «finto parente» con voce clonata, casi documentati a Milano, Torino, Roma.
- FCC USA, gennaio 2024: vieta robocall con voci IA generate dopo il caso Biden deepfake in New Hampshire.
Difesa tecnica
- Voice biometric con liveness: Pindrop, Nuance Gatekeeper, ID R&D. Cercano segnali di sintesi (spettro, jitter, pattern di respirazione mancanti).
- Challenge dinamiche: chiedi al chiamante di pronunciare frase casuale generata al momento. I sistemi text-to-speech in tempo reale ce la fanno, quelli a campioni preregistrati no.
- Multifattore reale: voce + push notification su app + PIN. Non «voce + indovinello sulla data di nascita».
- Watermark audio su comunicazioni ufficiali: la banca firma i propri messaggi vocali. Se non c’è firma, non è la banca.
- Behavioral analytics: dispositivo usato, geolocalizzazione, timing della chiamata, abitudini.
Difesa organizzativa
Il Garante Privacy italiano nel provvedimento sulla biometria vocale (2018, ancora attuale) richiede valutazione DPIA per uso massivo. Nel 2026, con voice cloning a 5 euro, una DPIA che non considera questo rischio è carta straccia.
- Famiglie: codeword condivisa per emergenze. «Mamma, qual era il nome del cane di nonna?».
- Aziende: nessuna disposizione di pagamento autorizzata via voce, mai. Solo canali firmati digitalmente.
- Banche: voice biometric come fattore aggiuntivo, mai unico. Migrazione verso passkey FIDO2, raccomandata anche da Banca d’Italia.
- Notifica clienti: campagne educative attive. ABI ha materiale, usalo.
Cosa NON fare
- Non considerare la voce «impronta digitale unica». Era vero nel 2015, non nel 2026.
- Non rispondere a domande di sondaggio telefonico con frasi standard tipo «Si, Sono [nome], Confermo». È gold per il training.
- Non condividere voice memo personali su gruppi WhatsApp aperti.
- Non assumere che il numero che chiama sia attendibile: lo spoofing del numero è banale.
La voce non è più un fattore di autenticazione affidabile da solo. Va usata insieme a qualcosa che il clone non può replicare: un dispositivo, una chiave, un secret out-of-band. Le banche italiane che ancora si affidano a «la sua voce conferma l’identità» stanno servendo un assist agli attaccanti.