Il voice cloning è la tecnologia che permette di sintetizzare la voce di una persona partendo da pochi secondi (5-30) di audio originale. Nel 2026 la qualità è praticamente indistinguibile dall'originale per la maggior parte degli ascoltatori.
Tool e piattaforme:
- ElevenLabs: leader del settore, qualità altissima, multi-lingua.
- Cartesia: alternativa più recente, qualità competitiva.
- Resemble AI: focus enterprise.
- Coqui TTS: open source, gratis, gira locale.
- OpenAI Voice: integrato in ChatGPT.
Casi d'uso legittimi:
- Audiolibri: autori che si auto-narrano senza ore di studio.
- Doppiaggio: localizzazione film/serie con voci originali.
- Podcast: voci coerenti per intere serie.
- Video aziendali multilingua.
- Voice avatar per content creator.
- Accessibilità: persone che hanno perso la voce.
Casi d'uso illegittimi (purtroppo molti):
- Truffe vocali: telefonate "di familiari" che chiedono soldi urgentemente.
- Ricatti: voci finte di vittime per estorsione.
- Disinformazione politica: leader che "dicono" cose mai dette.
- Stalking: messaggi vocali ai familiari della vittima.
- Frodi aziendali: video deepfake di CEO che ordinano bonifici.
Difese:
- Codici di sicurezza familiari (parola d'ordine concordata).
- Verificare richieste urgenti via altri canali.
- Watermarking: ElevenLabs e altri inseriscono firme nei file generati (imperfetto).
- Detection AI: tool per riconoscere voci sintetiche.
Quadro legale: AI Act EU richiede etichettatura. Codice penale italiano copre già molti scenari (truffa, sostituzione di persona).