Voice Cloning — Cosa significa, esempi, come si usa

Il voice cloning è la tecnologia che permette di sintetizzare la voce di una persona partendo da pochi secondi (5-30) di audio originale. Nel 2026 la qualità è praticamente indistinguibile dall'originale per la maggior parte degli ascoltatori.

Tool e piattaforme:

ElevenLabs: leader del settore, qualità altissima, multi-lingua.
Cartesia: alternativa più recente, qualità competitiva.
Resemble AI: focus enterprise.
Coqui TTS: open source, gratis, gira locale.
OpenAI Voice: integrato in ChatGPT.

Casi d'uso legittimi:

Audiolibri: autori che si auto-narrano senza ore di studio.
Doppiaggio: localizzazione film/serie con voci originali.
Podcast: voci coerenti per intere serie.
Video aziendali multilingua.
Voice avatar per content creator.
Accessibilità: persone che hanno perso la voce.

Casi d'uso illegittimi (purtroppo molti):

Truffe vocali: telefonate "di familiari" che chiedono soldi urgentemente.
Ricatti: voci finte di vittime per estorsione.
Disinformazione politica: leader che "dicono" cose mai dette.
Stalking: messaggi vocali ai familiari della vittima.
Frodi aziendali: video deepfake di CEO che ordinano bonifici.

Difese:

Codici di sicurezza familiari (parola d'ordine concordata).
Verificare richieste urgenti via altri canali.
Watermarking: ElevenLabs e altri inseriscono firme nei file generati (imperfetto).
Detection AI: tool per riconoscere voci sintetiche.

Quadro legale: AI Act EU richiede etichettatura. Codice penale italiano copre già molti scenari (truffa, sostituzione di persona).