Voice Cloning

[vois clòning]

Tecnologia che riproduce la voce di una persona partendo da pochi secondi di audio. Usata per audiolibri, doppiaggio, ma anche per truffe.

Il voice cloning è la tecnologia che permette di sintetizzare la voce di una persona partendo da pochi secondi (5-30) di audio originale. Nel 2026 la qualità è praticamente indistinguibile dall'originale per la maggior parte degli ascoltatori.

Tool e piattaforme:

  • ElevenLabs: leader del settore, qualità altissima, multi-lingua.
  • Cartesia: alternativa più recente, qualità competitiva.
  • Resemble AI: focus enterprise.
  • Coqui TTS: open source, gratis, gira locale.
  • OpenAI Voice: integrato in ChatGPT.

Casi d'uso legittimi:

  • Audiolibri: autori che si auto-narrano senza ore di studio.
  • Doppiaggio: localizzazione film/serie con voci originali.
  • Podcast: voci coerenti per intere serie.
  • Video aziendali multilingua.
  • Voice avatar per content creator.
  • Accessibilità: persone che hanno perso la voce.

Casi d'uso illegittimi (purtroppo molti):

  • Truffe vocali: telefonate "di familiari" che chiedono soldi urgentemente.
  • Ricatti: voci finte di vittime per estorsione.
  • Disinformazione politica: leader che "dicono" cose mai dette.
  • Stalking: messaggi vocali ai familiari della vittima.
  • Frodi aziendali: video deepfake di CEO che ordinano bonifici.

Difese:

  • Codici di sicurezza familiari (parola d'ordine concordata).
  • Verificare richieste urgenti via altri canali.
  • Watermarking: ElevenLabs e altri inseriscono firme nei file generati (imperfetto).
  • Detection AI: tool per riconoscere voci sintetiche.

Quadro legale: AI Act EU richiede etichettatura. Codice penale italiano copre già molti scenari (truffa, sostituzione di persona).