Text-to-Speech(TTS)

[ti-ti-èss]

Tecnologia che converte testo scritto in voce parlata. Dai vecchi 'robot voice' alle voci IA indistinguibili dagli umani.

Il text-to-speech (TTS) è la tecnologia che trasforma testo scritto in audio parlato. Esiste da decenni ma è migliorata enormemente nell'ultimo decennio grazie al deep learning.

Generazioni di TTS:

  • Anni 80-90: voci robotiche concatenate. "Stephen Hawking style".
  • Anni 2000: parametriche, leggermente più naturali ma piatte.
  • Dal 2016: WaveNet di DeepMind, prima voce IA convincente.
  • Oggi: voci indistinguibili dagli umani, con emozioni, accenti, intonazioni.

Tool TTS principali:

  • ElevenLabs: il top, qualità altissima, voci preset + cloning.
  • OpenAI TTS: voci pulite via API.
  • Google Cloud TTS: variant ampia, multilingua.
  • Microsoft Azure Neural TTS: enterprise.
  • Cartesia: nuova generazione.
  • Coqui XTTS: open source, gira locale.
  • Bark: open source, voci espressive.

Casi d'uso:

  • Audiolibri.
  • Lettori di articoli (accessibilità).
  • Assistenti vocali.
  • Doppiaggio video.
  • Customer service automatizzato.
  • Audio per giochi.
  • Voice avatar.

Caratteristiche moderne:

  • Voice cloning (clonare voce specifica).
  • Controllo emotion (felice, triste, drammatica, sussurrata).
  • Multi-language nello stesso audio.
  • SSML support (markup per pronunce specifiche).
  • Streaming (audio generato in tempo reale).

Per chi crea contenuti: TTS moderno permette di produrre audio di qualità senza speaker professionali. Per applicazioni serie, ElevenLabs o Cartesia sono lo standard.