Il text-to-speech (TTS) è la tecnologia che trasforma testo scritto in audio parlato. Esiste da decenni ma è migliorata enormemente nell'ultimo decennio grazie al deep learning.
Generazioni di TTS:
- Anni 80-90: voci robotiche concatenate. "Stephen Hawking style".
- Anni 2000: parametriche, leggermente più naturali ma piatte.
- Dal 2016: WaveNet di DeepMind, prima voce IA convincente.
- Oggi: voci indistinguibili dagli umani, con emozioni, accenti, intonazioni.
Tool TTS principali:
- ElevenLabs: il top, qualità altissima, voci preset + cloning.
- OpenAI TTS: voci pulite via API.
- Google Cloud TTS: variant ampia, multilingua.
- Microsoft Azure Neural TTS: enterprise.
- Cartesia: nuova generazione.
- Coqui XTTS: open source, gira locale.
- Bark: open source, voci espressive.
Casi d'uso:
- Audiolibri.
- Lettori di articoli (accessibilità).
- Assistenti vocali.
- Doppiaggio video.
- Customer service automatizzato.
- Audio per giochi.
- Voice avatar.
Caratteristiche moderne:
- Voice cloning (clonare voce specifica).
- Controllo emotion (felice, triste, drammatica, sussurrata).
- Multi-language nello stesso audio.
- SSML support (markup per pronunce specifiche).
- Streaming (audio generato in tempo reale).
Per chi crea contenuti: TTS moderno permette di produrre audio di qualità senza speaker professionali. Per applicazioni serie, ElevenLabs o Cartesia sono lo standard.