Cartesia fondata 2023 a San Francisco da Karan Goel, Albert Gu e altri ex Stanford (Hazy Research lab). Specialisti di architetture state-space (SSM/Mamba), applicate a voce.
Differenza tecnica: invece di usare Transformer puri, Cartesia sfrutta architetture state-space più efficienti per audio in tempo reale. Latenza dichiarata sotto i 90ms.
Modelli:
- Sonic: text-to-speech naturale, velocità record.
- Sonic 2: qualità superiore, multilingua, voice cloning.
Casi d'uso target: voice agent in tempo reale per call center, NPC nei videogiochi, assistenti vocali aziendali, conversazioni real-time.
Prezzi: free tier limitato, Pro da 49 dollari/mese, Enterprise.
Pro: latenza imbattibile, ottimo per applicazioni in tempo reale, ricerca tecnica solida sotto.
Contro onesti: meno mature di ElevenLabs sulla varietà di voci pre-fatte, ecosistema più piccolo, italiano supportato ma con meno raffinatezza.
Per chi: sviluppatori che costruiscono prodotti voice real-time, aziende con call center IA, gaming. Per podcast e audiolibri, ElevenLabs probabilmente vince ancora.