Cartesia

[car-tè-sia]

Azienda di voice AI fondata 2023 da ex Stanford. Modelli 'Sonic' velocissimi, latenza bassissima per voice agent in tempo reale. Concorrente di ElevenLabs.

Cartesia fondata 2023 a San Francisco da Karan Goel, Albert Gu e altri ex Stanford (Hazy Research lab). Specialisti di architetture state-space (SSM/Mamba), applicate a voce.

Differenza tecnica: invece di usare Transformer puri, Cartesia sfrutta architetture state-space più efficienti per audio in tempo reale. Latenza dichiarata sotto i 90ms.

Modelli:

  • Sonic: text-to-speech naturale, velocità record.
  • Sonic 2: qualità superiore, multilingua, voice cloning.

Casi d'uso target: voice agent in tempo reale per call center, NPC nei videogiochi, assistenti vocali aziendali, conversazioni real-time.

Prezzi: free tier limitato, Pro da 49 dollari/mese, Enterprise.

Pro: latenza imbattibile, ottimo per applicazioni in tempo reale, ricerca tecnica solida sotto.

Contro onesti: meno mature di ElevenLabs sulla varietà di voci pre-fatte, ecosistema più piccolo, italiano supportato ma con meno raffinatezza.

Per chi: sviluppatori che costruiscono prodotti voice real-time, aziende con call center IA, gaming. Per podcast e audiolibri, ElevenLabs probabilmente vince ancora.