Whisper è un modello di speech-to-text (trascrizione audio in testo) sviluppato da OpenAI e rilasciato come open source nel 2022. Da allora è diventato lo standard di fatto per la trascrizione automatica.
Caratteristiche:
- Open source: i pesi sono pubblici, lo puoi scaricare e usare gratis.
- Multilingua: oltre 90 lingue supportate. L'italiano funziona molto bene.
- Robusto: gestisce rumore di fondo, accenti, audio di qualità mediocre meglio dei competitor.
- Versioni: tiny, base, small, medium, large, turbo. Più grande = più accurato ma più lento.
Cosa puoi fare:
- Trascrizione di riunioni Zoom/Teams.
- Sottotitoli per video YouTube.
- Trascrizione podcast.
- Voice memos su computer/mobile.
- Telefonate aziendali per archivio.
Tool che usano Whisper sotto:
- Otter, Fathom, Fireflies (servizi meeting).
- App come Whisper Transcription, Buzz.
- Servizi self-hosted con API Whisper.
Vantaggio chiave per privacy: visto che è open source, lo puoi far girare sul tuo PC o server. I tuoi audio non escono dalla tua infrastruttura. Importantissimo per riunioni aziendali, telefonate cliente, audio sensibili.
Esistono varianti specializzate (Distil-Whisper, varianti per lingue specifiche) e servizi che combinano Whisper con altri modelli per riassunti automatici.