Hai registrato un'intervista di un'ora. La devi trascrivere per pubblicarla. Mettendoti lì a mano: 4-5 ore di lavoro snervante. Pagando un trascrittore: 60-100 euro. Con l'IA giusta: 5 minuti e gratis (o quasi). Solo che devi sapere quale usare e come, perché su italiano molti tool fanno schifo.
I 5 tool che funzionano in italiano
1. Whisper di OpenAI
Il migliore per italiano, gratis se sai installarlo. Il modello "large-v3" capisce italiano standard, dialetti, parole tecniche. Su un PC normale (con GPU) trascrive un'ora di audio in 5-10 minuti. Senza GPU funziona ma più lento. Lo installi con Python o con interfacce tipo MacWhisper (Mac) o WhisperDesktop (Windows).
2. Otter.ai
Web app a pagamento (10 dollari al mese), buona qualità, integrazione con Zoom/Teams/Meet. Trascrive in tempo reale durante meeting. Italiano supportato ma meno preciso di Whisper.
3. Notta.ai
Simile a Otter, italiano un po' meglio. 14 dollari al mese.
4. Trint
Più professionale, usato da giornalisti. Ha editor incorporato per correggere e timestamping per video. 60 dollari al mese, caro ma se vivi di interviste vale.
5. ChatGPT (Plus) e Claude (Sonnet)
Caricamento file audio direttamente. Comodo per trascrizioni veloci di file brevi. Per ore di audio non sono il top.
Perché Whisper vince in italiano
OpenAI ha addestrato Whisper su 680.000 ore di audio multilingua. Risultato: capisce italiano standard meglio di tutti, gestisce inflessioni regionali, riconosce nomi propri italiani comuni, distingue parlanti diversi (con configurazione).
Errori tipici degli altri tool su italiano: confondono "perché" con "perchè", non distinguono accenti, traducono parole italiane simili all'inglese (es. "studio" viene scritto "study").
Il flusso pratico con Whisper
Opzione semplice: MacWhisper o WhisperDesktop
- Scarica MacWhisper (Mac, gratis con limite) o WhisperDesktop (Windows, gratis).
- Trascini il file audio.
- Selezioni modello "large-v3" e lingua "italiano".
- Aspetti 5-15 minuti per un'ora di audio.
- Esporti in TXT, SRT (sottotitoli), VTT.
Opzione tecnica: Python + Whisper
Apri terminale, installi: pip install openai-whisper. Esegui: whisper file.mp3 --language Italian --model large-v3. Output completo. Per chi non si spaventa di fronte al terminale, è la via più potente.
Trucchi per qualità migliore
- Audio pulito: rumore di fondo basso, parlanti vicini al microfono. Whisper è bravo ma con audio sporco la qualità cala.
- Suddividi più parlanti: per interviste con due voci, usa "WhisperX" che separa gli speaker (Speaker 1: "...", Speaker 2: "...").
- Controlla i nomi propri: Whisper può sbagliare nomi propri. Sempre rilettura veloce e correzione di nomi.
- Glossario: alcuni tool (Trint, Otter) ti permettono di caricare un glossario di termini specifici. Per audio tecnico, riduce errori.
Workflow trascrizione + sintesi
Una volta trascritto, passa il testo a Claude o ChatGPT con prompt:
"Questa è la trascrizione di [descrivi: intervista, riunione, lezione]. Fammi: (1) un riassunto di 10 righe dei punti chiave, (2) una lista di action item se ci sono, (3) le 5 citazioni più rilevanti del/i parlante/i con i timestamp se presenti, (4) eventuali domande aperte rimaste senza risposta."
Da un'ora di audio passi a una pagina di insight pronti.
Privacy: dove trascrivere?
- Audio pubblico (podcast, conferenza pubblica): qualunque tool va bene.
- Audio aziendale interno: usa Whisper LOCALE (sul tuo PC). Niente cloud. Whisper offline è una bomba per privacy.
- Audio con dati sensibili (interviste cliniche, audio legali, sessioni di terapia): solo Whisper locale. Tool cloud pubblici sono fuori discussione.
- Audio in cloud sicuri: Microsoft Stream + Copilot per audio Teams ha DPA aziendale, accettabile in molti casi.
Sottotitoli per video
Whisper esporta in formato SRT (timestamp + testo). Lo importi direttamente in Premiere, DaVinci, CapCut, YouTube. Sottotitoli automatici professionali in italiano in 5 minuti. Vedi la mia guida sui sottotitoli video per i dettagli.
Errori comuni
- Affidarsi a YouTube auto-captions per italiano. Fanno schifo. Usa Whisper.
- Non rivedere mai la trascrizione. Anche Whisper sbaglia il 2-5% delle parole. Per pubblicazioni serie, una rilettura ci sta.
- Trascrivere audio sensibili su tool cloud. Privacy compromessa.
- Usare modelli "tiny" o "base" per risparmiare tempo. La qualità crolla. Usa "large-v3" anche se ci mette di più.
- Non testare il tool sul TUO accento prima di affidargli ore di audio. Fai prova di 5 minuti, valuta qualità, scegli.
Nel gruppo Telegram ho condiviso uno script Python pronto per Whisper + sintesi automatica con Claude. Plug-and-play.