Come trascrivere audio in testo con l'IA (Whisper, Otter, alternative)

Trascrivere un'ora di audio a mano richiede 4 ore. Con l'IA: 5 minuti. Vediamo i tool che funzionano davvero, anche per italiano e dialetti.

Di Super Squalo·4 min lettura··

Hai un'intervista di un'ora che ti hanno passato lunedì sera. Va trascritta entro mercoledì, perché ci devi cavare fuori un articolo. A mano sono quattro o cinque ore di sbobinatura: cuffie, pausa, riavvolgi, scrivi, sbagli, riscrivi. Pagando un trascrittore: sessanta-cento euro. Con l'IA giusta: cinque minuti, e zero euro o quasi.

Solo che devi sapere quale strumento usare e come, perché in italiano la metà dei tool fa schifo. Ti racconto cosa funziona e cosa no.

Il pasticcio in cui finisci se prendi il primo tool che capita

La trascrizione automatica è tornata utile da quando OpenAI ha rilasciato Whisper. Prima di quel momento i tool generalisti facevano errori grossolani sull'italiano: dialetti, parlato veloce, sigle. Oggi i risultati sono buoni, ma non tutti i servizi sono uguali. Alcuni montano motori scarsi. Altri ti fanno pagare cifre assurde. Altri ancora finiscono per spedire l'audio su server americani senza dirtelo chiaramente.

Se l'audio contiene un cliente, un paziente, un teste, un nome di una persona reale — non è un'intervista pubblica — il tema diventa privacy seria. Il Garante a inizio 2023 ha bloccato ChatGPT proprio per la gestione dei dati personali. OpenAI ha pagato 15 milioni a dicembre 2024. Una trascrizione che contiene roba sensibile non si butta sul primo cloud disponibile.

Cosa NON puoi fare

Non puoi caricare audio con dati di terzi (clienti, pazienti, intercettazioni, riunioni aziendali) su servizi gratuiti che non dichiarano dove finisce il file. È violazione del GDPR e, in certi casi, anche del segreto professionale.

Non puoi firmare la trascrizione come fedele senza riascoltarla almeno a campione. Tutti i motori sbagliano nomi propri, sigle, numeri. Se la usi per un verbale o un atto, la rileggi tu.

Non puoi caricare audio di un terzo senza il suo consenso. Se ti hanno mandato una registrazione, l'autorizzazione a trascriverla con l'IA te la fai dare per iscritto.

Non puoi aspettarti la perfezione su audio rumorosi. Cantiere, bar, auto: anche il miglior modello sbaglia. Se l'audio è brutto, nessun tool fa miracoli.

I tool che funzionano davvero in italiano

Whisper. È il modello di OpenAI, ma esiste anche in versione che gira sul tuo computer, gratis, senza inviare nulla a nessuno. Sull'italiano è il riferimento: dialetti settentrionali e meridionali, parlato veloce, anche audio non pulitissimi. La versione che gira in locale non vede nessun cloud, e per chi tratta dati delicati è la prima scelta. Setup la prima volta richiede mezz'ora, poi è automatico.

Otter.ai. Comodo, web e mobile, riconosce gli speaker. Cloud americano: per riunioni interne aziendali può andare, per dati di clienti o pazienti scartalo.

Trint. Buono sull'italiano, gestisce gli speaker, esporta in tanti formati. È un servizio cloud, server fuori UE: stesso ragionamento di Otter.

Google Recorder. Solo Android, fa la trascrizione direttamente sul telefono in tempo reale. Sull'italiano funziona meglio di un anno fa. Tutto resta sul dispositivo, è la sua forza.

Apple Memo Vocali. Su iOS recente trascrive in italiano in automatico. Resta sul dispositivo. È la soluzione più rapida per chi sta nel mondo Apple e non ha esigenze speciali.

Cosa invece si può fare bene

Per audio di interviste pubbliche, podcast, conferenze: Whisper sul tuo computer va benissimo. Carichi il file, esce un testo. Ti porta via cinque minuti di calcolo. Costo zero.

Per audio con dati di clienti, pazienti, persone reali identificabili: Whisper in locale, sempre. Il file non esce dal tuo computer, e dormi tranquillo.

Per riunioni aziendali interne con persone della tua azienda: se il fornitore cloud è in Europa e ha contratti che reggono il GDPR, può andare. Altrimenti meglio in casa.

Dopo la trascrizione: tre passaggi. Riascolto a campione (cinque minuti su un'ora), correzione dei nomi propri e dei termini tecnici, sostituzione manuale dei nomi se l'output va condiviso. Pochi minuti e hai un testo affidabile.

I paletti che non si toccano

Consenso scritto se trascrivi una registrazione di altri. Anonimizzazione prima della condivisione. Niente cloud americano per audio sensibili. Cancellazione dei file dopo l'uso. Per chi gestisce dati protetti per professione — medici, avvocati, giornalisti con fonti — la scelta seria resta una sola: tutto in locale. Niente account su servizi esterni.

Una nota personale

Io monto sistemi IA privati per professionisti italiani che hanno cose serie da proteggere. Niente cloud americano, niente abbonamenti, niente formule magiche. Se ti serve trascrivere ore di audio sensibile e non sai da dove partire, sul gruppo Telegram di Super Squalo (t.me/Squalogruppo) si parla anche di Whisper, e si risponde gratis.

L'intervista di lunedì sera, intanto, lasciala stare. Mercoledì la consegni in cinque minuti.

Hai un dubbio? Vieni a parlarne.

Gruppo Telegram aperto. Domande, opinioni, casi vissuti. Senza venditori e senza spam. Per consulenza personale o caso aziendale, usa il pulsante consulenza.

Leggi anche