Token — Cosa significa, esempi, come si usa

Un token è il pezzo elementare con cui gli LLM lavorano. Non leggono parole intere come noi. Spezzettano il testo in unità più piccole (token) e ragionano su quelle.

Esempio: la parola "intelligenza" può diventare i token intelli + genza. Una parola breve come "casa" è di solito un token unico. Un termine inglese tecnico come "tokenization" può essere "token" + "ization", due token.

Regola pratica per l'italiano: 1 token ≈ 0.75 parole. 1.000 parole italiane ≈ 1.300 token.

Perché ti interessa? Per due motivi:

Costo: le API IA si pagano a token (input + output). Più scrivi e più spendi. Per stimare il costo di un'integrazione IA devi sapere quanti token muovi.
Limiti: ogni modello ha un context window, il massimo di token che può leggere in un colpo solo. ChatGPT base sta sotto i 128k token. Modelli moderni arrivano a 1-2 milioni di token (centinaia di pagine).

Strumento utile: il tokenizer di OpenAI online ti fa vedere come una frase viene spezzata in token. Ti aiuta a capire perché un testo che sembra corto in realtà costa tanto.