Context Window — Cosa significa, esempi, come si usa

Il context window è la quantità massima di token che un modello può "leggere" in una conversazione singola. Se la superi, le parti più vecchie vengono dimenticate (sostituite da nuove) o tagliate.

Per capire la differenza pratica: un context di 4.000 token equivale a circa 6-8 pagine di testo. Un context di 200.000 token (come Claude) equivale a un libro intero. Un context di 2 milioni di token (come Gemini) equivale a tipo dieci libri.

Implicazioni concrete:

Se carichi un PDF da 500 pagine su un modello con context da 8k, sta vedendo solo 10-15 pagine. Le altre vengono ignorate o tagliate. Tu non lo sai, ti dà comunque risposte plausibili. Per questo i riassunti sembrano buoni ma sono incompleti.
Per documenti grossi servono modelli con context lungo (Claude, Gemini, alcune versioni GPT).
Più context = più costoso per token. Un prompt che riempie 1M di token costa parecchio.

Trucco professionale: per gestire documenti che superano il context, si usa il RAG (Retrieval Augmented Generation), che pesca solo le parti rilevanti dal documento e le mette nel context.