Knowledge Cutoff

[nòlich cùt-of]

La data oltre la quale un LLM non ha visto dati di addestramento. Tutto ciò che è successo dopo, il modello non lo conosce.

Il knowledge cutoff è la data oltre la quale un LLM non ha visto dati durante l'addestramento. È un limite hard: il modello "non sa" quello che è successo dopo, a meno che tu non glielo dica esplicitamente o non abbia accesso a tool di ricerca.

Esempi:

  • GPT-4 originale: cutoff settembre 2021.
  • Claude 3.5 Sonnet: cutoff aprile 2024.
  • GPT-4o: cutoff ottobre 2023.
  • Modelli del 2026: cutoff tipicamente metà 2025 o dopo.

Implicazioni pratiche:

  • Il modello non sa di eventi recenti, news, prodotti lanciati di recente.
  • Se chiedi "che modello GPT è uscito di recente", potrebbe dirti uno vecchio.
  • Per cose tempo-critiche, serve integrare ricerca live.

Soluzioni:

  • Tool use: il modello può chiamare un motore di ricerca per info aggiornate.
  • RAG: gli passi documenti aggiornati nel context.
  • Fornire context manualmente: tu nel prompt gli dici la data attuale e fatti rilevanti.

Modelli con accesso al web (Perplexity, ChatGPT con browse, Gemini con search): bypassano il cutoff usando tool, ma non sostituiscono completamente — hanno comunque conoscenza "core" pre-cutoff.

Trick: chiedere al modello "qual è il tuo knowledge cutoff?" è un buon modo per capire quanto fidarti delle sue affermazioni su cose recenti.