Inference

[infèrence]

Il momento in cui un modello IA viene USATO per produrre output (rispondere, generare, classificare). Diverso dal training (addestramento).

L'inference è il processo di usare un modello IA già addestrato per produrre output da nuovi input. Detto altrimenti: quando tu mandi un prompt a ChatGPT e lui ti risponde, è inference.

Differenza chiave:

  • Training: il processo per creare il modello. Lungo (settimane/mesi), costoso, fatto una volta.
  • Inference: il processo per usare il modello. Veloce (secondi), ripetuto miliardi di volte.

Costi computazionali:

  • Training: 100M-1B di dollari per modelli frontier.
  • Inference per query: pochi millesimi di centesimo a qualche centesimo, a seconda del modello.

Ma inference su scala (ChatGPT con miliardi di query/giorno) costa enormemente in totale. Una delle ragioni per cui OpenAI ha continui round di finanziamento.

Latency e throughput:

  • Latency: tempo di risposta per una singola query (millisecondi-secondi).
  • Throughput: query al secondo che il sistema gestisce.
  • Modelli specializzati per inference veloce: Groq (chip dedicato), Cerebras, modelli "distilled".

Inference providers (chi serve modelli IA):

  • OpenAI, Anthropic, Google: i loro modelli.
  • Together AI, Fireworks, OpenRouter, Replicate: aggregatori multi-modello.
  • Groq, Cerebras: hardware specializzato.
  • AWS Bedrock, Azure OpenAI, Vertex AI: cloud enterprise.
  • Self-hosted: il tuo server con Ollama/vLLM.

Per chi sviluppa: la scelta del provider di inference è una decisione tecnica/economica importante. Costi, latency, privacy, affidabilità — variano molto.