Inference — Cosa significa, esempi, come si usa

L'inference è il processo di usare un modello IA già addestrato per produrre output da nuovi input. Detto altrimenti: quando tu mandi un prompt a ChatGPT e lui ti risponde, è inference.

Differenza chiave:

Training: il processo per creare il modello. Lungo (settimane/mesi), costoso, fatto una volta.
Inference: il processo per usare il modello. Veloce (secondi), ripetuto miliardi di volte.

Costi computazionali:

Training: 100M-1B di dollari per modelli frontier.
Inference per query: pochi millesimi di centesimo a qualche centesimo, a seconda del modello.

Ma inference su scala (ChatGPT con miliardi di query/giorno) costa enormemente in totale. Una delle ragioni per cui OpenAI ha continui round di finanziamento.

Latency e throughput:

Latency: tempo di risposta per una singola query (millisecondi-secondi).
Throughput: query al secondo che il sistema gestisce.
Modelli specializzati per inference veloce: Groq (chip dedicato), Cerebras, modelli "distilled".

Inference providers (chi serve modelli IA):

OpenAI, Anthropic, Google: i loro modelli.
Together AI, Fireworks, OpenRouter, Replicate: aggregatori multi-modello.
Groq, Cerebras: hardware specializzato.
AWS Bedrock, Azure OpenAI, Vertex AI: cloud enterprise.
Self-hosted: il tuo server con Ollama/vLLM.

Per chi sviluppa: la scelta del provider di inference è una decisione tecnica/economica importante. Costi, latency, privacy, affidabilità — variano molto.