L'inference è il processo di usare un modello IA già addestrato per produrre output da nuovi input. Detto altrimenti: quando tu mandi un prompt a ChatGPT e lui ti risponde, è inference.
Differenza chiave:
- Training: il processo per creare il modello. Lungo (settimane/mesi), costoso, fatto una volta.
- Inference: il processo per usare il modello. Veloce (secondi), ripetuto miliardi di volte.
Costi computazionali:
- Training: 100M-1B di dollari per modelli frontier.
- Inference per query: pochi millesimi di centesimo a qualche centesimo, a seconda del modello.
Ma inference su scala (ChatGPT con miliardi di query/giorno) costa enormemente in totale. Una delle ragioni per cui OpenAI ha continui round di finanziamento.
Latency e throughput:
- Latency: tempo di risposta per una singola query (millisecondi-secondi).
- Throughput: query al secondo che il sistema gestisce.
- Modelli specializzati per inference veloce: Groq (chip dedicato), Cerebras, modelli "distilled".
Inference providers (chi serve modelli IA):
- OpenAI, Anthropic, Google: i loro modelli.
- Together AI, Fireworks, OpenRouter, Replicate: aggregatori multi-modello.
- Groq, Cerebras: hardware specializzato.
- AWS Bedrock, Azure OpenAI, Vertex AI: cloud enterprise.
- Self-hosted: il tuo server con Ollama/vLLM.
Per chi sviluppa: la scelta del provider di inference è una decisione tecnica/economica importante. Costi, latency, privacy, affidabilità — variano molto.