I parametri sono i numeri interni di un modello neurale, miliardi di numeri che vengono aggiustati durante l'addestramento per fare in modo che il modello produca gli output corretti. Quando senti "GPT-3 ha 175 miliardi di parametri", quelli sono i numeri che il modello ha imparato.
Composti principalmente da:
- Pesi: numeri che modulano le connessioni tra neuroni.
- Bias: termini costanti per ogni neurone.
Più parametri di solito significa:
- Più capacità: può imparare pattern più complessi.
- Più conoscenza: ricorda più cose dal training.
- Più costo: in addestramento (ore di GPU) e in inferenza (memoria, calcolo).
Modelli per scala (numeri approssimativi 2025-2026):
- Modelli "piccoli": 1-7 miliardi di parametri (Phi, alcuni Mistral).
- Modelli "medi": 7-70 miliardi (Llama, Mistral Medium).
- Modelli "grandi": 70-400 miliardi (GPT-4, Claude Opus, Gemini Ultra).
- Modelli "frontier": stime di trilioni di parametri totali per i top di gamma (in MoE, parametri attivi minori).
Più parametri ≠ sempre più bravi. Modelli piccoli ben addestrati possono battere modelli grandi addestrati male o per task ristretti.