Phi è la famiglia di modelli "small" di Microsoft Research. Filosofia chiara: invece di aumentare i parametri, focalizzarsi su qualità dei dati di addestramento.
Versioni nel tempo:
- Phi-1 (giugno 2023): 1.3B parametri, specializzato Python. Sorprende perché compete con modelli 10x più grandi.
- Phi-2 (dicembre 2023): 2.7B, generalista, sopra le aspettative.
- Phi-3 (aprile 2024): 3.8B (mini), 7B (small), 14B (medium). Multilingue, multimodale (Phi-3-vision).
- Phi-4: 14B parametri, qualità sopra modelli molto più grandi su benchmark di matematica e ragionamento.
Trick di Microsoft: usa dataset "textbook quality", spesso generati o filtrati con GPT-4. La provocazione è "i dati contano più dei parametri". Risultati lo confermano in parte.
Caratteristiche pratiche:
- Licenza MIT (open weights vera).
- Disponibile su Hugging Face, Ollama, Azure.
- Phi-3 mini (3.8B) gira su smartphone moderni.
- Context window fino a 128k (Phi-3.5).
Pro: modelli "small" tra i migliori per dimensione, ottimi per uso locale, ottimi per fine-tuning su dati specifici.
Contro onesti: come tutti i modelli small, su task complessi reali (non benchmark) sbatte il muso. Per uso casalingo e specializzato: top. Per sostituire GPT-4: no.