Ollama è uno strumento gratuito e open source che ti permette di scaricare e far girare modelli IA open weights direttamente sul tuo PC. È la via più semplice oggi per usare Llama, Mistral, DeepSeek, Qwen, ecc. localmente.
Caratteristiche:
- Cross-platform: Mac, Linux, Windows.
- Setup veloce: scarichi, installi, lanci un comando, modello scaricato e attivo.
- Catalogo enorme: praticamente tutti i modelli aperti popolari.
- API locale: espone endpoint compatibile OpenAI per integrazione facile.
- Quantizzazione automatica: scarica versioni ottimizzate per il tuo hardware.
Installazione + uso (esempio):
brew install ollama # Mac
ollama run llama3.1 # scarica + lancia
>>> Ciao, chi sei?
Requisiti:
- RAM: minimo 8GB per modelli piccoli, 16GB+ per modelli medi.
- GPU: non obbligatoria ma consigliata (Mac M1+ usa Metal, Windows/Linux usano CUDA).
- Spazio disco: i modelli pesano da 2 a 50+ GB.
Casi d'uso:
- Sviluppatori che fanno test su LLM senza pagare API.
- Chatbot locali per dati privati (mai uscire dal PC).
- Aziende che fanno proof-of-concept IA on-premise.
- Workflow ComfyUI/Open WebUI con modelli locali.
Frontend grafici per Ollama: LM Studio, Open WebUI, Msty, AnythingLLM. Per chi non vuole linea di comando.
Limite: per modelli enormi (Llama 405B, ecc.) servono workstation potenti. Per casual use, modelli medi su laptop moderni vanno benissimo.