Ollama — Cosa significa, esempi, come si usa

Ollama è uno strumento gratuito e open source che ti permette di scaricare e far girare modelli IA open weights direttamente sul tuo PC. È la via più semplice oggi per usare Llama, Mistral, DeepSeek, Qwen, ecc. localmente.

Caratteristiche:

Cross-platform: Mac, Linux, Windows.
Setup veloce: scarichi, installi, lanci un comando, modello scaricato e attivo.
Catalogo enorme: praticamente tutti i modelli aperti popolari.
API locale: espone endpoint compatibile OpenAI per integrazione facile.
Quantizzazione automatica: scarica versioni ottimizzate per il tuo hardware.

Installazione + uso (esempio):

brew install ollama   # Mac
ollama run llama3.1   # scarica + lancia
>>> Ciao, chi sei?

Requisiti:

RAM: minimo 8GB per modelli piccoli, 16GB+ per modelli medi.
GPU: non obbligatoria ma consigliata (Mac M1+ usa Metal, Windows/Linux usano CUDA).
Spazio disco: i modelli pesano da 2 a 50+ GB.

Casi d'uso:

Sviluppatori che fanno test su LLM senza pagare API.
Chatbot locali per dati privati (mai uscire dal PC).
Aziende che fanno proof-of-concept IA on-premise.
Workflow ComfyUI/Open WebUI con modelli locali.

Frontend grafici per Ollama: LM Studio, Open WebUI, Msty, AnythingLLM. Per chi non vuole linea di comando.

Limite: per modelli enormi (Llama 405B, ecc.) servono workstation potenti. Per casual use, modelli medi su laptop moderni vanno benissimo.