La computer vision è la branca dell'IA che si occupa di far "vedere" e capire immagini e video ai computer. Include riconoscimento, classificazione, descrizione, segmentazione, tracking.
Cosa fa:
- Classification: "questa foto contiene un gatto".
- Object detection: "in questa foto ci sono 3 gatti, ecco i loro bounding box".
- Segmentation: "ecco i pixel esatti che compongono ogni oggetto".
- Pose estimation: "questa persona è in piedi con braccia alzate".
- OCR: leggere testo nelle immagini.
- Face recognition: identificare persone da foto.
- Image captioning: descrivere a parole cosa è in una foto.
- Video analysis: tracciare oggetti nel tempo, riconoscere azioni.
Tecniche dominanti:
- CNN (Convolutional Neural Networks): standard storico, ancora ovunque.
- Vision Transformers (ViT): l'evoluzione, dal 2020 dominano benchmark.
- Multimodal models: GPT-4V, Claude, Gemini integrano vision con linguaggio.
Applicazioni reali:
- Auto a guida autonoma (Tesla, Waymo).
- Riconoscimento facciale (sblocco telefono, sicurezza).
- Medical imaging (diagnosi da radiografie, MRI).
- Industriale (controllo qualità su linee di produzione).
- Retail (riconoscimento prodotti, analytics in negozio).
- Agricoltura (droni che riconoscono malattie delle piante).
- Sport (analisi tattica, replay automatici).
Tool noti: OpenCV (libreria classica), YOLO (object detection), Segment Anything (Meta), MediaPipe (Google), Vision API di vari cloud.
Per il dottore della porta accanto: la computer vision è già nel tuo telefono, nel tuo telecamera di sicurezza, nelle macchine fotografiche moderne. Ti riguarda anche se non lo sai.