Computer Vision: cos'è e significato nell'IA

La computer vision è la branca dell'IA che si occupa di far "vedere" e capire immagini e video ai computer. Include riconoscimento, classificazione, descrizione, segmentazione, tracking.

Cosa fa:

Classification: "questa foto contiene un gatto".
Object detection: "in questa foto ci sono 3 gatti, ecco i loro bounding box".
Segmentation: "ecco i pixel esatti che compongono ogni oggetto".
Pose estimation: "questa persona è in piedi con braccia alzate".
OCR: leggere testo nelle immagini.
Face recognition: identificare persone da foto.
Image captioning: descrivere a parole cosa è in una foto.
Video analysis: tracciare oggetti nel tempo, riconoscere azioni.

Tecniche dominanti:

CNN (Convolutional Neural Networks): standard storico, ancora ovunque.
Vision Transformers (ViT): l'evoluzione, dal 2020 dominano benchmark.
Multimodal models: GPT-4V, Claude, Gemini integrano vision con linguaggio.

Applicazioni reali:

Auto a guida autonoma (Tesla, Waymo).
Riconoscimento facciale (sblocco telefono, sicurezza).
Medical imaging (diagnosi da radiografie, MRI).
Industriale (controllo qualità su linee di produzione).
Retail (riconoscimento prodotti, analytics in negozio).
Agricoltura (droni che riconoscono malattie delle piante).
Sport (analisi tattica, replay automatici).

Tool noti: OpenCV (libreria classica), YOLO (object detection), Segment Anything (Meta), MediaPipe (Google), Vision API di vari cloud.

Per il dottore della porta accanto: la computer vision è già nel tuo telefono, nel tuo telecamera di sicurezza, nelle macchine fotografiche moderne. Ti riguarda anche se non lo sai.

Computer Vision

Vedi anche

Articoli che parlano di Computer Vision