Computer Vision

[compiùter vìsciòn]

Branca dell'IA che insegna ai computer a 'vedere' immagini e video: classificare, riconoscere, descrivere, segmentare.

La computer vision è la branca dell'IA che si occupa di far "vedere" e capire immagini e video ai computer. Include riconoscimento, classificazione, descrizione, segmentazione, tracking.

Cosa fa:

  • Classification: "questa foto contiene un gatto".
  • Object detection: "in questa foto ci sono 3 gatti, ecco i loro bounding box".
  • Segmentation: "ecco i pixel esatti che compongono ogni oggetto".
  • Pose estimation: "questa persona è in piedi con braccia alzate".
  • OCR: leggere testo nelle immagini.
  • Face recognition: identificare persone da foto.
  • Image captioning: descrivere a parole cosa è in una foto.
  • Video analysis: tracciare oggetti nel tempo, riconoscere azioni.

Tecniche dominanti:

  • CNN (Convolutional Neural Networks): standard storico, ancora ovunque.
  • Vision Transformers (ViT): l'evoluzione, dal 2020 dominano benchmark.
  • Multimodal models: GPT-4V, Claude, Gemini integrano vision con linguaggio.

Applicazioni reali:

  • Auto a guida autonoma (Tesla, Waymo).
  • Riconoscimento facciale (sblocco telefono, sicurezza).
  • Medical imaging (diagnosi da radiografie, MRI).
  • Industriale (controllo qualità su linee di produzione).
  • Retail (riconoscimento prodotti, analytics in negozio).
  • Agricoltura (droni che riconoscono malattie delle piante).
  • Sport (analisi tattica, replay automatici).

Tool noti: OpenCV (libreria classica), YOLO (object detection), Segment Anything (Meta), MediaPipe (Google), Vision API di vari cloud.

Per il dottore della porta accanto: la computer vision è già nel tuo telefono, nel tuo telecamera di sicurezza, nelle macchine fotografiche moderne. Ti riguarda anche se non lo sai.