Attention

[atènscion]

Meccanismo che permette a un modello di 'guardare' parti diverse dell'input con peso variabile. Cuore dell'architettura Transformer.

L'attention è il meccanismo che permette a un modello di "concentrare l'attenzione" su parti diverse dell'input quando elabora una certa parola o pixel. È l'innovazione che ha reso possibili gli LLM moderni.

Esempio: nella frase "il cane che ha rincorso il gatto era veloce", per capire chi era veloce il modello deve "fare attenzione" alla parola "cane", non a "gatto". L'attention calcola quale parola della frase è più rilevante per ogni altra parola, e dà pesi.

Tipi principali:

  • Self-attention: il modello fa attention dentro la stessa sequenza (es. relazioni tra parole della stessa frase).
  • Cross-attention: il modello fa attention tra due sequenze diverse (es. encoder + decoder).
  • Multi-head attention: il modello calcola attention multiple in parallelo, ognuna catturando relazioni diverse.

Il famoso paper Google del 2017 si chiama "Attention is All You Need". Il titolo era una provocazione e si è dimostrato vero: l'attention da sola, ben fatta, basta a spiegare il salto qualitativo da reti vecchie a Transformer.