L'attention è il meccanismo che permette a un modello di "concentrare l'attenzione" su parti diverse dell'input quando elabora una certa parola o pixel. È l'innovazione che ha reso possibili gli LLM moderni.
Esempio: nella frase "il cane che ha rincorso il gatto era veloce", per capire chi era veloce il modello deve "fare attenzione" alla parola "cane", non a "gatto". L'attention calcola quale parola della frase è più rilevante per ogni altra parola, e dà pesi.
Tipi principali:
- Self-attention: il modello fa attention dentro la stessa sequenza (es. relazioni tra parole della stessa frase).
- Cross-attention: il modello fa attention tra due sequenze diverse (es. encoder + decoder).
- Multi-head attention: il modello calcola attention multiple in parallelo, ognuna catturando relazioni diverse.
Il famoso paper Google del 2017 si chiama "Attention is All You Need". Il titolo era una provocazione e si è dimostrato vero: l'attention da sola, ben fatta, basta a spiegare il salto qualitativo da reti vecchie a Transformer.