Il Natural Language Processing (NLP) è la branca dell'informatica e dell'IA che si occupa di far capire ai computer il linguaggio umano (italiano, inglese, ecc.) e di farglielo generare.
Sotto-aree NLP classiche:
- Tokenization: spezzare testo in parole/token.
- POS tagging: identificare ruolo grammaticale (verbo, sostantivo).
- Named Entity Recognition: identificare nomi propri (persone, luoghi, aziende).
- Sentiment analysis: capire se un testo è positivo o negativo.
- Question answering: rispondere a domande dato un testo.
- Translation: tradurre da una lingua all'altra.
- Summarization: riassumere testi lunghi.
- Text classification: assegnare categorie.
- Coreference resolution: capire a chi/cosa si riferisce un pronome.
Storia rapida:
- Anni 50-90: regole hard-coded, parser sintattici. Limitati.
- Anni 2000: machine learning statistico. Buoni progressi.
- 2013: Word2Vec, embedding di parole.
- 2018: BERT, transformer pre-trainati.
- 2020+: GPT-3 e successori, LLM generativi.
- Oggi: gli LLM hanno assorbito praticamente tutta la NLP "classica".
Stato attuale: per la maggior parte dei task NLP nel 2026, "lancia un LLM" è la soluzione. Sentiment? GPT lo fa. Traduzione? Claude lo fa. Question answering? RAG + LLM.
I task NLP "specializzati" (NER, POS tagging) sopravvivono in pipeline industriali dove servono velocità e costi bassissimi (modelli classici come spaCy sono molto più veloci di un LLM per questi task).
Per chi sviluppa: la NLP non è morta, è "salita di livello". Adesso si combina LLM + tecniche classiche per pipeline robuste e economiche.