In breve
Che cosa si nasconde in un testo? Quali conoscenze si ricavano esplorandolo? Nel web, dove i fenomeni sono misurabili più efficacemente che nei sondaggi e dove le lingue sono attualizzate meglio che in ogni loro rappresentazione teorica, la ricerca ha oggi la possibilità di estrarre conoscenze scavando nella marea di testi fruibili. Le logiche e gli strumenti del text mining sono una risposta: grazie all’informatica, si possono fare automaticamente analisi attraverso regole e risorse, rigorosamente da costruire per scoprire quel che cerchiamo. Il libro descrive criteri, metodi e casi di studio, ripercorrendo ricerche ed esperienze dell’analisi automatica dei testi.
Indice
Prefazione di Tullio De Mauro
Introduzione
Parte prima
Questioni di teoria e di metodo
1. Prospettive di analisi e concetti generali
Che cos’è l’analisi automatica dei testi in una logica di tipo metrico/Definizioni e concetti generali
2. Tipi di corpora
Corpora per analisi specifiche/Corpora come risorse di riferimento/Problematiche generali del trattamento automatico di un corpus
3. Unità di analisi, dati e meta-dati
Le unità di contesto/Obiettivi di studio e scelta delle unità lessicali/Le unità di testo/Il trattamento del testo/Criteri per individuare le unita lessicali su cui intervenire/Meta-dati sulle unita lessicali e sulle unita testuali/Integrazione fra dati non strutturati e dati codificati
4. Tipi, livelli e fasi dell’analisi automatica dei testi
In cosa consiste l’analisi di tipo lessicale/Selezione di keywords nel vocabolario del corpus/Meta-informazioni delle unità di testo/In cosa consiste l’analisi di tipo testuale/Criteri per valorizzare, selezionare e categorizzare le unità di contesto/Meta-informazioni delle unità di contesto/Riepilogo sulle annotazioni di tipo lessicale e testuale/Le matrici dei dati per l’analisi del contenuto
5. Estrazione di informazione e costruzione di modelli
Definizioni e criteri per il recupero ed estrazione di informazioni/Query di tipo lessicale/Query di tipo testuale/Il processo di trasformazione di informazioni non strutturate in dati strutturati/Ricerca di entità complesse/ Sui tipi di modelli e loro utilizzi/Modelli per la costruzione di risorse/ Modelli per la rappresentazione del senso
6. Elementi di statistica testuale e text mining
Regolarità dei dati linguistici e altre misure lessicometriche/Sul concetto di frequenza delle parole/Un indice diacronico sul ciclo di vita delle parole/Misure di associazione fra parole e di distanza o similarita fra testi/Alcune tecniche di posizionamento o mapping multidimensionale/Soluzioni per il text mining
Parte seconda
Risorse e strumenti
7. Risorse statistico-linguistiche
Corpus di riferimento/Risorse linguistiche/Risorse statistiche/Liste di frequenza di forme flesse/Impieghi dei lessici e delle liste di frequenza/Come misurare il sentiment di un testo
8. Esperienze d’uso delle risorse: esempi di linguistica dei corpora
Quadro di riferimento in letteratura/Analisi di strutture a elementi variabili/Studio di una grammatica locale di locuzioni verbali/Tendenze diacroniche del linguaggio della stampa
9. Software: strumenti e logiche di studio
Software di Analisi Automatica dei Testi/Gli attrezzi fondamentali per l’analisi automatica dei testi/TaLTaC2: logica delle operazioni e fasi del trattamento/Strategie di analisi in TaLTaC2
Parte terza
Casi di studio e applicazioni
10. Uno studio sul linguaggio della critica enogastronomica
Obiettivi e materiali/Una prima impronta: l’abbondanza di qualificazione/Le tipologie di sostantivi/Il linguaggio peculiare/Le specificità del gustare e degustare/Le parole discriminanti/Dal lessicale al testuale attraverso differenti analisi del contenuto/Una estensione dalle parole ai concetti: fra tradizione e innovazione
11. Ricerca e misura di entità e concetti sull’uso del tempo in un vasto corpus di diari individuali
Introduzione/Lo studio preliminare di alcune entità/Misurare il concetto del “parlare con qualcuno”/Sulle attività contemporanee/L’individuazione dei luoghi delle attività quotidiane
12. Modelli di senso nell’analisi del contenuto
Un’analisi degli scambi epistolari di emigrati/Una rassegna stampa sugli sbarchi di immigrati /Un’analisi di interviste sulla percezione della banca
13. Analisi sul linguaggio politico
Il lessico programmatico di governo/Le parole di Berlusconi/Alcuni tratti del linguaggio dei leader politici della prima e seconda Repubblica
Riferimenti bibliografici