Corpus TLIO |
CNR-Opera del Vocabolario Italiano |
Guida ai contenuti |
Il corpus interrogabile a questo indirizzo è quello costituito e utilizzato
dall'Opera del Vocabolario Italiano
per la redazione del Tesoro
della Lingua Italiana delle Origini.
Contiene 3295 testi per complessive 24.048.721 occorrenze di 498.403 forme
grafiche distinte.
È reso disponibile in rete per le ricerche linguistiche e consente di scaricare
brevi citazioni per uso di ricerca.
Lo scaricamento dei testi è vietato.
Viene aggiornato periodicamente (criteri per l'aggiornamento). La data dell'ultimo aggiornamento è leggibile
sulla maschera iniziale. I dati contenuti in questa pagina si riferiscono
all'ultimo aggiornamento.
Le funzioni di ricerca sono le stesse di GATTO e sono completamente descritte
dalla guida in linea.
Il corpus è lemmatizzato, ed è perciò possibile utilizzare l'interrogazione per
lemmi in tutte le combinazioni previste dal programma GattoWeb. I lemmi che si
possono attualmente cercare sono 127.151.
La lemmatizzazione è sostanzialmente completa per quanto riguarda le forme
grafiche, con un modesto residuo di forme rimaste ancora non interpretate.
Perciò la ricerca di un lemma permette di ottenere l'elenco completo delle
forme del lemma stesso presenti nel corpus.
Sono lemmatizzate attualmente 4.810.881 occorrenze. Tali occorrenze sono cioè
reperibili direttamente mediante la ricerca per lemmi, selezionando
nell'Accumulatore l'opzione tipo di contesti = 'col lemma indicato'.
Le altre occorrenze delle forme trovate con la ricerca per lemmi sono
reperibili selezionando anche l'opzione tipo di contesti = 'non
lemmatizzati'. In questo caso si ottengono anche contesti nei
quali la forma trovata è in realtà un omografo, cioè una forma di un altro
lemma.
La lemmatizzazione del corpus dell'italiano antico è un'operazione complessa,
che richiede l'interpretazione di numerosissimi contesti in molte varietà
linguistiche diverse, in linguaggi di diverso tipo (poetico, giuridico,
botanico, medico ecc.), e in testi editi con i più diversi criteri filologici,
solo per una parte dei quali esistono strumenti di interpretazione (commenti,
glossari ecc.) di qualità e affidabilità molto varia.
Questo lavoro è stato iniziato fin dalle origini dell'Opera del Vocabolario, ed
è passato attraverso metodi linguistici e strumenti informatici diversi e
attraverso l'opera di molte persone.
Per queste ragioni è possibile ancora incontrare nelle lemmatizzazioni presenti
nel corpus incoerenze e anche veri e propri errori, alla correzione dei quali
si sta lavorando mentre si procede nel contempo ad ampliare il numero delle
occorrenze lemmatizzate.
Sarà estremamente utile all'Opera del Vocabolario la segnalazione degli errori
o anche semplicemente delle osservazioni e dei dubbi di chi consulta, mediante
un messaggio di posta elettronica agli attuali responsabili della lemmatizzazione Elena Artale e Diego Dotto.