Corpus TLIO
CNR-Opera del Vocabolario Italiano
Guida ai contenuti


 


Il corpus interrogabile a questo indirizzo è quello costituito e utilizzato dall'Opera del Vocabolario Italiano per la redazione del Tesoro della Lingua Italiana delle Origini.
Contiene 3210 testi per complessive 23.814.549 occorrenze di 494.385 forme grafiche distinte.
È reso disponibile in rete per le ricerche linguistiche e consente di scaricare brevi citazioni per uso di ricerca.
Lo scaricamento dei testi è vietato.
Viene aggiornato periodicamente (criteri per l'aggiornamento). La data dell'ultimo aggiornamento è leggibile sulla maschera iniziale. I dati contenuti in questa pagina si riferiscono all'ultimo aggiornamento.
Le funzioni di ricerca sono le stesse di GATTO e sono completamente descritte dalla guida in linea.

Il corpus è lemmatizzato, ed è perciò possibile utilizzare l'interrogazione per lemmi in tutte le combinazioni previste dal programma GattoWeb. I lemmi che si possono attualmente cercare sono 126.208.

La lemmatizzazione è sostanzialmente completa per quanto riguarda le forme grafiche, con un modesto residuo di forme rimaste ancora non interpretate. Perciò la ricerca di un lemma permette di ottenere l'elenco completo delle forme del lemma stesso presenti nel corpus.

Sono lemmatizzate attualmente 4.622.327 occorrenze. Tali occorrenze sono cioè reperibili direttamente mediante la ricerca per lemmi, selezionando nell'Accumulatore l'opzione tipo di contesti = 'col lemma indicato'.
Le altre occorrenze delle forme trovate con la ricerca per lemmi sono reperibili selezionando anche l'opzione tipo di contesti = 'non lemmatizzati'. In questo caso si ottengono anche contesti nei quali la forma trovata è in realtà un omografo, cioè una forma di un altro lemma.

La lemmatizzazione del corpus dell'italiano antico è un'operazione complessa, che richiede l'interpretazione di numerosissimi contesti in molte varietà linguistiche diverse, in linguaggi di diverso tipo (poetico, giuridico, botanico, medico ecc.), e in testi editi con i più diversi criteri filologici, solo per una parte dei quali esistono strumenti di interpretazione (commenti, glossari ecc.) di qualità e affidabilità molto varia.
Questo lavoro è stato iniziato fin dalle origini dell'Opera del Vocabolario, ed è passato attraverso metodi linguistici e strumenti informatici diversi e attraverso l'opera di molte persone.
Per queste ragioni è possibile ancora incontrare nelle lemmatizzazioni presenti nel corpus incoerenze e anche veri e propri errori, alla correzione dei quali si sta lavorando mentre si procede nel contempo ad ampliare il numero delle occorrenze lemmatizzate.
Sarà estremamente utile all'Opera del Vocabolario la segnalazione degli errori o anche semplicemente delle osservazioni e dei dubbi di chi consulta, mediante un messaggio di posta elettronica agli attuali responsabili della lemmatizzazione Elena Artale e Diego Dotto.