Fabio Massimo Zanzotto

Qualifica
ASSOCIATO CONFERMATO
Curriculum Vitae

Obiettivo di ricerca

Così come nella tradizione della disciplina dell’Intelligenza Artificiale, il mio obiettivo è quello di studiare modelli formali utili a supportare lo sviluppo di sistemi automatici che possano imitare il comportamento cognitivo umano. In particolare, il mio obiettivo è quello di studiare e costruire modelli formali utili per l’analisi di una delle forme principe di rappresentazione della conoscenza: il linguaggio naturale.

Linee di ricerca

Il perseguimento dell’obiettivo richiede un approccio multidisciplinare che spazi dall’ambito informatico, all’ambito psicologico cognitivo e all’ambito umanistico. Cercando di trarre spunti da tutti questi differenti aree, mi occupo quindi di studiare modelli di elaborazione sintattico-semantica del linguaggio naturale, metodi di apprendimento automatico della conoscenza necessaria ai modelli precedenti e, infine, sistemi sia visionari che orientati ai task che permettano di testare i modelli precedenti. Questi sistemi automatici, oltre ad essere degli interessanti banchi di prova per le teorie sviluppate, possono rivelarsi molto utili in vari campi connessi con la necessità di accedere in maniera automatica ad informazione espressa in maniera testuale. In particolare, tali sistemi possono essere strumenti utili allo studio dei linguaggi naturali specialmente quando questo richieda l’analisi di grandi collezioni di testi.

Nella sviluppare le mie linee di ricerca mi colloco nella tradizione secondo la quale la conoscenza è rappresentata principalmente in maniera simbolica. Quindi studio modelli di elaborazione del linguaggio naturale che abbiano lo scopo di costruire sistemi formali orientati a portare espressioni testuali verso una rappresentazione della conoscenza espressa in un linguaggio semi-logico e non ambiguo. Pur tentando di mantenere un approccio indipendente dalla lingua, i modelli di elaborazione sono stati sviluppati con una attenzione a due particolari lingue naturali: l’italiano e l’inglese. La complessità, l’eterogeneità e la occasionale non conformità alle regole del linguaggio naturale mi ha spinto verso l’analisi di modelli di elaborazione robusti che rilassino i vincoli di grammaticalità. Con questo spirito ho sviluppato tecniche di parsing sintattico e strumenti per l’analisi semantica basati su regole di associazione tra parole e concetti e tra strutture sintattiche e relazioni semantiche.

La necessità dei modelli precedenti basati su una rappresentazione esplicita di una grande quantità di conoscenza mi ha spinto inoltre allo studio di metodi che permettano di apprendere automaticamente ed in maniera incrementale la conoscenza che a loro soggiace. Dunque parte della mia attività di ricerca è stata rivolta all’analisi, lo studio e l’applicazione di tecniche di apprendimento automatico che combinano analisi di tipo puramente simbolico ad una analisi più di tipo probabilistico o numerico. 

Più nello specifico, la mia attività di ricerca svolta nelle precedenti aree ha avuto gli sviluppi descritti qui di seguito.

Area: modelli di elaborazione sintattico-semantica del linguaggio naturale

Parsing robusto dei linguaggi naturali.

Il parsing sintattico dei linguaggi naturali è un problema aperto. Non esistono modelli e sistemi corrispondenti che possano svolgere il compito in maniera perfetta. Inoltre, l’applicazione delle tecniche di parsing sintattico a grandi collezioni di testi ha evidenziato le carenze di sistemi “monolitici”. La totale copertura del fenomeno linguistico risulta essere di difficile raggiungimento specialmente poiché ha come effetto collaterale un corrispondente aumento dell’ambiguità introdotta dal modello. Rinunciare alla nozione di grammaticalità dell’intera frase è stato visto come una possibile soluzione che ha dato origine a modelli di parsing modulare cosiddetto robusto. Il lavoro di ricerca in quest’area si orienta alla definizione di modelli robusti tali che  possano garantire una copertura parziale del fenomeno linguistico in maniera indipendente dal dominio conoscitivo di applicazione. Tali modelli possono essere utilizzati in applicazioni quali l’estrazione di informazioni da testi (conoscenza fattuale) e l’estrazione di conoscenza ontologica. La verifica delle prestazioni di questi sistemi di parsing sintattico è naturalmente una priorità che richiede lo sviluppo, da una parte, di risorse annotate [LINC2000, LC2003] e, dall’altra, di opportuni modelli di valutazione. Nell’ambito di questa ricerca è stato prodotto un sistema (denominato CHAOS) che incarna le idee precedenti.

Analisi semantica del linguaggio naturale.

L’assunzione di fondo è che il significato delle frasi e dei discorsi possa essere rappresentato attraverso una rappresentazione semi-formale che riduca in qualche modo l’ambiguità della lingua. Se tale rappresentazione della conoscenza, possibilmente chiamata ontologia, descrive come l’interprete vede il mondo, la lingua naturale diventa una sorta di interfaccia che serve all’interprete per comunicare con l’esterno ovvero analizzare ed emettere frasi. Assumendo l’esistenza di tali ontologie che possono emergere dalle più disparate sorgenti (ad esempio il Web Semantico) il problema dell’interpretazione della frase richiede da una parte il collegamento tra le basi di conoscenza lessicali e queste rappresentazioni ontologiche interne e dall’altra la possibilità di disambiguare le parole che vengono presentate in un contesto frasale all’interprete. Una particolare modalità di approccio al problema prevede di definire un insieme molto generale di classi semantiche che siano significative per la determinazione dei sensi delle parole. Il lavoro di ricerca in quest’area si concentra nella costruzione di modelli di apprendimento automatico che permettano di classificare nomi all’interno di classi semantiche di alto livello.

Area: metodi di apprendimento automatico della conoscenza linguistica

Dal momento che l’analisi semantica si basa su una rappresentazione ontologica delle conoscenza, una delle fondamentali questioni aperte è la produzione di queste enormi risorse. Il mio lavoro di ricerca in quest’area si è concentrato nell’analisi del problema di estrazione di concetti salienti in domini specifici, ovvero di estrazione terminologica e di estrazione di pattern sintattico semantici che possano modellare relazioni tra concetti e le loro espressioni linguistiche. L’analisi di modelli di estrazione di terminologia da testi è stato anche oggetto della mia tesi di dottorato. Inoltre, un tentativo che ho fatto è quello di indurre analizzando statisticamente collezioni di testi, relazioni di causa effetto tra relazioni o eventi specifici del dominio.

Area: sistemi basati su strumenti di elaborazione del linguaggio naturale

Sistemi di Question&Answering basati su modelli ontologici.

Una parte fondamentale del mio lavoro di ricerca consiste nel provare le teorie e i modelli attraverso dei sistemi che possano assolvere un compito difficile che richieda in qualche modo le competenze precedenti. Tale sistema dovrebbe incarnare le parti dell’agente che è progettato per imitare il comportamento cognitivo umano obiettivo della mia ricerca. Ho quindi partecipato alla definizione e alla realizzazioni di sistemi che permettano una attività di question-answering dove la rappresentazione ontologica della conoscenza sia assunta come nucleo attorno il quale risolvere il compito specifico. Tali sistemi sono stati principalmente sviluppati in un ambito in cui queste rappresentazioni ontologiche si suppone possano essere costruite, ovvero il Web Semantico.

Sviluppo di sistemi per l’accesso assistito all’informazione testuale multilinguale basati su tecniche di Information Extraction. Infine, le ricerche sul linguaggio naturale danno la possibilità di costruire sistemi che facilitino l’accesso all’informazione testuale multilinguale. In quest’area la domanda principale è quella di rappresentare in maniera formale ed oggettiva il contenuto dei documenti. Ho dunque studiato sistemi che permettano una rappresentazione del contenuto dei testi in un ambito di sistemi di Information Extraction e di hyperlinking automatico