Consiglio Nazionale delle Ricerche - iit.cnr.it · generico rispetto a una stessa parola e che...

C

Consiglio Nazionale delle Ricerche

Modelli distribuzionali delle relazioni semantiche: il caso dell’iponimia

e dell'antonimia

G. Benotto

IIT B4-03/2014

Nota Interna

Luglio 2014

Iit

Istituto di Informatica e Telematica

Sommario

Introduzione e scopo del lavoro ................................................................................... 2

Relazioni paradigmatiche ............................................................................................. 5

Iponimia ......................................................................................................................................................................... 6

Antonimia ................................................................................................................................................................... 10

Semantica Distribuzionale ......................................................................................... 15

La semantica distribuzionale applicata allo studio delle relazioni di iponimia e

antonimia .................................................................................................................. 21

Problematiche rilevate .......................................................................................................................................... 21

Raccolta dati utilizzando Amazon Mechanical Turk ................................................................................ 29

Primi esperimenti per il trattamento semantico-‐distribuzionale degli antonimi ....................... 33

Conclusioni e Proposte Future ................................................................................... 36

Bibliografia ................................................................................................................ 39

Introduzione e scopo del lavoro

L'obiettivo globale di questo progetto consiste nell'esplorazione delle potenzialità

e dei limiti dell'approccio distribuzionale come modello del lessico semantico.

L'ipotesi che la co-‐occorrenza statistica delle parole estratte da corpora testuali

possa fornire una base per la rappresentazione semantica ha guadagnato di

recente una crescente attenzione, sia nel mondo della linguistica computazionale

che in quello delle scienze cognitive. I termini distribuzionale, basato su corpus o

statistico possono essere utilizzati in maniera quasi interscambiabile per definire

una famiglia di approcci alla semantica che condividono una prospettiva “basata

sull'uso” riguardo al significato, che assume la distribuzione statistica delle parole

nei contesti contribuisca a definire il loro comportamento semantico.

Esistono comunque molte differenze nelle tecniche matematiche e computazionali

adottate, nel tipo di proprietà semantiche associate alla distribuzione del testo e

nelle diverse definizioni dei contesti linguistici utilizzati per determinare gli spazi

combinatori degli elementi lessicali. A uno sguardo più ravvicinato, è possibile

scoprire che le proprietà in comune potrebbero essere molte di più rispetto a

quelle che ci si aspetta a un primo sguardo e che esiste un modello generale del

significato che può essere isolato oltre le differenze, un modello che formula

ipotesi specifiche sul formato delle rappresentazioni semantiche, del modo in cui

sono costruite ed elaborate dalla mente umana.

Diversi metodi per l'analisi computazionale delle proprietà distribuzionali delle

parole sono stati sviluppati sia in linguistica computazionale che in psicologia e

negli ultimi decenni sono state studiate e sviluppate molte misure per il calcolo

della similarità lessicale su base distribuzionale.

Data l'ipotesi distribuzionale, è quindi possibile applicare ai testi metodi

computazionali per acquisire dinamicamente le proprietà semantiche attraverso

elaborazioni matematiche delle distribuzioni delle parole nei testi stessi.

Lo scopo di questo lavoro è quello di effettuare uno studio riguardo le misure

attualmente proposte per il riconoscimento delle relazioni semantiche

paradigmatiche, in modo da valutarne il grado di successo. Si vuole infatti capire se

i metodi distribuzionali possono rivelarsi efficaci nello svolgimento di compiti di

riconoscimento di relazioni semantiche paradigmatiche. Si vuole inoltre stabilire

se esiste un margine di miglioramento nelle tecniche attualmente in uso per il

riconoscimento di questo tipo di relazioni.

Forte dei dati ottenuti dall'analisi precedentemente descritta, il mio obiettivo è

migliorare i modelli di semantica distribuzionale al fine di distinguere diversi tipi

di relazioni semantiche paradigmatiche.

Le relazioni paradigmatiche (sinonimia, antonimia, iperonimia/iponimia,

meronimia) riguardano l'insieme delle parole che fanno parte di uno stesso campo

semantico, ovvero delle parole che hanno significato simile, opposto, più o meno

generico rispetto a una stessa parola e che possono quindi essere usate in

alternativa a quella parola, a seconda del tipo di contesto, dell'interlocutore o del

fine della comunicazione: felice/allegro (sinonimia), bello/brutto (antonimia),

fiore/violetta (iperonimia), dito/mano (meronimia).

Analizzare le relazioni paradigmatiche utilizzando i metodi distribuzionali risulta

essere molto interessante, in primo luogo perché i metodi di semantica

distribuzionale, allo stato dell'arte, hanno difficoltà nel distinguere queste

relazioni. Questo avviene perché le distribuzioni di queste relazioni all'interno dei

testi tendono ad essere molto simili. A tale proposito, una frase quale: il ragazzo/la

ragazza/la persona ama/odia il suo gatto illustra che i (co)iponimi

ragazzo/ragazza, afferenti allo stesso iperonimo persona, così come gli antonimi

amore/odio possono ricorrere, rispettivamente, in contesti identici.

In particolare, esaminando le caratteristiche distribuzionali delle relazioni

paradigmatiche, si può notare che la relazione di iponimia/iperonimia e la

relazione di antonimia presentano particolari difficoltà nell'essere estratte e

classificate utilizzando metodi distribuzionali.

La relazione di iperonimia/iponimia, ad esempio, non può essere riconosciuta

utilizzando questi metodi a causa della sua natura intrinsecamente asimmetrica.

Considerando, ad esempio, la coppia animale-‐cane, legata dalla relazione di

iperonimia, si può assumere che, se l’essere cane implica l’essere animale, l’essere

animale non implica l’essere cane, essendo animale un termine più ampio di cane.

Le misure comunemente utilizzate allo stato dell'arte caratterizzano

semplicemente la distanza tra parole, che è una relazione simmetrica: se una

parola, A, è vicina a B nello spazio semantico, questo implica che B sia vicina ad A.

Il modello non riesce a caratterizzare le diverse proprietà semantiche delle

relazioni che legano le parole vicine.

La relazione di antonimia, invece, pone quesiti interessanti in quanto tende a

distribuirsi nei testi seguendo le stesse modalità della relazione di sinonimia.

Questo rende estremamente difficile distinguere, appunto, la relazione di

sinonimia da quella di antonimia utilizzando i metodi di semantica distribuzionale.

Proprio per le evidenti difficoltà e le particolarità delle relazioni di iponimia e

antonimia, si è deciso di focalizzare il lavoro su queste due relazioni.

Sul versante applicativo, l'obiettivo è quello di contribuire alla realizzazione di

modelli computazionali funzionali per il riconoscimento e la classificazione

(nonché della discriminazione rispetto alle altre relazioni semantiche) delle

relazioni di iponimia e antonimia tra i termini di un testo.

Il problema principale, infatti, consiste nello sviluppare la 'misura distribuzionale'

più adatta per classificare le relazioni in esame e che sia in grado di discriminare

queste ultime rispetto a relazioni semantiche diverse.

E' stata quindi effettuata una prima fase di analisi dello stato dell'arte in linguistica

computazionale e in semantica lessicale per quanto riguarda la rappresentazione e

la modellazione delle relazioni semantiche oggetto di indagine. Tali discipline

possono essere d'ausilio anche nel definire le procedure di selezione dei dati

necessari per lo sviluppo di adeguati algoritmi computazionali e per la valutazione

intrinseca dei modelli stessi.

Il progetto si concentra poi sullo sviluppo e sulla sperimentazione di modelli

distribuzionali, realizzati utilizzando il concetto di spazi di parole. Considerando

l’assunto alla base del modello distribuzionale, ovvero che la prossimità nello

spazio modelli la correlazione semantica, sarà possibile calcolare la correlazione

fra una coppia di parole e una relazione semantica (ovvero saremo in grado di

classificare la relazione semantica che lega una coppia di parole) misurando la

vicinanza fra il vettore che descrive la relazione e quello che descrive la coppia di

parole.

Una volta costruiti i modelli, sarà necessario valutarne la capacità discriminativa

rispetto ai diversi tipi di relazione.

Relazioni paradigmatiche

Le relazioni semantiche paradigmatiche tra parole -‐ antonimia, sinonimia,

iperonimia/iponimia etc. -‐ sono rilevanti per la struttura dell'informazione

lessicale e concettuale. Questa nozione di ``rilevanza” è piuttosto vaga e al suo

interno si trovano opinioni, assunzioni e modelli che variano ampiamente. Per

alcuni studiosi (ad esempio (Katz, 1972), (Kempson, 1977) e (Pustejovsky,

1995)), spiegare queste relazioni è uno degli scopi della semantica lessicale,

così come modellare relazioni quali l'implicazione e la contraddizione è un

problema fondamentale nella semantica proposizionale. Per altri studiosi (

(Deese, 1966), (Lehrer A. , 1974), (George Miller, 1998)), sono le relazioni tra

parole a determinare il significato, piuttosto che il contrario. Le differenze tra

questi punti di vista sottolineano quanto la genesi, la rappresentazione e l'uso

delle relazioni paradigmatiche siano argomenti poco chiari alla luce delle

teorie linguistiche e psicolinguistiche.

In letteratura, queste relazioni sono sovente definite come relazioni lessicali o

relazioni semantiche e qualche volta questi due termini sono usati in contrasto.

Il termine comune relazione, descrive l'appartenenza a un insieme che

presenta caratteristiche comuni. Le relazioni paradigmatiche, dunque, indicano

un insieme di termini che formano una sorta di paradigma, ad esempio un

paradigma semantico che contiene membri della stessa categoria

grammaticale che presentano alcune caratteristiche comuni, pur non

condividendone altre.

Le principali relazioni semantiche di tipo paradigmatico sono le seguenti:

• sinonimia automobile=macchina

• antonimia buono/cattivo

• contrasto dolce/aspro/amaro/salato

• iponimia o inclusione di classe gatto<mammifero<animale (dove ``<“

indica inclusione)

• meronimia o relazione parte-‐di dito-‐mano-‐corpo umano

Come accennato in precedenza in questo lavoro saranno trattate, in modo

particolare, le relazioni di iperonimia e antonimia, che presentano

caratteristiche particolarmente interessanti e rappresentano una sfida aperta

per la difficoltà nell'essere trattate utilizzando metodi basati sulla semantica

distribuzionale.

Iponimia

La relazione di iponimia, ovvero la relazione type<token (e il suo inverso, la

relazione token>type, ovvero l'iperonimia), è una delle relazioni strutturali

fondamentali nel lessico, ed è la "relazione lessicale maggiormente studiata

nella comunità computazionale" (Pustejovsky, 1995).

A causa della sua rilevanza e influenza sui modelli di conoscenza lessicale,

l'iponimia ha un ruolo fondamentale nelle questioni sull'organizzazione

semantica del lessico. Le inferenze, un particolare tipo di implicazione, sono

infatti fortemente associate alla relazione di iponimia. Il fatto che una frase

possa implicare una frase equivalente che include l'iperonimo di uno dei

termini che la compongono, dimostra quanto appena affermato. Ad esempio,

una frase come è entrato il gatto implica è entrato l'animale.

Quindi la relazione di iponimia è fondamentale per caratterizzare il significato

di una parola. A livello grammaticale, le restrizioni di selezione sull'oggetto di

un verbo, possono essere espresse in termini di iperonimo e tutti gli iponimi di

quel termini possono essere quindi selezionati come possibili oggetti (Resnik,

1993).

L' iponimia è definita come la relazione 'tipo di'. Cane è un iponimo di animale

perché il cane è un tipo di animale. Nel modelli computazionali è

frequentemente rappresentata come is-‐a (David E. Rumelhart, 1972) o is-‐a-‐

member-‐of (Kintsch, The representation of meaning in memory, 1974). Definizioni

logiche per questo tipo di relazione sono spesso espresse in termini di

inclusione di insiemi. Quindi, ad esempio, tascabile è un iponimo di libro

perché il significato di tascabile include tutte le proprietà (o altre

rappresentazioni del significato) che costituiscono il significato di libro (avere

le pagine, una copertina, essere fissato su un lato etc.).

La maggior parte delle definizioni di iponimia tendono a specificare

l'unidirezionalità dell'inclusione. Se l'inclusione fosse bidirezionale, infatti, la

relazione sarebbe una relazione di sinonimia.

L'iponimia è una relazione di tipo non riflessivo, se la si considera una

relazione fra i significati. Una relazione semantica è riflessiva quando ogni

elemento coinvolto è in relazione con sé stesso. Se si considera l'iponimia come

una relazione tra elementi lessicali, è possibile che si verifichi il caso in cui un

elemento è in relazione di iponimia con sé stesso. E' il caso degli autoiponimi,

che possono appunto essere considerati elementi iponimi di loro stessi.

L'autoiponimia è un tipo di polisemia in cui una parola ha un senso generale e

uno più specifico.

Si consideri il seguente esempio:

• Un quadrato è un rettangolo con tutti i lati uguali

• Un quadrato ha quattro lati uguali, mentre un rettangolo ne ha solo

due

•

Il senso della parola evidenziata (rettangolo), nella prima frase, è un

iperonimo del senso che assume nella seconda frase. Per la maggior parte delle

definizioni di iponimia, comunque, i due usi (quello più generale e quello più

specifico) della parola vengono trattati come significati separati e quindi la

relazione non può considerarsi riflessiva.

L'iponimia e l'iperonimia sono anti-‐simmetriche, infatti dire che u è un

iponimo di v, implica che v non sia un iponimo di u. Se, ad esempio cane è un

iponimo di animale, questo implica che animale non sia iponimo di cane.

Iponimia e iperonimia sono però simmetriche rispetto l'una all'altra. Se, infatti,

v è un iperonimo di u, u sarà un iponimo di v, ovvero se animale è iperonimo di

cane, cane sarà iponimo di animale.

L'iponimia, o quantomeno l'iponima tassonomica, è una relazione di tipo

transitivo e la sua transitività è causa dei “poteri implicativi” (Martha W.

Evens, 1980) di questa relazione.

Diverse fonti divergono sull'idea che l'iponimia sia da considerare una

relazione tra parole, tra significati o tra cose. Per la maggior parte dei

semanticisti lessicali, che parlano frequentemente di “relazioni tra i sensi”,

l'iponimia è una relazione tra intensioni, ovvero tra proprietà informative (

(Kempson, 1977) (Cruse, 1986), (Persson G. , 1990)). In questo caso, il significato

dell'iperonimo è contenuto ne (o ereditato da) l'iponimo. Si assume infatti che

l'iponimo abbia proprietà più informative rispetto all'iperonimo, ovvero che

cane presenti proprietà più informative di animale, dato che, ad esempio, il

cane abbaia, cosa non vera per tutti gli animali.

In semantica formale, le relazioni di iponimia indicano una relazione di

inclusione tra le estensioni di due parole, tale per cui le estensioni dell'iponimo

rappresentano un sottoinsieme delle estensioni dell'iperonimo (Cann, 1993).

Ad esempio, animale si riferisce ad un insieme di entità più ampio rispetto a

cane, e le estensioni di cane, quali ad esempio levriero, labrador etc.

rappresentano un sottoinsieme delle estensioni di animale.

Altri, spesso nelle discipline computazionali, non distinguono tra le relazioni

intenzionali ed estensionali. Le due posizioni sono spesso considerate le due

facce di una stessa medaglia, dato che le intensioni determinano l'insieme delle

estensioni.

Che l'iponimia (nel suo senso usuale) non sia semplicemente membro di un

insieme di estensioni è dimostrato dall'esempio di (Wierzbicka, 1984)): tutti i

membri dell'estensione poliziotto, sono membri dell'estensione di figlio di

qualcuno, ma le intensioni di figlio di qualcuno non sono necessariamente parte

delle intensioni di poliziotto.

Altri problemi si possono avere considerando l'iponimia esclusivamente come

un'inclusione di significato, in cui i componenti semantici di un elemento sono

un sottoinsieme di quelli del suo iponimo. Per (Persson U. M., 1986), trattare

l'iponimia come una relazione di inclusione di significato, implicherebbe che

impiego>impiegato rappresenta una relazione di iponimia, dato che i significati

di impiegato includono presumibilmente quelli di impiego. Un approccio di

questo tipo contrasta con la nozione di iponimia come relazione

paradigmatica, e quindi dimostra che il concetto di inclusione dei significati non

è definibile al pari di quello di inclusione delle classi.

L'iponimia è trattata, nei modelli associazionisti del lessico, come una

relazione tra parole. Un problema che si rileva in questi approcci è stabilire la

modalità con cui le parole si associano tra loro. I bambini, ad esempio,

sviluppano tassonomie concettuali che mettono in relazione categorie

subordinate e sopraordinate, pur non utilizzando queste categorie nello stesso

modo in cui le utilizzano gli adulti. Il passaggio verso l'organizzazione

tassonomica del lessico e l'utilizzo dell'iponimia, indica una crescita delle

capacità cognitive e metalinguistiche (inclusa la presa di coscienza verso le

relazioni lessicali paradigmatiche).

Quindi, se le relazioni semantiche intercorrono fra le parole (invece che tra i

concetti che denotano) c'è necessità di provare che siano le parole, e non solo i

concetti, ad essere in relazione tra loro. In altre parole, sia le forme lessicali che

i significati devono essere rilevanti per la relazione, se sussiste sia una

relazione di tipo lessicale che di tipo semantico. Ma la “forma” sembra essere

meno rilevante per l'iponimia, rispetto a quanto accade per la sinonimia o

l'antonimia.

Una questione del tipo: Definisci un tipo di animale trova in gatto una risposta

che sembra migliore di micio. Questo può portare a credere che la similarità di

registro linguistico sia fondamentale per le decisioni che vengono assunte nel

definire la relazione di iponimia. Si può invece notare che l'utilizzo di parole

appartenenti a un registro marcato nella domanda, non implica che la risposta

fornita venga considerata 'migliore' se contiene un antonimo appartenente allo

stesso registro linguistico. Parlando di tassonomie sembra normale ricondurre

ogni parola alla sua forma meno marcata, perché in quel caso la questione in

esame non riguarda tanto l'associazione delle parole, quanto l'appartenenza a

una categoria. Questo contrasta con la relazione di antonimia, per la quale la

forma è tipicamente più rilevante. Pensare a un antonimo per sveglio induce

più probabilmente a produrre addormentato che dormiente. Questo avviene sia

perché sveglio/addormentato rappresentano una relazione canonica, sia

perché sveglio si accorda alle forme morfo sintattiche di addormentato meglio

di quanto non faccia con quelle di dormiente. Nel caso dell'antonimia,

l'esistenza degli antonimi canonici fornisce una prova chiara di opposizione

lessicale. Gli iponimi canonici, se esistono, sono rari. Chiedere ai parlanti di

fornire esempi della relazione tipo-‐di implicherà ricevere risposte

appartenenti a un intervallo limitato di campi semantici (ad esempio il campo

della biologia). Questo è molto probabilmente dettato dal fatto che i campi

selezionati risultano essere fortemente tassonomici. Più difficilmente una

scelta di questo tipo potrà essere imputata al fatto che le parole che

appartengono a tali campi semantici tendano ad occorrere insieme più

frequentemente rispetto ad altre coppie di iponimi-‐iperonimi.

Riassumendo, possiamo sostenere che la forma parola sia raramente rilevante

per la selezione degli iponimi. Sembra invece che la relazione di iponimia

rifletta semplicemente le relazioni tassonomiche che si stabiliscono tra

concetti non lessicali.

Antonimia

L'antonimia (intendendo con antonimia l'opposizione binaria in generale) è

presumibilmente riconducibile all'archetipo di relazione semantica lessicale. A

differenza di quanto avviene per la sinonimia, chiunque potrà convenire che

l'antonimia esiste ed è evidente nel linguaggio naturale. A differenza

dell'iponimia, può essere tanto una relazione tra parole, quanto lo è tra

concetti.

La sinonimia e l'antonimia sono, senza dubbio, due delle più conosciute

relazioni semantiche tra termini e possono essere definite come parole che

hanno significati 'simili' (sinonimia) e parole che hanno significati 'opposti'

(antonimia). La questione affascinante riguardo l'antonimia è che, anche se le

parole antonime sono definite opposte, sono comunque semanticamente molto

simili. (Cruse, 1986) ha osservato che esiste una nozione di simultanea

vicinanza e distanza fra l'una e l'altra, e ha notato che questo può essere

parzialmente spiegato dal fatto che gli opposti condividono la stessa

dimensione semantica. Ad esempio, la coppia di antonimi caldo e freddo

condivide la dimensione temperatura, ma a differenza dei sinonimi che si

vengono a collocare sullo stesso punto, o su punti in prossimità dell'ideale

linea che rappresenta la dimensione (due termini come caldo e bollente si

troveranno vicini su questa scala), termini antonimi si collocheranno agli

estremi opposti della scala. I termini legati da relazione di antonimia sono

quindi simili in tutti gli aspetti, tranne uno nel quale sono in opposizione

massima (Willners, 2001).

Come già accennato in precedenza, ci sono stati moltissimi lavori sugli aspetti

linguistici e cognitivi dell'antonimia e della sinonimia (Lehrer A. L., 1982);

(Cruse, 1986); (Walter G. Charles, 1989). Entrambe le relazioni hanno avuto un

ruolo particolare nell'area della semantica distribuzionale, che investiga, come

vedremo meglio nel capitolo successivo, la modalità con cui la distribuzione

statistica delle parole nei contesti può essere utilizzata per la modellazione del

significato semantico.

Le relazioni di antonimia sono definite dalla loro binarietà. Se due elementi

appartengono allo stesso insieme di contrasto possono essere considerati

automaticamente antonimi. Ad esempio, gli esseri umani hanno solo due tipi di

arti, quindi braccia e gambe contrastano automaticamente grazie al loro essere

gli unici membri della categoria arti umani

Abbiamo visto in precedenza che può esistere la binarietà dettata

dall'opposizione scalare, in cui due elementi condividono tutte le proprietà

tranne una, per la quale presentano caratteristiche diametralmente opposte.

La natura binaria della negazione (si/no) conduce al terzo tipo di binarietà. Per

lingue morfologicamente ricche, termini opposti possono essere creati

attraverso morfologia negativa, come ad esempio in blu/non-‐blu o

logico/illogico.

Esiste anche la binarietà fine a sé stessa. In casi come questo, tre elementi sono

disponibili per il contrasto, ma due fra questi sono privilegiati come antonimi.

Quindi, mentre felice è in contrasto con triste e arrabbiato, sembra avere più

caratteristiche in comune con triste. Mentre felice/arrabbiato è un contrasto

utile in alcuni contesti, in un contesto neutro felice e triste vengono favoriti

come opposti.

Nonostante la relazione di antonimia sia reciproca, i membri di una coppia di

antonimi possono non mostrare distribuzione simmetrica nei contesti

linguistici o nei comportamenti d'uso. Questo si evidenzia nei task di

associazione lessicale, in cui una parola u può evocare il suo antonimo v, ma v

può non evocare u.

Alcuni linguisti teorici hanno sfruttato la tendenza degli antonimi a co-‐

occorrere (e a farlo in maniera preferenziale in costruzioni di tipo simmetrico)

per spiegare il modo in cui il parlante acquisisce la conoscenza del fatto che

due parole siano antonimi.

(Fellbaum, 1995) ha identificato un insieme di questo tipo di costruzioni, quali

ad esempio:

• x e y organizzazioni private (pubbliche) e pubbliche (private)

• da x a y Da dietro (davanti) a davanti (dietro)

• x o y tutte le lingue, vive (morte) o morte (vive)

In queste costruzioni x e y hanno distribuzione simmetrica e, in qualche

maniera, possono essere invertite nel testo. Sussiste il caso in cui non ci sia

possibilità di invertire termini di questo tipo nel testo, quando uno dei due

termini risulta semanticamente marcato in relazione all'altro.

La marcatezza è una delle maggiori fonti di asimmetria distribuzionale nelle

relazioni antonimiche. Nonostante la relazione di antonimia sia logicamente

simmetrica, le prove fornite dall'associazione di termini indicano che relazioni

antonimiche specifiche possono essere memorizzate in maniera direzionale.

Molti degli studi effettuati sull'opposizione lessicale si sono focalizzati nel

definire e differenziare diversi sottotipi di opposti. Le tassonomie di opposti

definite da (Lyons, 1977) e (Cruse, 1986) sono certamente le più citate, quindi le

categorie e definizioni che hanno individuato sono considerate 'standard'.

(Lyons, 1977) ad esempio, restringe l'utilizzo del termine antonimo al

sottoinsieme degli antonimi che sono gradabili e contrari. Certamente contrari

gradabili (quali, ad esempio, grande/piccolo, buono/cattivo sembrano

particolarmente rappresentativi del fenomeno di contrasto lessicale binario.

Un predicato può essere considerato gradabile se descrive una proprietà che

si può manifestare a un grado maggiore o minore. Termini gradabili possono

essere associati con modificatori di grado (come molto o leggermente) e

possono occorrere in costruzioni comparative e superlative. Quindi, aggettivi

quali lungo o produttivo sono gradabili, mentre aggettivi come estinto, non lo

sono.

• Questa giornata è stata molto lunga e molto produttiva

• Questa giornata è stata più lunga e più produttiva di quella di ieri

• ! Quell'animale è molto estinto

• ! Quell'animale è più estinto dell'altro

Gli opposti gradabili presentano, tipicamente, opposizione contraria, il che

significa che asserire uno dei due implica necessariamente negare l'altro. In

altre parole, u e v sono in opposizione contraria nel caso in cui, se X è u, allora

non è v.

La caratteristica chiave dell'opposizione contraria consiste nel fatto che

l'implicazione può essere effettuata in modo che un'asserzione di u implichi la

negazione di v, ma che la negazione di u non implichi l'asserzione di u.

Ad esempio:

• Il morfema è lungo ! Il morfema non è corto

• ! Il morfema non è lungo ! Il morfema è corto

L'implicazione in questa seconda frase non sussiste, perché il morfema in

questione non è lungo, ma può non essere corto, può essere di lunghezza

media.

L'antonimia, nel suo senso più ampio, si focalizza in modo particolare sui

contrasti che sono simmetricamente collocati su una scala, come caldo/freddo,

tanto che (Lehrer A. L., 1982) si riferiscono ai contrari gradabili simmetrici

come agli antonimi perfetti.

Gli insiemi di contrasto con membri gradabili non presentano membri

assolutamente incompatibili. (Lyons, 1977) fornisce l'esempio

eccellente/buono/normale/pessimo/atroce. In questo caso i membri sono co-‐

iponimi, come in altri insiemi di contrasto, ma i confini tra i termini sono labili,

tanto che l'uno sfuma dentro l'altro. Si hanno quindi set di contrasto che

coinvolgono elementi gradabili che non presentano relazione contrarie.

(Lyons, 1977) definisce l'antonimia complementare sulla base della relazione di

implicazione tra i termini di una coppia di antonimi. Se X è u, allora X non è v e

se X non è u, allora X è v. Ad esempio, dire che il mostro è vivo implica che il

mostro non sia morto, e dire che il mostro è morto implica che il mostro non sia

vivo. Identificare gli antonimi complementari nel linguaggio è particolarmente

complesso, dato che i complementari possono, talvolta, essere utilizzati come

contrari e viceversa. Per usare un esempio di (Palmer, 1981), si può dire che

qualcuno è più morto che vivo, rendendo una coppia di aggettivi tipicamente

non gradabili, gradabili in questo contesto d'uso e rendendo quindi complessa

la segmentazione dei campi assunti nella definizione di complementarietà. In

oltre, alcune coppie sono gradabili ma la negazione di uno dei due termini è

tipicamente interpretata come l'asserzione dell'altro. Dire ad esempio che

'qualcuno non è disonesto implica che quel qualcuno sia onesto'. (Cruse, 1986)

caratterizza questi come complementari gradabili. In molti casi, uno dei

complementari gradabili è più gradabile dell'altro.

In opposizione privativa , un termine è definito dall'assenza di qualcosa e

l'altro è definito dalla presenza della stessa caratteristica. Quando pulito (nel

senso di 'assolutamente privo di sudicio') è in opposizione a sporco (che

implica presenza di sudicio) esiste un'opposizione complementare perché

sono possibili solo due condizioni: avere il sudicio o non averlo. Ma se pulito

viene usato nel senso di 'relativamente privo di sudicio', allora si può trovare

in opposizione con sporco nel senso di 'relativamente dotato di sudicio', il che

rende l'opposizione un'opposizione di contrari. In altri casi gli aggettivi sono

naturalmente complementari o contrari, ma l'utilizzo diverso che ne possiamo

fare indica un diverso senso dell'aggettivo. Ad esempio vivo/morto descrivono

uno stato complementare ma se vengono utilizzati come gradabili (come nel

caso di molto vivo) la natura della loro relazione di antonimia cambia,

diventando contrarietà.

Figura 2.1: Tipologie di antonimia

Semantica Distribuzionale

Il termine “Semantica Distribuzionale” (Sahlgren, 2006) definisce una famiglia

di approcci all'analisi del significato (con particolare attenzione alla

dimensione lessicale) nati in linguistica computazionale e nelle scienze

cognitive. Tali modelli condividono una prospettiva empiristica e si basano

sull'ipotesi che la distribuzione statistica delle parole nei contesti giochi un

ruolo determinante nel caratterizzare il loro comportamento semantico.

Al di là di questa assunzione condivisa, i modelli di semantica distribuzionale

differiscono per le tecniche matematiche e computazionali impiegate per

estrarre e modellare le statistiche di co-‐occorrenza delle parole nei corpora e

per le proprietà semantiche che cercano di rappresentare distribuzionalmente.

Nonostante queste differenze, tuttavia, si tratta di un modello generale del

significato lessicale, che formula ipotesi precise e verificabili

sperimentalmente sul formato delle rappresentazioni semantiche e sul modo

in cui vengono costruite.

Nel paradigma distribuzione della rappresentazione semantica, il lessico viene

concepito come uno spazio metrico i cui elementi -‐ le parole -‐ sono separate da

distanze che dipendono dal loro grado di similarità semantica. Quest'ultima

viene misurata attraverso distribuzioni statistiche di co-‐occorrenza delle

parole nei testi, assumendo come principio epistemologico fondamentale la

cosiddetta ipotesi distribuzionale, secondo la quale due parole sono tanto più

simili dal punto di vista semantico, quanto più tendono a ricorrere in contesti

linguistici simili. L'ipotesi distribuzionale è correlata alle “discovery

procedures” , procedure tipiche della tradizione strutturalista americana,

pensate per produrre automaticamente la corretta grammatica di una lingua a

partire da un corpus. Più in generale, l'ipotesi distribuzionale assume come

chiave fondamentale per esplorare le proprietà paradigmatiche del lessico la

ricostruzione dei rapporti sintagmatici che intercorrono tra i suoi elementi nei

contesti linguistici.

Questo modello trova una caratterizzazione fondamentale nelle parole del

linguista inglese (Firth, 1957): You shall know a word by the company it keeps. A

livello cognitivo, questo corrisponde a un modello del lessico mentale in cui i

significati non sono organizzati come i sensi di un dizionario, ma secondo

rappresentazioni contestuali, come descritto da (Charles, 2000): “an abstraction

of information in the set of natural linguistic context in which a word occurs”.

Nonostante la sua lunga storia, l'ipotesi distribuzionale ha guadagnato nuovo

slancio grazie all'attuale disponibilità di corpora testuali di grandi dimensioni

e di tecniche statistiche più sofisticate per l'estrazione degli schemi

distribuzionali dei lessemi. Questo ha permesso di concretizzare l'ipotesi

distribuzione in modelli computazioni per la costruzione di spazi semantico-‐

lessicali, che sono stati poi applicati alla simulazione di diversi aspetti della

competenza semantica. Le rappresentazioni semantiche basate sugli spazi

distribuzionali sono state utilizzate per modellare la selezione di termini

sinonimi (Thomas K Landauer, 1997), priming (Michael N Jones, 2006) e

comprensione della metafora (Kintsch, Metaphor comprehension: A

computational theory, 2000).

Quello che accomuna le differenti implementazioni computazionali dell'ipotesi

distribuzionale è l'assunto che quantificare la similarità semantica tra due

parole sia equivalente a valutare la misura in cui si equivalgono i contesti

linguistici in cui tali parole ricorrono. I modelli possono comunque differire

per vari parametri, legati tipicamente ai diversi fini teorici e applicativi di

riferimento per ciascun modello.

La nozione di spazio semantico si basa su un'analogia con lo spazio

geometrico, il contenuto semantico di una parola è rappresentato dalla sua

posizione in uno spazio definito da un sistema di coordinate, determinato dai

contesti linguistici in cui tale parola può ricorrere. Alla base dei modelli di

semantica distribuzione risiede l'idea che due parole che tendono a combinarsi

con elementi linguistici simili si collocano anche in punti dello spazio

semantico più vicini rispetto a quelli occupati da parole che invece si

distribuiscono in maniera diversa nel testo. Questa assunzione è formalizzata

rappresentando ogni parola come un vettore a n dimensioni, ognuna delle

quali registra il numero di volte in cui la parola in esame compare in un certo

contesto. Ogni parola da esaminare viene quindi rappresentata come una riga

di una matrice in cui le colonne corrispondono al numero di volte in cui la

parola viene trovata in un determinato contesto.

I modelli computazionali di semantica distribuzionale presentano differenze in

termini della nozione di contesto che adottano. La versione più comune di

questi modelli è costituita da vettori che che registrano co-‐occorrenze di parole

in un testo. Affinché sia possibile determinare la posizione di due parole, è

necessario comparare i loro vettori rispetto a tutte le dimensioni che li

compongono. Maggiore è il numero di dimensioni in cui i vettori presentano

valori simili, maggiore è la loro vicinanza nello spazio e, in base all'assunto di

fondo dell'ipotesi distribuzionale, la similarità semantica delle corrispondenti

parole. Una delle misure usate più comunemente per misurare la vicinanza

spaziale tra due vettori è il coseno dell'angolo che essi formano. Se i vettori

sono geometricamente allineati su sulla stessa linea, nella stessa direzione,

l'angolo che formano misura 0° e il coseno misura 1, che indica massima

similarità. Se i due vettori invece sono indipendenti, il loro angolo è vicino a

90° e il coseno di 90° è uguale a 0, il che indica assenza di similarità.

Figura 3.1: Distanza tra termini rappresentati come vettori

Nella figura precedente, ad esempio, si ha distanza massima tra i termini cane

e gatto, che risultano ortogonali in quanto formano tra loro un angolo di $90°,

che implica assenza di similarità. Il vettore rappresentativo del termine

levriero è più vicino a cane (forma infatti con il vettore di cane un angolo di

$15° rispetto al vettore di gatto, con il quale forma un angolo di $75°. Il coseno

dell'angolo tra i vettori di cane e levriero misura 0.96, che essendo un numero

molto vicino a 1, indica alta similarità tra i due termini. Il coseno dell'angolo

tra i vettori di levriero e gatto, invece, misura 0.25, che indica una bassa

similarità tra i due termini.

I modelli di semantica distribuzionale definiscono il significato di una parola in

base alla posizione che questa occupa all'interno dello spazio

multidimensionale determinato dalla base contestuale. Questi modelli

adottano quindi un modello di rappresentazione semantica diametralmente

opposto rispetto a quello tipico della tradizione linguistica e cognitiva, fondato

sull'utilizzo di un metalinguaggio formale costituito da strutture simboliche

quali reti semantiche, tratti etc. Il vettore che rappresenta una parola non ha

nessun valore semantico intrinseco ma viene utilizzato solo al fine di

determinare la posizione della parola stessa nello spazio e la distanza rispetto

alle altre parole. Il significato deriva solo dalle configurazioni dei punti nello

spazio, collocati secondo rapporti proporzionali al loro gradi di similarità

distribuzionale. Le dimensioni che costituiscono il vettore non sono

direttamente interpretabili, né associabili a simboli concettuali, ma

corrispondono a tratti tipici delle rappresentazioni semantiche tradizionali.

I modelli distribuzioni differiscono anche dai modelli relazionali basati su reti

semantiche (Quillian, 1967) o su reti lessicali, quali ad esempio WordNet

(Fellbaum, WordNet: An electronic lexical database, 2001). Gli elementi dello

spazio sono parole e non entità concettuali o sensi, come avviene nelle reti

semantiche. Inoltre in questi modelli il contenuto semantico di un lessema è

definito solo in termini di similarità distribuzionale, tradotti in termini di

distanze nello spazio. La differenza più sostanziale risiede quindi nelle

relazioni che le legano. Le connessioni tra i nodi delle reti semantiche sono

distinte sul piano qualitativo (iperonimia, meronimia, etc.), inoltre, nonostante

ci siano stati molti tentativi per definire metriche per calcolare la distanza fra

due nodi concettuali di una rete, la rete mantiene una struttura

intrinsecamente discreta. Gli spazi di parole hanno, invece, una struttura

puramente quantitativa, dato che, parallelamente a quanto avviene nello

spazio geometrico, l'unica metrica da considerare è quanto sono distanti due

parole.

Un aspetto importante della competenza lessicale catturato dai modelli

semantico-‐distribuzionali, è costituito dai giudizi di similarità semantica tra

parole. Maggiore è il valore del coseno, minore è la distanza tra le due parole

nello spazio distribuzionale. Parole più simili dal punto di vista semantico

(come ad esempio animale e cane) riporteranno valori di coseno più elevati

rispetto a parole che non hanno similarità semantiche. L'ipotesi

distribuzionale trova quindi corrispondenza con le intuizioni semantiche dei

parlanti e la similarità di significato tra due termini lessicali può essere definita

attraverso la loro proiezione in uno spazio costruito su base distribuzionale.

Le rappresentazioni lessicali basate su spazi distribuzionali possono essere

utilizzate per la modellazione di vari tipi di evidenza comportamentale legata

alla distanza semantica tra le parole (ad esempio in compiti di priming

semantico (Jones, 2006) o di riconoscimento di parole (McDonald, 2001)) in

modo più accurato di quanto avvenga utilizzando modelli basati sul lessico

basati su rappresentazioni simboliche con reti lessicali (ad esempio il già citato

WordNet).

La semantica distribuzionale offre anche un interessante punto di vista nel

rapporto tra significato e contesto. Secondo una tradizione consolidata nelle

scienze cognitive e in linguistica, rappresentare il contenuto semantico di una

parola consiste nella sua proiezione su un'ontologia di simboli concettuali.

Nell'ambito della rappresentazione della conoscenza e della linguistica

computazione, per ontologia si intende la rappresentazione in linguaggio

formale di un sistema di categorie concettuali. Nel caso della descrizione del

lessico, le ontologia sono sistemi di simboli che rappresentano il contenuto

semantico dei lessemi. Diversi significati di una stessa parola, vengono

rappresentati da diversi elementi dell'ontologia, mentre l'architettura del

sistema di concetti si fa carico delle relazioni inferenziali tra i diversi sensi

delle parole. Quello che caratterizza maggiormente questo tipo di

rappresentazioni è che i significati vengono modellati come entità indipendenti

dal contesto

Il significato lessicale è soggetto a processi di acquisizione, modulazione e

cambiamento, ma questi aspetti sono indipendenti dal modo in cui si

rappresenta l'informazione semantica, che viene poi usata e applicata nei

contesti. Una conseguenza di questo paradigma è la difficoltà delle

rappresentazioni di tipo simbolico a modellare processi dinamici che si

realizzano in contesti testuali concreti. I sensi delle parole sono realtà

multidimensionali, dai confini incerti e sottodeterminatiì che difficilmente si

riescono a proiettare su sistemi di simboli concettuali non sufficientemente

adeguati a rappresentarne la complessità strutturale e la variabilità.

La rappresentazione lessicale, per essere soddisfacente, deve essere in grado

di descrivere la natura proteiforme del lessico e delle sue dinamiche

dipendenti dai rapporti che si creano tra i lessemi sull'asse sintagmatico, come

descritto da (Pustejovsky, 1995).

Le ontologie di simboli concettuali rappresentano il contesto in maniera

essenzialmente discriminativa, agendo come fattore di disambiguazione che

permette la selezione, all'interno del repertorio di sensi di una parola, del

significato appropriato per una determinata situazione di utilizzo. La metafora

dello spazio di parole ribalta del tutto questa prospettiva, assegnando al

contesto un ruolo costitutivo del significato. In questo modo il contenuto

informativo di una parola è radicato nei contesti linguistici da cui emerge. Si

ottiene quindi un modello di rappresentazione semantica sensibile al contesto e

dinamica, che offre prospettive nuove nella re-‐impostazione del rapporto tra

rappresentazione del significato e modellazione delle sue dinamiche.

La semantica distribuzionale applicata allo studio delle relazioni

di iponimia e antonimia

I modelli distribuzionali caratterizzano fenomeni di similarità semantica tra

parole vicine nello spazio distribuzionale, ma non rappresentano i tipi di

relazioni semantiche che intercorrono tra parole (cane è simile ad animale e

gatto, ma con relazioni diverse). Questo problema si ha anche nel cercare di

trattare relazioni paradigmatiche quali l'iperonimia e l'antonimia.

Problematiche rilevate

Nei modelli distribuzionali, le parole sono collocate in spazi semantici comuni,

in base alle loro rappresentazioni contestuali; la distanza tra parole è misurata

tenendo conto della similarità semantica. Tale distanza è una relazione

simmetrica: se una parola, A, è vicina a una parola B nello spazio semantico,

questo implica che B sia vicina ad A. Il modello non riesce a caratterizzare le

diverse proprietà semantiche delle relazioni che legano le parole vicine. La

distanza tra le parole è poco funzionale nel descrivere relazioni di tipo

asimmetrico, come l’iponimia. Considerando, ad esempio, la coppia animale-‐

cane, legata dalla relazione di iponimia, si può assumere che, se l’essere cane

implica l’essere animale, l’essere animale non implica l’essere cane, essendo

animale un termine più ampio di cane. Gli iperonimi sono termini

semanticamente più ampi rispetto ai loro iponimi a livello estensionale,

(animale si riferisce a un insieme più ampio di entità rispetto a cane). A livello

intensionale, invece, l'iponimo di un termine risulta essere più informativo del

suo iperonimo (cane ha proprietà più informative rispetto a quelle di animale,

si può assumere infatti che per cane siano vere proprietà non vere per tutti gli

animali, es. abbaiare), quindi i sopraordinati risultano meno informativi

rispetto ai concetti di livello base.

Se si immaginano i concetti organizzati in una gerarchia di categorie, che va

dall'estremamente generico allo specifico, possiamo pensare che la classe

generica comprenda un alto numero di elementi. Le categorie più specifiche

permettono maggiore accuratezza nella categorizzazione dei membri: sapere

che qualcosa è un cane ci permette di inferire una serie di proprietà di

quell’elemento. Di tutte le possibili categorie in una gerarchia, il livello base è il

livello intermedio, compromesso tra l’accuratezza della classificazione data dal

livello più generico e il potere predittivo del livello più specifico (Murphy,

2003). Le categorie di base rappresentano il livello di caratterizzazione più

naturale (Murphy G. L., 1997) dato che sono quelle prodotte più spesso,

riconosciute più velocemente e apprese per prime.

Recentemente sono stati proposti diversi modelli distribuzionali per la

rappresentazione di relazioni asimmetriche ( (Weeds, 2004), (Clarke, 2009)),

basati sull’ipotesi di inclusione distribuzionale, utilizzata anche da (Kotlerman,

2010) per l’identificazione del Lexical Entailment (implicazione lessicale).

Il lexical Entailment modella relazioni quali si riferisce a e implica ed è parte di

un quadro teorico più generale per l’inferenza semantica, chiamato Textual

Entailment.

Textual Entailment (implicazione testuale) è un paradigma di modellazione

per l’inferenza semantica emerso in anni recenti (Giampiccolo, 2009). Essendo

un quadro teorico generico, può essere utilizzato in un ampio spettro di

applicazioni quale l’estrazione di informazione e il recupero di documenti.

Il Textual entailment è una relazione direzionale tra due frammenti di testo, t e

h. t implica h se il parlante che legge t inferirà che h è molto probabilmente

vero (Dagan, 2006). Ad esempio, dalla frase seguente: ‘Sono stati venduti tutti i

biglietti per il concerto dei Beatles a Liverpool’, possiamo dedurre che i Beatles

abbiano tenuto un concerto a Liverpool.

Un elemento lessicale e implica un altro elemento a se esistono alcuni testi

naturali (non aneddotici) che contengono e che implica \texit{a in modo tale

che riferimenti al significato di a possano essere implicati solo dal significato di

e nel testo. Un sistema di questo tipo si baserà quindi sulla regola e!textit{a.

Ad esempio, la regola produrre! deporre è valida in contesti in cui il

produttore è gallina e il prodotto è uovo.

Quindi il lexical entailment è una relazione concettualmente più vasta rispetto

a quella di iperonimia, dato che l’inferenza può essere determinata dalla

sinonimia, dall’iperonimia e dalla meronimia.

Per quanto riguarda la relazione di antonimia, al momento non si rilevano

tentativi di successo nel distinguere la relazione di sinonimia da quella di

antonimia, utilizzando modelli distribuzionali standard. Probabilmente questo

è dovuto alla similarità dei contesti d'occorrenza di sinonimi ed antonimi.

(Mohammad, 2008) ad esempio, hanno rilevato che le misure di similarità

distribuzionale tipicamente falliscono nel distinguere i sinonimi da coppie di

parole contrastive. Hanno infatti verificato che, applicando una misura di

similarità semantica a un insieme di coppie di antonimi altamente contrastanti,

a coppie di sinonimi e a coppie di parole legate da una relazione casuale, le

coppie legate da relazione di antonimia e le coppie legate da relazione di

sinonimia, tendevano ad avere una similarità distribuzionale media più simile,

rispetto a quanto avveniva tra antonimi e coppie di parole legate da relazioni

casuali e sinonimi e coppie di parole legate da relazioni casuali.

E' stato anche provato che, in media, le coppie di antonimi hanno un grado di

similarità distribuzionale maggiore rispetto ai sinonimi. (Miller, 1991) ha

effettuato un esperimento di sostituibilità, nel quale la relazione tra similarità

semantica e contestuale è stata investigata per coppie di nomi. Le coppie

utilizzate presentavano diversi gradi di similarità semantica. La similarità

semantica è stata valutata utilizzando classificazioni soggettive; la similarità

contestuale stimata utilizzando il metodo di ordinamento dei contesti. Il

risultato ha mostrato una relazione lineare inversa tra la similarità di

significato e la differenziazione dei contesti. In media, per parole della stessa

lingua ricavate dalle stesse categorie sintattiche e semantiche, quanto più

spesso due parole possono essere sostituite negli stessi contesti, quanto più il

loro significato è giudicato simile. In base ai risultati di questo esperimento,

quindi, ci devono essere delle indicazioni contestuali che permettano ai

parlanti di distinguere tra sinonimi ed antonimi. Tali differenze, ad ogni modo,

non vengono catturate dalle attuali misure di similarità semantica, il che

conduce all'ipotesi che l'antonimia e la sinonimia siano simili, a livello

distribuzionale, rendendo difficile utilizzare tali metodi per la classificazione di

relazioni di antonimia.

Data la particolare condizione, di similarità e differenza, i lavori di linguistica

computazionale hanno talvolta incluso l'antonimia sotto la classificazione di

similarità semantica. Ricerche recenti hanno tuttavia imposto una distinzione

rigida tra similarità semantica e correlazione semantica (semantic relatedness).

La correlatezza semantica è un concetto più generale della similarità

semantica; entità simili sono semanticamente correlate in virtù della loro

similarità (banca-‐ società fiduciaria), ma entità dissimili possono comunque

avere una relazione semantica quale la meronimia (macchina-‐ruota) e

antonimia (caldo-‐freddo) o da una qualsiasi relazione funzionale, o da

frequente associazione nei contesti d’uso (matita-‐carta) (Budanitsky, 2006).

Gli antonimi appartengono alla seconda e più ampia categoria di correlatezza

semantica e non dovrebbero, quindi, essere utilizzate misure di similarità

semantica per individuare questo tipo di relazione, come evidenziato da (Lin,

2003). E' stata introdotta una varietà di misure per il calcolo della similarità

semantica basate su corpora che tentano di identificare similarità semantiche

calcolando la loro similarità distribuzionale ( (Hindle, 1990); (Lin D. , 1998)).

Tali misure si sono rivelate efficienti nell'individuare coppie di parole legate da

relazione di sinonimia; si sono rivelate anche molto meno accurate nel

classificare antonimi e parole dissimili, classificandole ripetutamente come

parole semanticamente simili. Ad ogni modo, nonostante le difficoltà, ci sono

stati solo pochi studi effettuati con lo scopo di distinguere gli antonimi dai

sinonimi, al contrario la maggioranza degli studi effettuati si sono focalizzati

esclusivamente sulla relazione di sinonimia o di antonimia.

E' quindi possibile effettuare una classificazione relativa alla relazione di

antonimia utilizzando i metodi distribuzionali? E' possibile utilizzare tali

metodi per distinguere le relazioni di antonimia dalle relazioni di sinonimia,

pur avendo queste distribuzioni simili nei testi?

Primi esperimenti di analisi distribuzionale della relazione di iperonimia

Come accennato in precedenza, il problema più rilevante che si ha nel cercare

di individuare le relazioni di iperonimia utilizzando metodi distribuzionali, è

dato dal fatto che, nei modelli distribuzionali, la distanza tra parole viene

rappresentata come una relazione simmetrica. L'iperonimia non è una

relazione simmetrica, pertanto, per identificarla in maniera distribuzionale,

una delle strade percorribili consiste nell' individuare una misura di similarità

direzionale (non simmetrica), che riesca a definire le caratteristiche della

relazione di iperonimia. A tale proposito sono state investigate le capacità di

diverse misure di similarità semantica direzionali nel riconoscimento delle

relazioni di iperonimia. Sono state anche proposte due misure nuove, create ad

hoc per il riconoscimento e la classificazione di questa relazione, che tentano di

implementarne alcune caratteristiche fondamentali.

Per indagare la capacità delle misure di similarità direzionali nel classificare la

relazione di iperonimia, abbiamo valutato il grado di correttezza sia

nell’identificare l’iperonimo di un nome target, che nel discriminare termini

legati dall’iperonimia da termini legati da relazioni simmetriche, come i co-‐

iponimi. Al momento gli esperimenti si sono svolti sull'Inglese, in modo da

avere una migliore comparabilità con lo stato dell'arte internazionale. Come

descritto nel Capitolo 4, i termini lessicali sono stati rappresentati come vettori

di caratteristiche distribuzionali estratte dalla matrice TypeDm, derivata da

Distributional Memory (DM) (Baroni, 2010). DM rappresenta i dati

distribuzionali come un insieme di tuple pesate ((p1, l, p2), w) dove p1 e p2

sono parole, l è la dipendenza sintattica che le lega e w è il peso che stima la

salienza di quella tupla utilizzando la Local Mutual Information (LMI) calcolata

sulla frequenza dei legami. Esempi di tuple possono essere: ((marine own

bomb) 40.0) o ((teacher own bomb) 5.2). Da questi esempi è possibile vedere

che a ogni coppia di parole legate da una certa dipendenza sintattica, si associa

il peso dato dalla frequenza dei legami. Il peso di marine own bomb è quindi,

ovviamente, maggiore del peso di teacher own bomb dato che sarà molto più

probabile veder co-‐occorrere own bomb con marine che con teacher. La Mutua

Informazione (MI) è una misura statistica che permette di confrontare la

probabilità di incontrare una coppia di parole (bigramma) rispetto alla

probabilità di incontrare i suoi costituenti, considerati come mutuamente

indipendenti. Dato che la Mutua Informazione è estremamente sensibile agli

eventi rari, i bigrammi formati da hapax avranno un valore di Mutua

Informazione molto alto. Questo avviene perché la Mutua Informazione tende

a privilegiare i casi isolati di collocazione, riuscendo in questo modo a

eliminare le false collocazioni, ma diventando sproporzionata nei casi poco

frequenti. La LMI è una variante di MI utilizzata per ridurre l’impatto dei dati

poco frequenti.

TypeDm contiene 30.693 lemmi e 25.336 link diretti e inversi formati da

dipendenze sintattiche.

Le misure sono state valutate su un corpus in lingua Inglese derivato dal

dataset BLESS ( (Baroni, How we BLESSed distributional semantic evaluation,

2011)), che consiste di triplette che esprimono una relazione tra concetti target

e concetti relatum. BLESS è composto da 200 concetti target, suddivisi in 17

classi (quali BIRD, FRUIT etc.). Per ogni concetto target BLESS include più

parole, collegate al concetto target da una relazione semantica. Per questo

esperimento è stato usato un sotto corpus derivato da BLESS formato da

14547 tuple, in modo che il termine relatum fosse attestato in TypeDM e le

relazioni fossero le seguenti:

• COORD: il relatum è un co-‐iponimo del concetto (coccodrillo-‐lucertola)

• HYPER: il relatum è un nome che è iperonimo del concetto (coccodrillo-‐

animale)

• MERO: il relatum è un nome che si riferisce a una parte del concetto

(coccodrillo-‐bocca)

• RANDOM-‐N: il relatum è un nome casuale che non ha relazioni con il

concetto target, o ha relazioni che non sono le precedenti (coccodrillo-‐

scarpa).

Ogni parola del test set in esame è quindi rappresentata come un vettore di

dati distribuzionali relativi alla parola stessa.

Sono state applicate ai vettori derivati dalle tuple tre misure direzionali allo

stato dell’arte, per valutarne l’abilità nel discriminare l’iperonimia dalle altre

relazioni semantiche, in particolare la co-‐iponimia (una misura simmetrica). In

base all’ipotesi di fondo, le misure di similarità distribuzionale dovrebbero

attribuire un punteggio più alto alle relazioni di iperonimia, asimmetriche e

direzionali.

I risultati ottenuti su tre misure direzionali allo stato dell'arte sembrano

confermare l'ipotesi. Innanzitutto, tutte le misure riescono a discriminare

coppie che hanno un legame semantico da quelle che non lo hanno. E' stata

effettuata un'analisi dei risultati utilizzando Average Precision (AP), una

misura solitamente utilizzata nei compiti di recupero documenti. Per ogni

misura di similarità è stata calcolata AP rispetto alle 4 relazioni di BLESS. Il

massimo punteggio possibile di AP si ottiene quando tutti i relata legati al

target dalla relazione in esame riportano punteggi di similarità semantica più

alti rispetto ai relata non legati al target da quella particolare relazione (se in

un ideale ordinamento per punteggio di similarità semantica, i relata legati al

target dalla relazione in esame occorressero tutti ai primi posti).

Confrontando i risultati ottenuti nel valutare le relazioni di co-‐iponimia e

quelle di iponimia si nota che tutte le misure allo stato dell'arte riportano

valori di AP più alti per la relazione di co-‐iponimia rispetto a quella di iponimia

(come è possibile vedere nella tabella 4.1) , probabilmente perché queste

misure di similarità sono state concepite per il riconoscimento del lexical

entailment. Questo fa sì che le features di inclusione che usano siano

soddisfatte anche dai coordinati.

Tabella 4.1: Valori di Average Precision (AP) per le misure direzionali allo stato dell’arte

Utilizzare misure di similarità direzionali si rivela quindi essere una strada

promettente per la classificazione dell’iperonimia, ma l’analisi delle misure allo

stato dell’arte mostra che è possibile migliorarle perché siano accurate nel

riconoscimento di tale relazione.

A tale proposito sono state sviluppate due nuove misure distribuzionali

direzionali, che sfruttano le proprietà linguistiche della relazione di

iperonimia.

La prima misura implementata (invCL) (Lenci, 2012) è basata sull’idea che un

termine semanticamente più ampio dovrebbe poter essere trovato anche in

contesti nei quali il termine semanticamente meno ampio non è utilizzato. Se v

è un termine semanticamente più ampio di u, le proprietà distribuzionali di u

saranno anche proprietà distribuzionali di v, al contrario ci saranno proprietà

di v che non fanno parte delle proprietà distribuzionali caratterizzanti di u.

Considerando la coppia di termini animale-‐cane, si può assumere che le

proprietà distribuzionali di animale comprendano le proprietà di cane (tra le

proprietà di animale si potrà trovare, ad esempio, “abbaiare”, caratterizzante

l'entità cane), ma che le proprietà di cane non comprendano molte delle

proprietà di animale (fra le proprietà di animale vi sarà ad esempio

“miagolare”, che non è caratterizzante di cane). E' stata quindi sviluppata una

misura che tiene conto non solo l’inclusione delle proprietà del termine

iponimo in quelle dell’iperonimo, ma anche la non-‐inclusione delle proprietà

dell’iperonimo in quelle dell’iponimo.

La seconda misura (COL) (Benotto, 2013) è basata sull'ipotesi che i termini

superordinati si applicano a un insieme di termini che appartengono alla

stessa categoria. Si assume, in altri termini, che gli iponimi di un iperonimo

comune formino un insieme di termini contrastivi in relazione all’iperonimo. Si

può dire che, considerando gli iponimi del termine animale, termini come cane,

gatto, cavallo formano l’insieme dei termini di livello più basso rispetto ad

animale e sono in contrasto tra loro avendo proprietà diverse e quindi

proprietà distribuzionali diverse. Se un termine v è semanticamente più ampio

di un termine u le proprietà di u saranno incluse nelle proprietà distribuzionali

di v (le proprietà distribuzionali di cane sono presenti anche tra le proprietà di

animale), è pur vero che anche le proprietà degli altri iponimi complementari a

u rispetto a v saranno incluse nelle proprietà di v (considerando gatto come

complementare di cane rispetto all’iperonimo animale, si può assumere che ci

siano anche molte proprietà di gatto che compaiono tra quelle di animale).

Il termine più vicino all’iponimo è stato individuato utilizzando il coseno

(essendo il coseno la misura che meglio individua similarità simmetriche,

come quella di co-‐iponimia) che ha permesso di individuare, per ogni iponimo,

il co-‐iponimo più simile. Si suppone quindi che l’iponimo in esame e il co-‐

iponimo più simile a esso rispetto a v (iperonimo comune) abbiano in comune

molte proprietà distribuzionali. Selezionare solo le proprietà del co-‐iponimo

che non sono caratterizzanti dell’iponimo in esame dovrebbe dare una buona

approssimazione di come è fatto il complementare di tale termine.

La tabella 4.2 mostra i risultati che si ottengono utilizzando queste due misure.

Quello che si può vedere, confrontando anche tali dati con quelli presenti nella

tabella 4.1, è che le due misure riescono a classificare la relazione di

iperonimia meglio di quanto facciano le misure allo stato dell'arte (dato che il

valore di Average Precision riportato per l'iperonimia è più alto di quello che si

ottiene con le altre misure). Inoltre, queste misure riescono a discriminare

meglio la relazione, direzionale, di iperonimia rispetto a quella, simmetrica, di

coordinazione. Questo avviene perché, oltre al miglioramento della

classificazione della relazione di iperonimia, i valori di average precision che si

ottengono per i coordinati sono più bassi rispetto a quelli che si ottengono con

le misure allo stato dell'arte.

Tabella 4.2: valori di Average Precision per le misure direzionali sviluppate per il

riconoscimento dell’iperonimia

Raccolta dati utilizzando Amazon Mechanical Turk

Nel corso di questo progetto di ricerca è stato effettuato anche un esperimento

di raccolta dati effettuato utilizzando Amazon Mechanical Turk. L'esperimento

è stato portato aventi in collaborazione con l' Institute for Natural Language

Processing dell' Università di Stoccarda. Sono stati raccolti dati per la lingua

tedesca (Università di Stoccarda) e per la lingua Inglese.

Lo scopo della raccolta consisteva nel proporre a utenti selezionati insiemi di

11 parole, per ognuna delle quali veniva chiesto al parlante di fornire

l'antonimo, l'iperonimo e il sinonimo ritenuto più indicato.

I dati da analizzare sono stati selezionati utilizzando WordNet allineati per le

tre lingue in esame, utilizzando per tutte e tre le lingue gli stessi criteri di

selezione.

I dati per il tedesco sono stati raccolti da Sabine Schulte im Walde,

dell'Università di Stoccarda. Per l'Inglese sono stati seguiti gli stessi criteri

seguiti per il tedesco, per ragioni di compatibilità. In primo luogo sono state

generate liste di tutti i nomi, tutti gli aggettivi e tutti i verbi presenti nel

database WordNet. Si è quindi calcolato il diverso numero di sensi per tutte le

diverse parole nelle liste. L'organizzazione del lessico, in WordNet, si avvale

infatti di raggruppamenti di termini con significato affine, chiamati 'synset'

(dalla contrazione di synonym set), e del collegamento dei loro significati

attraverso diversi tipi di relazioni. All'interno dei synset le differenze di

significato sono numerate e definite. Questa rappresentazione ha semplificato

la classificazione delle parole in fasce definite per numeri di senso. Per ogni

parola nella lista, poi, è stata calcolata la frequenza all'interno di un corpus di

riferimento. Per il tedesco, è stato utilizzato SdeWac, un corpus contenente

approssimativamente 880 milioni di parole costruito estraendo il testo delle

pagine web a dominio .de. Per l'inglese è stato utilizzato ukWac, un corpus di

circa 2 miliardi di parole, costruito estraendo il testo delle pagine web a

dominio .co.uk.

Si è quindi deciso quanti stimoli utilizzare per l'esperimento. Sono stati

utilizzati 99 stimoli per classe di parole, perché si è deciso di impostare tre

intervalli di frequenza (ottenendo quindi 3x3=9 categorie) e 11 stimoli per

ogni categoria. Le tre fasce di frequenza sono state così definite: 200-‐2999,

3000-‐9999 e >10000 (nella prima fascia si hanno quindi parole che sono

attestate nel corpus con una frequenza maggiore di 200 e minore di 3000, nella

seconda parole che hanno frequenza nel corpus compresa fra 3000 e 10000,

dove 10000 è escluso e nella terza fascia si hanno parole con un'attestazione di

frequenza maggiore di 10000). I diversi intervalli di polisemia sono 1, 2 e >2 (il

che significa che nella prima fascia ci sono parole per cui WordNet attesta un

solo significato, nella seconda fascia parole per cui WordNet attesta due

significati e nella terza fascia parole per cui WordNet attesta da tre significati

in su). Per ogni classe semantica (aggettivo/verbo/nome) di ogni classe di

parole è stato determinato il numero di parole da selezionare. Per effettuare

tale selezione è stata effettuata una proporzione sul numero totale di parole

per classe semantica. Ad esempio, se la classe aggettivo per il tedesco contiene

996 parole distinte e il numero totale di tutti gli aggettivi su tutte le classi

semantiche è 8582, dato che abbiamo fissato a 99 il numero di stimoli totali da

raccogliere, vorremo avere 99*996/8582 = 11 aggettivi per questa classe

semantica.

A questo punto, per ogni classe semantica, intervallo di frequenza nei corpora

e intervallo dato dal numero di sensi, è stata effettuata una scelta casuale atta a

selezionare le parole da proporre. In ultima analisi, per ognuna delle lingue e

per ogni categoria semantica, 9 insiemi di 11 termini da proporre agli utenti

per le analisi.

Le parole così selezionate sono state quindi utilizzate come input in un

esperimento effettuato utilizzando Amazon Mechanical Turk (MTurk), un

servizio internet di crowdsourcing che permette a chi lo utilizza (requester) di

coordinare l'uso di intelligenze umane per eseguire compiti che i computer, a

oggi, non sono in grado di fare

L'esperimento prevedeva di fornire agli utenti 11 parole, 9 estratte secondo i

criteri precedentemente descritti e 2 non-‐parole (cioè parole che non esistono

realmente nella lingua in esame); le non parole sono state inserite per

verificare che a eseguire gli esperimenti fossero parlanti della lingua in esame,

che sarebbero stati certamente in grado di riconoscere le non parole come tali.

Per ognuna delle parole l'utente era invitato a fornire quello che, secondo la

propria conoscenza di parlante, riteneva essere il miglior candidato sinonimo,

iponimo o antonimo.

Per quanto riguarda la sezione dei turkers abbiamo imposto come unico

vincolo l'essere parlanti madrelingua Inglesi. Quindi, l'insieme degli

esperimenti è stato proposto per l'esecuzione dal sistema (AMT) solo a turkers

che nel profilo di registrazione al servizio hanno impostato come lingua madre

la lingua Inglese. Questo era necessario perché, non potendo sapere chi

avrebbe eseguito i vari insiemi di esperimenti, era necessario avere la garanzia

che sarebbero stati, quantomeno, buoni rappresentanti della lingua su cui

sarebbero andati ad operare.

I dati ottenuti secondo i vincoli precedentemente descritti (dei quali è

possibile visionare un campione nella tabella 4.3) sono stati raccolti e

successivamente ripuliti eliminando i dati duplicati (è infatti possibile che più

di un utente abbia indicato ad esempio, per una stessa parola, il medesimo

antonimo/sinonimo/iponimo). Abbiamo quindi ottenuto liste di stimoli e

corrispondenti sinonimi/antonimi/iponimi, ottenuti in maniera manuale a

partire dai giudizi degli utenti.

Tabella 4.3: Esempi di stimoli forniti con relative risposte e frequenza delle risposte

Primi esperimenti per il trattamento semantico-‐distribuzionale degli antonimi

Il problema più rilevante che si incontra utilizzando le misure di similarità

distribuzionale per il riconoscimento e la classificazione della relazione di

antonimia, come già accennato in precedenza, risiede nel fatto che antonimi e

sinonimi tendono a distribuirsi nel testo in maniera simile, ovvero ad

occorrere in contesti simili. Si prenda ad esempio la coppia di aggettivi

antonimi nuovo/vecchio. E' possibile che entrambi ricorrano in una frase del

tipo: 'Ho perso il mio cappello nuovo', 'Ho perso il mio cappello vecchio' . In

questo senso, ovviamente, si tende a non ottenere risultati rilevanti

nell'utilizzo dei metodi distribuzionali per la classificazione di questo tipo di

relazione semantica.

L'utilizzo di metodi distribuzionali appare anche, in un contesto come quello

presentato sopra, di difficile utilizzo per l'eventuale distinzione di relazioni di

antonimia da relazioni di sinonimia.

A tale proposito, come effettuato per la relazione di iperonimia, è necessario

individuare delle peculiarità della relazione di antonimia, che possano essere

implementate al fine di distinguere tale relazione dalla sinonimia.

In un primo, semplice esperimento, è stata effettuata e conseguentemente

testata, la seguente ipotesi: se una coppia di antonimi presenta una forte

similarità distribuzionale, perché i due termini che la compongono tenderanno

ad occorrere in contesti simili, è pur vero che l'uno dovrebbe occorrere ancora

più frequentemente in contesti in cui occorre la negazione dell'altro. Se u e v

sono due termini legati da relazione di antonimia, si assume quindi che u

occorra più frequentemente, e quindi sia più simile, a non-‐v di quanto lo sia a v.

Ovvero, si assume che, riprendendo l'esempio utilizzato in precedenza, non-‐

nuovo sia più simile a vecchio di quanto non lo sia nuovo.

Per effettuare tale esperimento è stato utilizzato un corpus di lingua Inglese

costituito dall'unione di tre corpora: ukWaC, Wikipedia e BNC. ukWaC è stato

raccolto come descritto nella seziona precedente, il suo scopo è essere

utilizzato come corpus di linguaggio comune, paragonabile, per quanto

riguarda l'eterogeneità dei documenti, alle risorse bilanciate tradizionali.

BNC (British National Corpus) è un corpus sviluppato con l'intenzione di

rappresentare un'ampia varietà dell'Inglese corrente, sia scritto che parlato. Il

corpus è costituito da 100 milioni di parole. Per quanto riguarda Wikipedia, il

corpus è stato ottenuto scaricando l'intero contenuto dell'enciclopedia on-‐line

Wikipedia per la lingua Inglese e consiste di circa 600 milioni di parole. I tre

corpora sono stati uniti per crearne uno più grande perché, come illustrato in

precedenza, i metodi distribuzionali necessitano di grandi quantità di dati per

essere efficienti.

Tutti e tre i corpora, inoltre, presentano annotazioni atte a descrivere le

categorie grammaticali di ogni termine (Part of Speech, PoS tagging).

Il metodo è stato testato su due diverse liste di antonimi precedentemente

selezionati. La prima lista è stata ottenuta attraverso la raccolta dati effettuata

utilizzando Amazon Mechanical Turk descritta nel paragrafo precedente. La

seconda lista utilizzata è basata su un dataset reso disponibile da (Mohammad

S. , 2013) costituito da una lista di 1358 antonimi estratti da WordNet,

all'interno dei quali sono stati selezionati i soli aggettivi, per un totale di 958

coppie di antonimi.

Nel corpus vengono quindi cercate le occorrenze di tali termini, sia nella loro

versione ``positiva'' , che ``negativa'' (ad esempio, si estraggono sia le

occorrenze di sweet che quelle in cui sweet occorre in concomitanza con la

negazione not, sia esso preceduto immediatamente (occorrenza nel testo di

strutture linguistiche come not sweet) o con un intervallo di una parola,

tipicamente un pronome (occorrenza nel testo di strutture linguistiche come

not very sweet).

Per ogni parola che costituisce le coppie, è quindi possibile costruire i rispettivi

vettori di co-‐occorrenze, selezionando come co-‐occorrenti le parole che

occorrono in una finestra di cinque parole antecedenti e successive alla parola

in esame nel corpus. Ognuna delle due possibili accezioni (positiva o negativa)

dei termini in esame, viene rappresentata come un vettore distribuzionale

distinto (in questo caso esiste un vettore distribuzionale per sweet e uno per

not-‐sweet.

A questo punto viene misurata la similarità semantica tra i termini che

costituiscono le coppie. Inoltre, per validare la teoria proposta, viene misurata

anche la similarità semantica tra un membro negativizzato della coppia (not-‐u)

e il positivo dell'altro (v) e viceversa.

Per entrambe le liste di antonimi, i risultati non sono stati risolutivi. In

entrambi i casi, infatti, la teoria per cui la similarità tra una parola e l'opposto

del suo antonimo era maggiore di quella rilevata per la similarità tra la parola

stessa e il suo antonimo, si attestava tra il 30% e il 40%.

Un secondo esperimento è stato effettuato, utilizzando gli stessi dati e le stesse

modalità, costruendo il non-‐concetto in maniera leggermente diversa rispetto a

quanto fatto in precedenza. Per creare il contesto distribuzionale che definisca

in maniera caratteristica il non-‐concetto, si è infatti pensato di escludere dalle

sue proprietà distribuzionali tutte quelle in comune con il concetto nella sua

accezione positiva. In altri termini, tutte le proprietà distribuzionali di v non

vengono incluse nel vettore che descrive le proprietà distribuzionali di non-‐v.

E' stato assunto che in questa maniera fosse possibile individuare le proprietà

distribuzionali salienti che caratterizzano il non-‐concetto. Inoltre, eliminare le

proprietà distribuzionali comuni alla versione "positiva" e "negativa" del

termine, dovrebbe implicare la creazione di un concetto di negatività esclusivo,

teoricamente più simile all'antonimo del positivo che al positivo stesso.

Anche in questo caso viene misurata la similarità semantica tra i termini che

costituiscono le coppie, valutando anche la similarità semantica tra un membro

negativizzato della coppia (not-‐u) e il positivo dell'altro (v) e viceversa.

I risultati degli esperimenti preliminari effettuati sulle liste di antonimi

descritte in precedenza non hanno dato ancora risultati determinanti.

L'analisi dei risultati ha però fornito interessanti spunti sulle ragioni che

possono portare ad avere questo tipo di risultato. In primo luogo le liste di

antonimi utilizzate, necessitano di un miglioramento sostanziale, sia per

quanto riguarda la costituzione delle coppie. In molti casi infatti l'antonimo

riportato per un dato termine, non è quello prototipico, o comunque quello che

ci si aspetterebbe. Si prenda ad esempio la coppia inexperienced-‐inured,

estratta dal dataset di (Mohammad S. , 2013). L'antonimo che ci aspetteremmo

di rilevare, per inexperienced non è inured, ma experienced, come suggerito

dall' Oxford Thesaurus of English.

I dati costruiti a partire da Amazon Mechanical Turk invece risentono della

scelta dei termini da valutare, operata a partire da dati estratti da WordNet,

impiegando come unico criterio un bilanciamento tra termini appartenenti a

diverse fasce di frequenza e di polisemia, all'interno delle quali i termini da

analizzare sono stati estratti in maniera casuale. Tali coppie di antonimi

risentono anche delle valutazioni fornite dagli utenti, che possono aver

indicato in maniera errata o approssimativa, quello che per loro risulta essere

il miglior antonimo di un termine dato.

Inoltre i dati possono essere falsati da una scarsa attestazione dei termini che

compongono le coppie all'interno del corpus in esame. A tal proposito è in atto

una ricostituzione delle liste di antonimi in cui, non solo vengono validati i dati,

ma viene anche verificato che i dati siano presenti nel corpus al di sopra di una

determinata soglia di frequenza, che verrà stabilita in modo da non ridurre

eccessivamente il numero di coppie su cui effettuare i test.

Varrà poi la pena cercare di capire se questo metodo privilegia un tipo

particolare di relazione antonimica, si vorrà capire, cioè, se il metodo in analisi

riporta risultati migliori nella classificazione di antonimi gradabili o

complementari, o ancora se riporta risultati migliori su quelle coppie di

antonimi in cui uno dei due termini è costruito a partire dall'altro, con

l'aggiunta di un prefisso o di un suffisso di negazione.

Conclusioni e Proposte Future

Lo scopo di questo lavoro consiste nell'esplorazione delle potenzialità e dei

limiti dell'approccio distribuzionale come modello del lessico semantico.

E' stato ampiamente illustrato come i modelli distribuzionali presentino

difficoltà e sfide interessanti per quanto riguarda l'estrazione di relazioni

paradigmatiche che intercorrono fra termini in un testo, a causa delle

particolarità distribuzionali di tali relazioni.

In particolare, le relazioni trattate in questo lavoro sono la relazione di

iponimia/iperonimia e la relazione di antonimia.

In entrambi i casi ho proceduto nell'analizzare le peculiarità linguistiche delle

relazioni in esame, nonché lo stato dell'arte per quanto riguarda l'utilizzo delle

metodologie basate sull'approccio distribuzionale per l'estrazione e la

classificazione di queste relazioni.

Per quanto riguarda la relazione di iponimia/iperonimia, l'analisi delle

caratteristiche linguistiche della relazione, mi ha permesso di individuare la

sua direzionalità, permettendomi di comprendere la ragione per cui i metodi

distribuzionali attualmente in uso falliscono nel riconoscimento di questa

relazione. La similarità semantica viene, infatti, tipicamente computata

utilizzando misure simmetriche, quali il coseno. Supponendo infatti che i

significati delle parole possano essere dedotti dal contesto, verificare che due

parole sono in relazione tra loro significa verificare il grado di similarità tra le

due parole, ovvero il numero di contesti che condividono. Questo assunto non

è vero per la relazione di iponimia, che è una relazione asimmetrica.

Sono state quindi investigate le misure asimmetriche allo stato dell'arte,

comunemente utilizzate nello studio del lexical entailment (implicazione

lessicale), che si sono rivelate abili nel discriminare coppie di termini che

hanno un legame semantico da quelle che non lo hanno. Le stesse misure però

non si sono rivelate in grado di discriminare tra termini co-‐iponimi e termini in

relazione di iperonimia/iponimia.

Gli iperonimi sono termini semanticamente più ampi rispetto ai loro iponimi a

livello estensionale, (animale si riferisce a un insieme più ampio di entità

rispetto a cane). A livello intensionale, invece, l'iponimo di un termine risulta

essere più informativo del suo iperonimo (cane ha proprietà più informative

rispetto a quelle di animale, si può assumere infatti che per cane siano vere

proprietà non vere per tutti gli animali, es. abbaiare), quindi i sopraordinati

risultano meno informativi rispetto ai concetti di livello base. Sfruttando

queste proprietà della relazione di iperonimia, ho quindi implementato due

nuove misure direzionali, specificamente concepite per il riconoscimento di

questa relazione. I risultati sino ad ora ottenuti, hanno permesso di dimostrare

che i metodi distribuzionali risultano efficaci e funzionali al riconoscimento ed

alla classificazione di relazioni di iponimia.

Per quanto riguarda la relazione di antonimia, le misure attualmente allo stato

dell'arte si rivelano fallaci sia nella classificazione dei termini tra i quali

intercorre questa relazione, sia nella discriminazione tra la relazione di

sinonimia e di antonimia. Questo avviene perché le relazioni di antonimia e

sinonimia tendono a distribuirsi in maniera simile nei testi. Frequentemente,

infatti, termini sinonimi e termini antonimi, occorrono negli stessi contesti.

Questo rende impossibile utilizzare i metodi distribuzionali standard per il

riconoscimento di questa relazione.

La metodologia sviluppata si basa sull'assunto che, data una coppia di

antonimi, uno dei due membri dovrebbe essere più simile alle occorrenze della

versione negata dell'altro, piuttosto che di quella positiva. Ad esempio, bello

dovrebbe essere più simile e quindi occorrere in contesti di uso, più simili a

quelli di non-‐brutto, piuttosto che a quelli di brutto. Gli esperimenti condotti

fino ad oggi non hanno dato risultati risolutivi, ma funzionali solamente in

alcuni casi specifici. Sulla questa base, è in corso la ricerca di caratteristiche

peculiari che permetterebbero di individuare formalmente insiemi di dati nei

quali la misura proposta è molto efficace. Inoltre, dato che pur non risolutivi, i

dati sembrano essere incoraggianti, mi sto muovendo per ottimizzare

l'esperimento.

In primo luogo, mi sto premurando di preparare un dataset migliore, inteso

come una migliore lista di antonimi da utilizzare per testare il sistema. Le

coppie di termini utilizzate fino ad ora non si sono rivelate, ad un'analisi più

attenta, molto adatti al mio scopo, in quanto formate da termini rari,

difficilmente rintracciabili in termini di occorrenze nei corpora (la scarsa

frequenza dei dati è un grosso limite quando si utilizzano metodi

distribuzionali), e molto poco 'prototipiche'.

A tale proposito quindi, ho intenzione di procedere nel perfezionamento del

metodo sviluppato utilizzando dati più puliti. In secondo luogo procederò con

uno studio sperimentale dei risultati ottenuti, al fine di validarli.

Qualora da tale studio emergessero caratteristiche della relazione di

antonimia che rendono più efficiente la misura, o se dovesse emergere un

particolare tipo di antonimia per cui questo approccio si dovesse rivelare

funzionale, si procederà nell'ottimizzazione della misura.

Un altro aspetto interessante che mi propongo di affrontare riguarda la

possibilità di utilizzare misure di tipo distribuzionale non solo per classificare

gli antonimi, ma anche per distinguere gli antonimi gradabili rispetto agli

antonimi non gradabili.

Inoltre, un altro aspetto da approfondire riguarda l'applicazione dei metodi

distribuzionali per l'analisi dei prefissi negativi (un-‐, im-‐, dis-‐ ) e degli antonimi

che vengono generati grazie all'utilizzo di tali prefissi (come ad esempio

possible-‐impossible).

Bibliografia

• Walter G. Charles, G. A. (1989). Contexts of antonymous adjectives. Applied

psycholinguistics , 357-‐375.

• Weeds, J. a. (2004). Characterising measures of lexical distributional

similarity. Proceedings of the 20th international conference on

Computational Linguistics. Association for Computational Linguistics.

• Wierzbicka, A. (1984). "Apples" Are Not a "Kind of Fruit": The Semantics of

Human Categorization. American Ethnologist , 313-‐328.

• Willners, C. (2001). Antonyms in Context.

• Budanitsky, A. a. (2006). Evaluating wordnet-‐based measures of lexical

semantic relatedness. Computational Linguistics .

• Baroni, M. a. (2010). Distributional memory: A general framework for

corpus-‐based semantics. Computational Linguistics .

• Baroni, M. a. (2011). How we BLESSed distributional semantic evaluation.

Proceedings of the GEMS 2011 Workshop on GEometrical Models of Natural

Language Semantics. Association for Computational Linguistics.

• Benotto, G. (2013). Modelli distribuzionali delle relazioni semantiche: il

caso dell’iperonimia . Animali, Umani, Macchine. Atti del convegno 2012 del

CODISCO. CORISCO edizioni.

• Cann, R. (1993). Formal semantics: an introduction. Cambridge University

Press.

• Charles, W. G. (2000). Contextual correlates of meaning. Applied

Psycholinguistics .

• Clarke, D. (2009). Context-‐theoretic semantics for natural language: an

overview. Proceedings of the Workshop on Geometrical Models of Natural

Language Semantics. Association for Computational Linguistics.

• Cruse, A. (1986). Lexical semantics. Cambridge University Press.

• David E. Rumelhart, P. H. (1972). A process model for long-‐term memory.

Academic Press.

• Dagan, I. a. (2006). The pascal recognising textual entailment challenge. In

Machine Learning Challenges. Evaluating Predictive Uncertainty, Visual

Object Classification, and Recognising Tectual Entailment. Springer.

• Deese, J. (1966). Structure of associations in language and thought.

Baltimore: Johns Hopkins Press .

• Fellbaum, C. (2001). WordNet: An electronic lexical database. MIT Press.

• Fellbaum, C. (1995). Co-‐occurrence and antonymy. International journal of

lexicography , 281-‐303.

• Firth, J. (1957). Modes of Meaning. Papers in Linguistics .

• George Miller, a. C. (1998). Wordnet: An electronic lexical database.

Cambridge: MIT Press Cambridge.

• Giampiccolo, D. a. (2009). The third pascal recognizing textual entailment

challenge. Proceedings of the ACL-‐PASCAL workshop on textual entailment

and paraphrasing. Association for Computational Linguistics.

• Hindle, D. (1990). Noun classification from predicate-‐argument structures.

Proceedings of the 28th annual meeting on Association for Computational

Linguistics. Association for Computational Linguistics.

• Jones, M. N. (2006). High-‐dimensional semantic space accounts of priming.

Journal of memory and language .

• Katz, J. J. (1972). Semantic theory. New York: Harper & Row.

• Kempson, R. M. (1977). Semantic Theory. Cambridge: Cambridge University

Press.

• Kintsch, W. (2000). Metaphor comprehension: A computational theory.

Psychonomic Bulletin & Review .

• Kintsch, W. (1974). The representation of meaning in memory.

• Kotlerman, L. a.-‐G. (2010). Directional distributional similarity for lexical

inference. Natural Language Engineering .

• Lyons, J. (1977). Semantics. Vol. 1-‐2.

• Lehrer, A. L. (1982). Antonymy. Linguistics and philosophy , 483-‐501.

• Lehrer, A. (1974). Semantic Fields and Lexical Structure . Amsterdam: North

-‐ Holland.

• Lenci, A. a. (2012). Identifying hypernyms in distributional semantic spaces.

Proceedings of the First Joint Conference on Lexical and Computational

Semantics-‐Volume 1: Proceedings of the main conference and the shared task,

and Volume 2: Proceedings of the Sixth International Workshop on Semantic

Evaluation. Association for Computational Linguistics.

• Lin, D. a. (2003). Identifying synonyms among distributionally similar

words. IJCAI.

• Lin, D. (1998). An information-‐theoretic definition of similarity. ICML.

• Murphy, G. L. (1997). Hierarchical structure in concepts and the basic level of

categorization. MIT Press.

• Murphy, M. L. (2003). Semantic relations and the lexicon. Cambridge

University Press.

• Martha W. Evens, B. L. (1980). Lexical-‐semantic relations: a comparative

survey. Linguistic Research.

• McDonald, S. a. (2001). Testing the distributional hypothesis: The influence

of context on judgements of semantic similarity.

• Michael N Jones, W. K. (2006). High-‐dimensional semantic space accounts of

priming. Journal of memory and language .

• Miller, G. A. (1991). Contextual correlates of semantic similarity. Language

and cognitive processes .

• Mohammad, S. a. (2008). Computing word-‐pair antonymy. Proceedings of

the Conference on Empirical Methods in Natural Language Processing.

Association for Computational Linguistics.

• Mohammad, S. (2013). Publications and Data.

• Quillian, M. R. (1967). Word concepts: A theory and simulation of some

basic semantic capabilities. Behavioral science .

• Pustejovsky, J. (1995). The Generative Lexicon. Cambridge: MIT Press.

• Palmer, F. (1981). Semantics. Cambridge: Cambridge University Press.

• Persson, U. M. (1986). Facets, phases and foci: studies in lexical relations in

English. Universitetet i Umeå.

• Persson, G. (1990). Meanings, models and metaphors: a study in lexical

semantics in English. Stockholm: Almqvist & Wiksell International .

• Sahlgren, M. (2006). The Word-‐Space Model: Using distributional analysis

to represent syntagmatic and paradigmatic relations between words in

high-‐dimensional vector spaces. The Word-‐Space Model: Using distributional

analysis to represent syntagmatic and paradigmatic relations between words

in high-‐dimensional vector spaces . Stockholm.

• Steven Jones, M. L. (2012). Antonyms in English: Construals, constructions

and canonicity . Cambridge University Pres.

• Resnik, P. S. (1993). Selection and information: a class-‐based approach to

lexical relationships. IRCS Technical Reports Series.

• Thomas K Landauer, S. T. (1997). A solution to Plato's problem: The latent

semantic analysis theory of acquisition, induction, and representation of

knowledge. . Psychological review .

Date post:	17-Feb-2019
Category:	Documents
Upload:	trantuyen
View:	213 times
Download:	0 times

Consiglio Nazionale delle Ricerche - iit.cnr.it · generico rispetto a una stessa parola e che...

Documents