+ All Categories
Home > Documents > Consiglio Nazionale delle Ricerche - iit.cnr.it · generico rispetto a una stessa parola e che...

Consiglio Nazionale delle Ricerche - iit.cnr.it · generico rispetto a una stessa parola e che...

Date post: 17-Feb-2019
Category:
Upload: trantuyen
View: 213 times
Download: 0 times
Share this document with a friend
43
C Consiglio Nazionale delle Ricerche Modelli distribuzionali delle relazioni semantiche: il caso dell’iponimia e dell'antonimia G. Benotto IIT B4-03/2014 Nota Interna Luglio 2014 Iit Istituto di Informatica e Telematica
Transcript

C

Consiglio Nazionale delle Ricerche

Modelli distribuzionali delle relazioni semantiche: il caso dell’iponimia

e dell'antonimia

G. Benotto

IIT B4-03/2014

Nota Interna

Luglio 2014

Iit

Istituto di Informatica e Telematica

Sommario  

Introduzione  e  scopo  del  lavoro  ...................................................................................  2  

Relazioni  paradigmatiche  .............................................................................................  5  

Iponimia  .........................................................................................................................................................................  6  

Antonimia  ...................................................................................................................................................................  10  

Semantica  Distribuzionale  .........................................................................................  15  

La  semantica  distribuzionale  applicata  allo  studio  delle  relazioni  di  iponimia  e  

antonimia  ..................................................................................................................  21  

Problematiche  rilevate  ..........................................................................................................................................  21  

Raccolta  dati  utilizzando  Amazon  Mechanical  Turk  ................................................................................  29  

Primi  esperimenti  per  il  trattamento  semantico-­‐distribuzionale  degli  antonimi  .......................  33  

Conclusioni  e  Proposte  Future  ...................................................................................  36  

Bibliografia  ................................................................................................................  39  

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Introduzione  e  scopo  del  lavoro  

 

L'obiettivo  globale  di  questo  progetto  consiste  nell'esplorazione  delle  potenzialità  

e  dei  limiti  dell'approccio  distribuzionale  come  modello  del  lessico  semantico.  

L'ipotesi   che   la   co-­‐occorrenza   statistica   delle   parole   estratte   da   corpora   testuali  

possa   fornire   una   base   per   la   rappresentazione   semantica   ha   guadagnato   di  

recente  una  crescente  attenzione,   sia  nel  mondo  della   linguistica  computazionale  

che   in  quello  delle   scienze   cognitive.   I   termini  distribuzionale,  basato  su  corpus   o  

statistico  possono  essere  utilizzati   in  maniera  quasi   interscambiabile  per  definire  

una   famiglia   di   approcci   alla   semantica   che   condividono  una  prospettiva   “basata  

sull'uso”    riguardo  al  significato,  che  assume  la  distribuzione  statistica  delle  parole  

nei  contesti  contribuisca  a  definire  il  loro  comportamento  semantico.  

Esistono  comunque  molte  differenze  nelle  tecniche  matematiche  e  computazionali  

adottate,   nel   tipo  di  proprietà   semantiche  associate   alla  distribuzione  del   testo   e  

nelle  diverse  definizioni  dei  contesti  linguistici  utilizzati  per  determinare  gli  spazi  

combinatori   degli   elementi   lessicali.   A   uno   sguardo   più   ravvicinato,   è   possibile  

scoprire   che   le   proprietà   in   comune   potrebbero   essere   molte   di   più   rispetto   a  

quelle   che   ci   si   aspetta  a  un  primo  sguardo  e   che  esiste  un  modello  generale  del  

significato   che   può   essere   isolato   oltre   le   differenze,   un   modello   che   formula  

ipotesi  specifiche  sul   formato  delle  rappresentazioni  semantiche,  del  modo   in  cui  

sono  costruite  ed  elaborate  dalla  mente  umana.  

Diversi   metodi   per   l'analisi   computazionale   delle   proprietà   distribuzionali   delle  

parole   sono   stati   sviluppati   sia   in   linguistica   computazionale   che   in   psicologia   e  

negli   ultimi   decenni   sono   state   studiate   e   sviluppate  molte  misure   per   il   calcolo  

della  similarità  lessicale  su  base  distribuzionale.    

Data   l'ipotesi   distribuzionale,   è   quindi   possibile   applicare   ai   testi   metodi  

computazionali   per   acquisire   dinamicamente   le   proprietà   semantiche   attraverso  

elaborazioni  matematiche  delle  distribuzioni  delle  parole  nei  testi  stessi.  

Lo   scopo   di   questo   lavoro   è   quello   di   effettuare   uno   studio   riguardo   le   misure  

attualmente   proposte     per   il   riconoscimento   delle   relazioni   semantiche  

paradigmatiche,  in  modo  da  valutarne  il  grado  di  successo.  Si  vuole  infatti  capire  se  

i  metodi  distribuzionali  possono   rivelarsi   efficaci  nello   svolgimento  di   compiti  di  

riconoscimento   di   relazioni   semantiche   paradigmatiche.   Si   vuole   inoltre   stabilire  

se   esiste   un   margine   di   miglioramento   nelle   tecniche   attualmente   in   uso   per   il  

riconoscimento  di  questo  tipo  di  relazioni.  

Forte   dei   dati   ottenuti   dall'analisi   precedentemente   descritta,   il   mio   obiettivo   è  

migliorare  i  modelli  di  semantica  distribuzionale  al  fine  di  distinguere  diversi  tipi  

di  relazioni  semantiche  paradigmatiche.    

Le   relazioni   paradigmatiche   (sinonimia,   antonimia,   iperonimia/iponimia,  

meronimia)  riguardano  l'insieme  delle  parole  che  fanno  parte  di  uno  stesso  campo  

semantico,  ovvero  delle  parole   che  hanno  significato  simile,  opposto,  più  o  meno  

generico   rispetto   a   una   stessa   parola   e   che   possono   quindi   essere   usate   in  

alternativa  a  quella  parola,  a  seconda  del  tipo  di  contesto,  dell'interlocutore  o  del  

fine   della   comunicazione:   felice/allegro   (sinonimia),   bello/brutto   (antonimia),  

fiore/violetta  (iperonimia),  dito/mano  (meronimia).  

Analizzare   le   relazioni  paradigmatiche  utilizzando   i  metodi  distribuzionali   risulta  

essere   molto   interessante,   in   primo   luogo   perché   i   metodi   di   semantica  

distribuzionale,   allo   stato   dell'arte,   hanno   difficoltà   nel   distinguere   queste  

relazioni.  Questo  avviene  perché  le  distribuzioni  di  queste  relazioni  all'interno  dei  

testi  tendono  ad  essere  molto  simili.  A  tale  proposito,  una  frase  quale:  il  ragazzo/la  

ragazza/la   persona   ama/odia   il   suo   gatto   illustra   che   i   (co)iponimi  

ragazzo/ragazza,   afferenti   allo   stesso   iperonimo  persona,   così   come   gli   antonimi  

amore/odio  possono  ricorrere,  rispettivamente,  in  contesti  identici.    

In   particolare,   esaminando   le   caratteristiche   distribuzionali   delle   relazioni  

paradigmatiche,   si   può   notare   che   la   relazione   di   iponimia/iperonimia   e   la  

relazione   di   antonimia   presentano   particolari   difficoltà   nell'essere   estratte   e  

classificate  utilizzando  metodi  distribuzionali.    

La   relazione   di   iperonimia/iponimia,   ad   esempio,   non   può   essere   riconosciuta  

utilizzando   questi  metodi   a   causa   della   sua   natura   intrinsecamente   asimmetrica.  

Considerando,   ad   esempio,   la   coppia   animale-­‐cane,   legata   dalla   relazione   di  

iperonimia,  si  può  assumere  che,  se  l’essere  cane  implica  l’essere  animale,  l’essere  

animale  non  implica  l’essere  cane,  essendo  animale  un  termine  più  ampio  di  cane.    

Le   misure   comunemente   utilizzate   allo   stato   dell'arte   caratterizzano  

semplicemente   la   distanza   tra   parole,   che   è   una   relazione   simmetrica:   se   una  

parola,  A,  è  vicina  a  B  nello  spazio  semantico,  questo  implica  che  B  sia  vicina  ad    A.  

Il   modello   non   riesce   a   caratterizzare   le   diverse   proprietà   semantiche   delle  

relazioni  che  legano  le  parole  vicine.  

La   relazione   di   antonimia,   invece,   pone   quesiti   interessanti   in   quanto   tende   a  

distribuirsi   nei   testi   seguendo   le   stesse   modalità   della   relazione   di   sinonimia.  

Questo   rende   estremamente   difficile   distinguere,   appunto,   la   relazione   di  

sinonimia  da  quella  di  antonimia  utilizzando  i  metodi  di  semantica  distribuzionale.  

Proprio   per   le   evidenti   difficoltà   e   le   particolarità   delle   relazioni   di   iponimia   e  

antonimia,  si  è  deciso  di  focalizzare  il  lavoro  su  queste  due  relazioni.    

Sul   versante   applicativo,   l'obiettivo   è   quello   di   contribuire   alla   realizzazione   di  

modelli   computazionali   funzionali   per   il   riconoscimento   e   la   classificazione  

(nonché   della   discriminazione   rispetto   alle   altre   relazioni   semantiche)   delle  

relazioni  di  iponimia  e  antonimia  tra  i  termini  di  un  testo.    

Il  problema  principale,   infatti,  consiste  nello  sviluppare   la   'misura  distribuzionale'  

più  adatta  per  classificare  le  relazioni  in  esame  e  che  sia  in  grado  di  discriminare  

queste  ultime  rispetto  a  relazioni  semantiche  diverse.  

E'  stata  quindi  effettuata  una  prima  fase  di  analisi  dello  stato  dell'arte  in  linguistica  

computazionale  e  in  semantica  lessicale  per  quanto  riguarda  la  rappresentazione  e  

la   modellazione   delle   relazioni   semantiche   oggetto   di   indagine.   Tali   discipline  

possono   essere   d'ausilio   anche   nel   definire   le   procedure   di   selezione   dei   dati  

necessari  per  lo  sviluppo  di  adeguati  algoritmi  computazionali  e  per  la  valutazione  

intrinseca  dei  modelli  stessi.  

Il   progetto   si   concentra   poi   sullo   sviluppo   e   sulla   sperimentazione   di   modelli  

distribuzionali,   realizzati   utilizzando   il   concetto   di   spazi   di   parole.   Considerando  

l’assunto   alla   base   del   modello   distribuzionale,   ovvero   che   la   prossimità   nello  

spazio  modelli   la   correlazione   semantica,   sarà   possibile   calcolare   la   correlazione  

fra   una   coppia   di   parole   e   una   relazione   semantica   (ovvero   saremo   in   grado   di  

classificare   la   relazione   semantica   che   lega   una   coppia   di   parole)   misurando   la  

vicinanza  fra  il  vettore  che  descrive  la  relazione  e  quello  che  descrive  la  coppia  di  

parole.  

Una  volta   costruiti   i  modelli,   sarà  necessario  valutarne   la   capacità  discriminativa  

rispetto  ai  diversi  tipi  di  relazione.  

 

 

Relazioni  paradigmatiche  

 

Le   relazioni   semantiche   paradigmatiche   tra   parole   -­‐   antonimia,   sinonimia,  

iperonimia/iponimia   etc.   -­‐   sono   rilevanti   per   la   struttura   dell'informazione  

lessicale  e  concettuale.  Questa  nozione  di  ``rilevanza”  è  piuttosto  vaga  e  al  suo  

interno  si  trovano  opinioni,  assunzioni  e  modelli  che  variano  ampiamente.  Per  

alcuni   studiosi   (ad   esempio   (Katz, 1972),   (Kempson, 1977)   e   (Pustejovsky,

1995)),   spiegare   queste   relazioni   è   uno   degli   scopi   della   semantica   lessicale,  

così   come   modellare   relazioni   quali   l'implicazione   e   la   contraddizione   è   un  

problema   fondamentale   nella   semantica   proposizionale.   Per   altri   studiosi   (

(Deese, 1966),   (Lehrer A. , 1974), (George Miller, 1998)),   sono   le   relazioni   tra  

parole  a  determinare  il  significato,  piuttosto  che  il  contrario.  Le  differenze  tra  

questi  punti  di  vista  sottolineano  quanto  la  genesi,  la  rappresentazione  e  l'uso  

delle   relazioni   paradigmatiche   siano   argomenti   poco   chiari   alla   luce   delle  

teorie  linguistiche  e  psicolinguistiche.  

 

In  letteratura,  queste  relazioni  sono  sovente  definite  come  relazioni  lessicali  o  

relazioni  semantiche  e  qualche  volta  questi  due  termini  sono  usati  in  contrasto.  

Il   termine   comune   relazione,   descrive   l'appartenenza   a   un   insieme   che  

presenta  caratteristiche  comuni.  Le  relazioni  paradigmatiche,  dunque,  indicano  

un   insieme   di   termini   che   formano   una   sorta   di   paradigma,   ad   esempio   un  

paradigma   semantico   che   contiene   membri   della   stessa   categoria  

grammaticale   che   presentano   alcune   caratteristiche   comuni,   pur   non  

condividendone  altre.    

 

Le  principali  relazioni  semantiche  di  tipo  paradigmatico  sono  le  seguenti:  

• sinonimia  automobile=macchina  

• antonimia  buono/cattivo  

• contrasto  dolce/aspro/amaro/salato  

• iponimia   o   inclusione   di   classe   gatto<mammifero<animale   (dove   ``<“  

indica  inclusione)  

• meronimia  o  relazione  parte-­‐di  dito-­‐mano-­‐corpo  umano  

 

Come   accennato   in   precedenza   in   questo   lavoro   saranno   trattate,   in   modo  

particolare,   le   relazioni   di   iperonimia   e   antonimia,   che   presentano  

caratteristiche  particolarmente   interessanti  e  rappresentano  una  sfida  aperta  

per   la   difficoltà   nell'essere   trattate   utilizzando  metodi   basati   sulla   semantica  

distribuzionale.  

 

Iponimia  

La   relazione  di   iponimia,   ovvero   la   relazione   type<token   (e   il   suo   inverso,   la  

relazione     token>type,   ovvero   l'iperonimia),   è   una   delle   relazioni   strutturali  

fondamentali   nel   lessico,   ed   è   la   "relazione   lessicale   maggiormente   studiata  

nella  comunità  computazionale"  (Pustejovsky, 1995).  

 

A   causa   della   sua   rilevanza   e   influenza   sui   modelli   di   conoscenza   lessicale,  

l'iponimia   ha   un   ruolo   fondamentale   nelle   questioni   sull'organizzazione  

semantica   del   lessico.   Le   inferenze,   un   particolare   tipo   di   implicazione,   sono  

infatti   fortemente   associate   alla   relazione   di   iponimia.   Il   fatto   che   una   frase  

possa   implicare   una   frase   equivalente   che   include   l'iperonimo   di   uno   dei  

termini   che   la   compongono,  dimostra  quanto   appena  affermato.  Ad  esempio,  

una  frase  come  è  entrato  il  gatto  implica  è  entrato  l'animale.  

Quindi  la  relazione  di  iponimia  è  fondamentale  per  caratterizzare  il  significato  

di  una  parola.  A  livello  grammaticale,  le  restrizioni  di  selezione  sull'oggetto  di  

un  verbo,  possono  essere  espresse  in  termini  di  iperonimo  e  tutti  gli  iponimi  di  

quel  termini  possono  essere  quindi  selezionati  come  possibili  oggetti  (Resnik,

1993).  

 

L'  iponimia  è  definita  come  la  relazione  'tipo  di'.  Cane  è  un  iponimo  di  animale  

perché   il   cane   è   un   tipo   di   animale.   Nel   modelli   computazionali   è  

frequentemente   rappresentata   come     is-­‐a   (David E. Rumelhart, 1972)   o   is-­‐a-­‐

member-­‐of  (Kintsch, The representation of meaning in memory, 1974).  Definizioni  

logiche   per   questo   tipo   di   relazione   sono   spesso   espresse   in   termini   di  

inclusione   di   insiemi.   Quindi,   ad   esempio,   tascabile   è   un   iponimo   di   libro  

perché   il   significato   di   tascabile   include   tutte   le   proprietà   (o   altre  

rappresentazioni  del  significato)  che  costituiscono  il  significato  di  libro  (avere  

le  pagine,  una  copertina,  essere  fissato  su  un  lato  etc.).  

 La   maggior   parte   delle   definizioni   di   iponimia   tendono   a   specificare  

l'unidirezionalità  dell'inclusione.    Se   l'inclusione  fosse  bidirezionale,   infatti,   la  

relazione  sarebbe  una  relazione  di  sinonimia.    

L'iponimia   è   una   relazione   di   tipo   non   riflessivo,   se   la   si   considera   una  

relazione   fra   i   significati.     Una   relazione   semantica   è   riflessiva   quando   ogni  

elemento  coinvolto  è  in  relazione  con  sé  stesso.  Se  si  considera  l'iponimia  come  

una  relazione  tra  elementi  lessicali,  è  possibile  che  si  verifichi  il  caso  in  cui  un  

elemento  è  in  relazione  di  iponimia  con  sé  stesso.  E'  il  caso  degli  autoiponimi,  

che   possono   appunto   essere   considerati   elementi   iponimi   di   loro   stessi.  

L'autoiponimia  è  un  tipo  di  polisemia  in  cui  una  parola  ha  un  senso  generale  e  

uno  più  specifico.  

Si  consideri  il  seguente  esempio:  

•  Un  quadrato  è  un  rettangolo  con  tutti  i  lati  uguali  

•  Un   quadrato   ha   quattro   lati   uguali,  mentre   un   rettangolo   ne   ha   solo  

due  

•  

Il   senso   della   parola   evidenziata   (rettangolo),   nella   prima   frase,   è   un  

iperonimo  del  senso  che  assume  nella  seconda  frase.  Per  la  maggior  parte  delle  

definizioni  di   iponimia,  comunque,   i  due  usi  (quello  più  generale  e  quello  più  

specifico)   della   parola   vengono   trattati   come   significati   separati   e   quindi   la  

relazione  non  può  considerarsi  riflessiva.    

 

L'iponimia   e   l'iperonimia   sono   anti-­‐simmetriche,   infatti   dire   che   u   è   un  

iponimo  di  v,   implica  che  v  non  sia  un  iponimo  di  u.  Se,  ad  esempio  cane  è  un  

iponimo   di   animale,   questo   implica   che   animale   non   sia   iponimo   di   cane.  

Iponimia  e  iperonimia  sono  però  simmetriche  rispetto  l'una  all'altra.  Se,  infatti,  

v  è  un  iperonimo  di  u,  u  sarà  un  iponimo  di  v,  ovvero  se  animale  è  iperonimo  di  

cane,  cane  sarà  iponimo  di  animale.  

 

L'iponimia,   o   quantomeno   l'iponima   tassonomica,   è   una   relazione   di   tipo  

transitivo   e   la   sua   transitività   è   causa   dei   “poteri   implicativi”     (Martha W.

Evens, 1980)  di  questa  relazione.    

Diverse   fonti   divergono   sull'idea   che   l'iponimia   sia   da   considerare   una  

relazione   tra   parole,   tra   significati   o   tra   cose.   Per   la   maggior   parte   dei  

semanticisti   lessicali,   che   parlano   frequentemente   di   “relazioni   tra   i   sensi”,  

l'iponimia   è   una   relazione   tra   intensioni,   ovvero   tra   proprietà   informative   (

(Kempson, 1977)  (Cruse, 1986),  (Persson G. , 1990)).    In  questo  caso,  il  significato  

dell'iperonimo  è  contenuto  ne  (o  ereditato  da)  l'iponimo.  Si  assume  infatti  che  

l'iponimo   abbia   proprietà   più   informative   rispetto   all'iperonimo,   ovvero   che  

cane   presenti   proprietà   più   informative   di   animale,   dato   che,   ad   esempio,   il  

cane  abbaia,  cosa  non  vera  per  tutti  gli  animali.  

In   semantica   formale,   le   relazioni   di   iponimia   indicano   una   relazione   di  

inclusione  tra  le  estensioni  di  due  parole,  tale  per  cui  le  estensioni  dell'iponimo  

rappresentano   un   sottoinsieme   delle   estensioni   dell'iperonimo   (Cann, 1993).  

Ad  esempio,  animale   si   riferisce  ad  un   insieme  di  entità  più  ampio  rispetto  a  

cane,   e   le   estensioni   di   cane,   quali   ad   esempio   levriero,   labrador   etc.  

rappresentano  un  sottoinsieme  delle  estensioni  di  animale.  

Altri,   spesso  nelle   discipline   computazionali,   non  distinguono   tra   le   relazioni  

intenzionali   ed  estensionali.   Le  due  posizioni   sono   spesso   considerate   le  due  

facce  di  una  stessa  medaglia,  dato  che  le  intensioni  determinano  l'insieme  delle  

estensioni.    

Che   l'iponimia   (nel   suo   senso   usuale)   non   sia   semplicemente  membro   di   un  

insieme  di  estensioni  è  dimostrato  dall'esempio  di   (Wierzbicka, 1984)):   tutti   i  

membri   dell'estensione   poliziotto,   sono   membri   dell'estensione   di   figlio   di  

qualcuno,  ma  le  intensioni  di  figlio  di  qualcuno  non  sono  necessariamente  parte  

delle  intensioni  di  poliziotto.    

Altri  problemi  si  possono  avere  considerando  l'iponimia  esclusivamente  come  

un'inclusione  di  significato,  in  cui  i  componenti  semantici  di  un  elemento  sono  

un  sottoinsieme  di  quelli  del   suo   iponimo.  Per   (Persson U. M., 1986),   trattare  

l'iponimia   come  una   relazione  di   inclusione  di   significato,   implicherebbe   che  

impiego>impiegato  rappresenta  una  relazione  di  iponimia,  dato  che  i  significati  

di   impiegato   includono   presumibilmente   quelli   di   impiego.   Un   approccio   di  

questo   tipo   contrasta   con   la   nozione   di   iponimia   come   relazione  

paradigmatica,  e  quindi  dimostra  che  il  concetto  di  inclusione  dei  significati  non  

è  definibile  al  pari  di  quello  di  inclusione  delle  classi.  

 

L'iponimia   è   trattata,   nei   modelli   associazionisti   del   lessico,   come   una  

relazione  tra  parole.  Un  problema  che  si  rileva  in  questi  approcci  è  stabilire  la  

modalità   con   cui   le   parole   si   associano   tra   loro.   I   bambini,   ad   esempio,  

sviluppano   tassonomie   concettuali   che   mettono   in   relazione   categorie  

subordinate  e  sopraordinate,  pur  non  utilizzando  queste  categorie  nello  stesso  

modo   in   cui   le   utilizzano   gli   adulti.   Il   passaggio   verso   l'organizzazione  

tassonomica   del   lessico   e   l'utilizzo   dell'iponimia,   indica   una   crescita   delle  

capacità   cognitive   e   metalinguistiche   (inclusa   la   presa   di   coscienza   verso   le  

relazioni  lessicali  paradigmatiche).  

Quindi,   se   le   relazioni  semantiche   intercorrono   fra   le  parole   (invece  che   tra   i  

concetti  che  denotano)  c'è  necessità  di  provare  che  siano  le  parole,  e  non  solo  i  

concetti,  ad  essere  in  relazione  tra  loro.  In  altre  parole,  sia  le  forme  lessicali  che  

i   significati   devono   essere   rilevanti   per   la   relazione,   se   sussiste   sia   una  

relazione  di  tipo  lessicale  che  di  tipo  semantico.  Ma  la  “forma”  sembra  essere  

meno   rilevante   per   l'iponimia,   rispetto   a   quanto   accade   per   la   sinonimia   o  

l'antonimia.  

Una  questione  del  tipo:  Definisci  un  tipo  di  animale  trova  in  gatto  una  risposta  

che  sembra  migliore  di    micio.  Questo  può  portare  a  credere  che  la  similarità  di  

registro  linguistico  sia  fondamentale  per  le  decisioni  che  vengono  assunte  nel  

definire   la   relazione  di   iponimia.   Si  può   invece  notare   che   l'utilizzo  di  parole  

appartenenti  a  un  registro  marcato  nella  domanda,  non  implica  che  la  risposta  

fornita  venga  considerata  'migliore'  se  contiene  un  antonimo  appartenente  allo  

stesso  registro  linguistico.  Parlando  di  tassonomie  sembra  normale  ricondurre  

ogni  parola  alla  sua  forma  meno  marcata,  perché   in  quel  caso   la  questione   in  

esame  non  riguarda  tanto  l'associazione  delle  parole,  quanto  l'appartenenza  a  

una  categoria.  Questo  contrasta  con   la   relazione  di  antonimia,  per   la  quale   la  

forma  è   tipicamente  più   rilevante.  Pensare   a  un  antonimo  per   sveglio   induce  

più  probabilmente  a  produrre  addormentato  che  dormiente.  Questo  avviene  sia  

perché   sveglio/addormentato   rappresentano   una   relazione   canonica,   sia  

perché  sveglio  si  accorda  alle  forme  morfo  sintattiche  di  addormentato  meglio  

di   quanto   non   faccia   con   quelle   di   dormiente.   Nel   caso   dell'antonimia,  

l'esistenza   degli   antonimi   canonici   fornisce   una   prova   chiara   di   opposizione  

lessicale.   Gli   iponimi   canonici,   se   esistono,   sono   rari.   Chiedere   ai   parlanti   di  

fornire   esempi   della   relazione   tipo-­‐di   implicherà   ricevere   risposte  

appartenenti  a  un  intervallo  limitato  di  campi  semantici  (ad  esempio  il  campo  

della   biologia).   Questo   è   molto   probabilmente   dettato   dal   fatto   che   i   campi  

selezionati   risultano   essere   fortemente   tassonomici.   Più   difficilmente   una  

scelta   di   questo   tipo   potrà   essere   imputata   al   fatto   che   le   parole   che  

appartengono   a   tali   campi   semantici   tendano   ad   occorrere   insieme   più  

frequentemente  rispetto  ad  altre  coppie  di  iponimi-­‐iperonimi.  

Riassumendo,  possiamo  sostenere  che  la  forma  parola  sia  raramente  rilevante  

per   la   selezione   degli   iponimi.   Sembra   invece   che   la   relazione   di   iponimia  

rifletta   semplicemente   le   relazioni   tassonomiche   che   si   stabiliscono   tra  

concetti  non  lessicali.  

 

Antonimia  

L'antonimia   (intendendo   con   antonimia   l'opposizione   binaria   in   generale)   è  

presumibilmente  riconducibile  all'archetipo  di  relazione  semantica  lessicale.  A  

differenza  di   quanto   avviene  per   la   sinonimia,   chiunque  potrà   convenire   che  

l'antonimia   esiste   ed   è   evidente   nel   linguaggio   naturale.   A   differenza  

dell'iponimia,   può   essere   tanto   una   relazione   tra   parole,   quanto   lo   è   tra  

concetti.    

 

La   sinonimia   e   l'antonimia   sono,   senza   dubbio,   due   delle   più   conosciute  

relazioni   semantiche   tra   termini   e   possono   essere   definite   come   parole   che  

hanno   significati   'simili'   (sinonimia)   e   parole   che   hanno   significati   'opposti'  

(antonimia).  La  questione  affascinante  riguardo  l'antonimia  è  che,  anche  se  le  

parole  antonime  sono  definite  opposte,  sono  comunque  semanticamente  molto  

simili.   (Cruse, 1986) ha   osservato   che   esiste   una   nozione   di   simultanea  

vicinanza   e   distanza   fra   l'una   e   l'altra,   e   ha   notato   che   questo   può   essere  

parzialmente   spiegato   dal   fatto   che   gli   opposti   condividono   la   stessa  

dimensione   semantica.   Ad   esempio,   la   coppia   di   antonimi   caldo   e   freddo  

condivide   la   dimensione   temperatura,   ma   a   differenza   dei   sinonimi   che   si  

vengono   a   collocare   sullo   stesso   punto,   o   su   punti   in   prossimità   dell'ideale  

linea   che   rappresenta   la   dimensione   (due   termini   come   caldo   e   bollente   si  

troveranno   vicini   su   questa   scala),   termini   antonimi   si   collocheranno   agli  

estremi   opposti   della   scala.   I   termini   legati   da   relazione   di   antonimia   sono  

quindi   simili   in   tutti   gli   aspetti,   tranne   uno   nel   quale   sono   in   opposizione  

massima  (Willners, 2001).  

 

Come  già  accennato  in  precedenza,  ci  sono  stati  moltissimi  lavori  sugli  aspetti  

linguistici   e   cognitivi   dell'antonimia   e   della   sinonimia   (Lehrer A. L., 1982);  

(Cruse, 1986);  (Walter G. Charles, 1989).  Entrambe  le  relazioni  hanno  avuto  un  

ruolo  particolare  nell'area  della  semantica  distribuzionale,  che  investiga,  come  

vedremo  meglio   nel   capitolo   successivo,   la  modalità   con   cui   la   distribuzione  

statistica  delle  parole  nei  contesti  può  essere  utilizzata  per  la  modellazione  del  

significato  semantico.  

Le   relazioni   di   antonimia   sono   definite   dalla   loro   binarietà.   Se   due   elementi  

appartengono   allo   stesso   insieme   di   contrasto   possono   essere   considerati  

automaticamente  antonimi.  Ad  esempio,  gli  esseri  umani  hanno  solo  due  tipi  di  

arti,  quindi  braccia  e  gambe  contrastano  automaticamente  grazie  al  loro  essere  

gli  unici  membri  della  categoria  arti  umani  

Abbiamo   visto   in   precedenza   che   può   esistere   la   binarietà   dettata  

dall'opposizione   scalare,   in   cui   due   elementi   condividono   tutte   le   proprietà  

tranne   una,   per   la   quale   presentano   caratteristiche   diametralmente   opposte.  

La  natura  binaria  della  negazione  (si/no)  conduce  al  terzo  tipo  di  binarietà.  Per  

lingue   morfologicamente   ricche,   termini   opposti   possono   essere   creati  

attraverso   morfologia   negativa,   come   ad   esempio   in   blu/non-­‐blu   o  

logico/illogico.  

Esiste  anche  la  binarietà  fine  a  sé  stessa.  In  casi  come  questo,  tre  elementi  sono  

disponibili  per  il  contrasto,  ma  due  fra  questi  sono  privilegiati  come  antonimi.  

Quindi,  mentre   felice   è   in  contrasto  con   triste   e  arrabbiato,   sembra  avere  più  

caratteristiche   in   comune   con   triste.  Mentre   felice/arrabbiato   è   un   contrasto  

utile   in   alcuni   contesti,   in   un   contesto   neutro   felice   e   triste   vengono   favoriti  

come  opposti.  

Nonostante  la  relazione  di  antonimia  sia  reciproca,  i  membri  di  una  coppia  di  

antonimi   possono   non   mostrare   distribuzione   simmetrica   nei   contesti  

linguistici   o   nei   comportamenti   d'uso.   Questo   si   evidenzia   nei   task   di  

associazione  lessicale,  in  cui  una  parola  u  può  evocare  il  suo  antonimo  v,  ma  v  

può  non  evocare  u.  

Alcuni   linguisti   teorici   hanno   sfruttato   la   tendenza   degli   antonimi   a   co-­‐

occorrere  (e  a  farlo  in  maniera  preferenziale  in  costruzioni  di  tipo  simmetrico)  

per   spiegare   il  modo   in   cui   il   parlante   acquisisce   la   conoscenza  del   fatto   che  

due  parole  siano  antonimi.    

(Fellbaum, 1995)  ha  identificato  un  insieme  di  questo  tipo  di  costruzioni,  quali  

ad  esempio:  

•  x  e  y  organizzazioni  private  (pubbliche)  e  pubbliche  (private)  

•  da  x  a  y  Da  dietro  (davanti)  a  davanti  (dietro)  

•  x  o  y  tutte  le  lingue,  vive  (morte)  o  morte  (vive)  

In   queste   costruzioni   x   e   y   hanno   distribuzione   simmetrica   e,   in   qualche  

maniera,   possono   essere   invertite   nel   testo.   Sussiste   il   caso   in   cui   non   ci   sia  

possibilità   di   invertire   termini   di   questo   tipo   nel   testo,   quando   uno   dei   due  

termini  risulta  semanticamente  marcato  in  relazione  all'altro.  

 La  marcatezza  è  una  delle  maggiori   fonti  di  asimmetria  distribuzionale  nelle  

relazioni   antonimiche.   Nonostante   la   relazione   di   antonimia   sia   logicamente  

simmetrica,  le  prove  fornite  dall'associazione  di  termini  indicano  che  relazioni  

antonimiche  specifiche  possono  essere  memorizzate  in  maniera  direzionale.  

Molti   degli   studi   effettuati   sull'opposizione   lessicale   si   sono   focalizzati   nel  

definire   e   differenziare   diversi   sottotipi   di   opposti.   Le   tassonomie  di   opposti  

definite  da  (Lyons, 1977)  e  (Cruse, 1986)  sono  certamente  le  più  citate,  quindi  le  

categorie  e  definizioni  che  hanno  individuato  sono  considerate  'standard'.    

(Lyons, 1977)   ad   esempio,   restringe   l'utilizzo   del   termine   antonimo   al  

sottoinsieme  degli  antonimi  che  sono  gradabili  e  contrari.  Certamente  contrari  

gradabili   (quali,   ad   esempio,   grande/piccolo,   buono/cattivo   sembrano  

particolarmente   rappresentativi   del   fenomeno   di   contrasto   lessicale   binario.  

Un  predicato  può  essere  considerato  gradabile  se  descrive  una  proprietà  che  

si  può  manifestare  a  un  grado  maggiore  o  minore.  Termini  gradabili  possono  

essere   associati   con   modificatori   di   grado   (come   molto   o   leggermente)   e  

possono  occorrere   in   costruzioni   comparative  e   superlative.  Quindi,   aggettivi  

quali   lungo  o  produttivo   sono  gradabili,  mentre  aggettivi  come  estinto,  non   lo  

sono.    

 

•  Questa  giornata  è  stata  molto  lunga  e  molto  produttiva  

•  Questa  giornata  è  stata  più  lunga  e  più  produttiva  di  quella  di  ieri  

 

•  !  Quell'animale  è  molto  estinto  

•  !  Quell'animale  è  più  estinto  dell'altro  

 

Gli   opposti   gradabili   presentano,   tipicamente,   opposizione   contraria,   il   che  

significa   che   asserire   uno   dei   due   implica   necessariamente   negare   l'altro.   In  

altre  parole,  u  e  v  sono  in  opposizione  contraria  nel  caso  in  cui,  se  X  è  u,  allora  

non  è  v.  

La   caratteristica   chiave   dell'opposizione   contraria   consiste   nel   fatto   che  

l'implicazione  può  essere  effettuata  in  modo  che  un'asserzione  di  u  implichi  la  

negazione  di  v,  ma  che  la  negazione  di  u  non  implichi  l'asserzione  di  u.  

Ad  esempio:  

 

•  Il  morfema  è  lungo  !  Il  morfema  non  è  corto  

•  !  Il  morfema  non  è  lungo  !  Il  morfema  è  corto  

 

L'implicazione   in   questa   seconda   frase   non   sussiste,   perché   il   morfema   in  

questione   non   è   lungo,   ma   può   non   essere   corto,   può   essere   di   lunghezza  

media.  

L'antonimia,   nel   suo   senso   più   ampio,   si   focalizza   in   modo   particolare   sui  

contrasti  che  sono  simmetricamente  collocati  su  una  scala,  come  caldo/freddo,  

tanto   che   (Lehrer A. L., 1982)   si   riferiscono   ai   contrari   gradabili   simmetrici  

come  agli  antonimi  perfetti.  

Gli   insiemi   di   contrasto   con   membri   gradabili   non   presentano   membri  

assolutamente   incompatibili.   (Lyons, 1977)   fornisce   l'esempio  

eccellente/buono/normale/pessimo/atroce.   In   questo   caso   i   membri   sono   co-­‐

iponimi,  come  in  altri  insiemi  di  contrasto,  ma  i  confini  tra  i  termini  sono  labili,  

tanto   che   l'uno   sfuma   dentro   l'altro.   Si   hanno   quindi   set   di   contrasto   che  

coinvolgono  elementi  gradabili  che  non  presentano  relazione  contrarie.  

(Lyons, 1977)  definisce  l'antonimia  complementare  sulla  base  della  relazione  di  

implicazione  tra  i  termini  di  una  coppia  di  antonimi.  Se  X  è  u,  allora  X  non  è  v  e  

se  X  non  è  u,  allora    X  è  v.  Ad  esempio,  dire  che  il  mostro  è  vivo   implica  che  il  

mostro  non  sia  morto,  e  dire  che  il  mostro  è  morto  implica  che  il  mostro  non  sia  

vivo.  Identificare  gli  antonimi  complementari  nel  linguaggio  è  particolarmente  

complesso,  dato  che   i  complementari  possono,   talvolta,  essere  utilizzati  come  

contrari   e   viceversa.   Per   usare  un   esempio  di   (Palmer, 1981),   si   può  dire   che  

qualcuno   è  più  morto  che  vivo,   rendendo  una   coppia   di   aggettivi   tipicamente  

non  gradabili,  gradabili  in  questo  contesto  d'uso  e  rendendo  quindi  complessa  

la  segmentazione  dei  campi  assunti  nella  definizione  di  complementarietà.   In  

oltre,   alcune   coppie   sono  gradabili  ma   la  negazione  di  uno  dei  due   termini   è  

tipicamente   interpretata   come   l'asserzione   dell'altro.   Dire   ad   esempio   che  

'qualcuno  non  è  disonesto   implica  che  quel  qualcuno  sia  onesto'.  (Cruse, 1986)  

caratterizza   questi   come   complementari   gradabili.   In   molti   casi,   uno   dei  

complementari  gradabili  è  più  gradabile  dell'altro.    

In   opposizione   privativa   ,   un   termine   è   definito   dall'assenza   di   qualcosa   e  

l'altro  è  definito  dalla  presenza  della   stessa  caratteristica.  Quando  pulito   (nel  

senso   di   'assolutamente   privo   di   sudicio')   è   in   opposizione   a   sporco   (che  

implica   presenza   di   sudicio)   esiste   un'opposizione   complementare   perché  

sono  possibili   solo  due  condizioni:  avere   il   sudicio  o  non  averlo.  Ma  se  pulito  

viene  usato  nel  senso  di   'relativamente  privo  di  sudicio',  allora  si  può  trovare  

in  opposizione  con  sporco  nel  senso  di  'relativamente  dotato  di  sudicio',  il  che  

rende   l'opposizione  un'opposizione  di   contrari.   In  altri   casi  gli   aggettivi   sono  

naturalmente  complementari  o  contrari,  ma  l'utilizzo  diverso  che  ne  possiamo  

fare  indica  un  diverso  senso  dell'aggettivo.  Ad  esempio  vivo/morto  descrivono  

uno   stato   complementare  ma   se   vengono  utilizzati   come  gradabili   (come  nel  

caso   di   molto   vivo)   la   natura   della   loro   relazione   di   antonimia   cambia,  

diventando  contrarietà.  

 Figura  2.1:  Tipologie  di  antonimia  

 

Semantica  Distribuzionale  

 

Il   termine   “Semantica  Distribuzionale”   (Sahlgren, 2006)  definisce  una   famiglia  

di   approcci   all'analisi   del   significato   (con   particolare   attenzione   alla  

dimensione   lessicale)   nati   in   linguistica   computazionale   e   nelle   scienze  

cognitive.   Tali   modelli   condividono   una   prospettiva   empiristica   e   si   basano  

sull'ipotesi   che   la   distribuzione   statistica   delle   parole   nei   contesti   giochi   un  

ruolo  determinante  nel  caratterizzare  il  loro  comportamento  semantico.    

Al  di   là  di  questa  assunzione  condivisa,   i  modelli  di  semantica  distribuzionale  

differiscono   per   le   tecniche   matematiche   e   computazionali   impiegate   per  

estrarre  e  modellare  le  statistiche  di  co-­‐occorrenza  delle  parole  nei  corpora  e  

per  le  proprietà  semantiche  che  cercano  di  rappresentare  distribuzionalmente.  

Nonostante   queste   differenze,   tuttavia,   si   tratta   di   un   modello   generale   del  

significato   lessicale,   che   formula   ipotesi   precise   e   verificabili  

sperimentalmente   sul   formato  delle   rappresentazioni   semantiche  e   sul  modo  

in  cui  vengono  costruite.  

 

Nel  paradigma  distribuzione  della  rappresentazione  semantica,  il  lessico  viene  

concepito  come  uno  spazio  metrico  i  cui  elementi  -­‐  le  parole  -­‐  sono  separate  da  

distanze   che   dipendono   dal   loro   grado   di   similarità   semantica.   Quest'ultima  

viene   misurata   attraverso   distribuzioni   statistiche   di   co-­‐occorrenza   delle  

parole   nei   testi,   assumendo   come   principio   epistemologico   fondamentale   la  

cosiddetta  ipotesi  distribuzionale,  secondo  la  quale  due  parole  sono  tanto  più  

simili  dal  punto  di  vista  semantico,  quanto  più  tendono  a  ricorrere  in  contesti  

linguistici   simili.   L'ipotesi   distribuzionale   è   correlata   alle   “discovery  

procedures”   ,   procedure   tipiche   della   tradizione   strutturalista   americana,    

pensate  per  produrre  automaticamente  la  corretta  grammatica  di  una  lingua  a  

partire   da   un   corpus.   Più   in   generale,   l'ipotesi   distribuzionale   assume   come  

chiave   fondamentale  per  esplorare   le  proprietà  paradigmatiche  del   lessico   la  

ricostruzione  dei  rapporti  sintagmatici  che  intercorrono  tra  i  suoi  elementi  nei  

contesti  linguistici.    

Questo   modello   trova   una   caratterizzazione   fondamentale   nelle   parole   del  

linguista  inglese  (Firth, 1957):  You  shall  know  a  word  by  the  company  it  keeps.  A  

livello  cognitivo,  questo  corrisponde  a  un  modello  del   lessico  mentale   in  cui   i  

significati   non   sono   organizzati   come   i   sensi   di   un   dizionario,   ma   secondo  

rappresentazioni  contestuali,  come  descritto  da  (Charles, 2000):  “an  abstraction  

of  information  in  the  set  of  natural  linguistic  context  in  which  a  word  occurs”.  

Nonostante   la  sua   lunga  storia,   l'ipotesi  distribuzionale  ha  guadagnato  nuovo  

slancio  grazie  all'attuale  disponibilità  di  corpora  testuali  di  grandi  dimensioni  

e   di   tecniche   statistiche   più   sofisticate   per   l'estrazione   degli   schemi  

distribuzionali   dei   lessemi.   Questo   ha   permesso   di   concretizzare   l'ipotesi  

distribuzione   in  modelli   computazioni  per   la   costruzione  di   spazi   semantico-­‐

lessicali,   che   sono   stati   poi   applicati   alla   simulazione   di   diversi   aspetti   della  

competenza   semantica.   Le   rappresentazioni   semantiche   basate   sugli   spazi  

distribuzionali   sono   state   utilizzate   per   modellare   la   selezione   di   termini  

sinonimi   (Thomas K Landauer, 1997),   priming   (Michael N Jones, 2006)   e  

comprensione   della   metafora   (Kintsch, Metaphor comprehension: A

computational theory, 2000).  

Quello  che  accomuna  le  differenti  implementazioni  computazionali  dell'ipotesi  

distribuzionale   è   l'assunto   che   quantificare   la   similarità   semantica   tra   due  

parole   sia   equivalente   a   valutare   la   misura   in   cui   si   equivalgono   i   contesti  

linguistici   in   cui   tali   parole   ricorrono.   I  modelli   possono   comunque   differire  

per   vari   parametri,   legati   tipicamente   ai   diversi   fini   teorici   e   applicativi   di  

riferimento  per  ciascun  modello.  

La   nozione   di   spazio   semantico   si   basa   su   un'analogia   con   lo   spazio  

geometrico,   il   contenuto   semantico   di   una   parola   è   rappresentato   dalla   sua  

posizione  in  uno  spazio  definito  da  un  sistema  di  coordinate,  determinato  dai  

contesti   linguistici   in   cui   tale   parola   può   ricorrere.   Alla   base   dei   modelli   di  

semantica  distribuzione  risiede  l'idea  che  due  parole  che  tendono  a  combinarsi  

con   elementi   linguistici   simili   si   collocano   anche   in   punti   dello   spazio  

semantico   più   vicini   rispetto   a   quelli   occupati   da   parole   che   invece   si  

distribuiscono  in  maniera  diversa  nel  testo.  Questa  assunzione  è  formalizzata  

rappresentando   ogni   parola   come   un   vettore   a   n   dimensioni,   ognuna   delle  

quali  registra  il  numero  di  volte  in  cui  la  parola  in  esame  compare  in  un  certo  

contesto.  Ogni  parola  da  esaminare  viene  quindi  rappresentata  come  una  riga  

di   una  matrice   in   cui   le   colonne   corrispondono   al   numero   di   volte   in   cui   la  

parola  viene  trovata  in  un  determinato  contesto.    

 

I  modelli  computazionali  di  semantica  distribuzionale  presentano  differenze  in  

termini   della   nozione   di   contesto   che   adottano.   La   versione   più   comune   di  

questi  modelli  è  costituita  da  vettori  che  che  registrano  co-­‐occorrenze  di  parole  

in   un   testo.   Affinché   sia   possibile   determinare   la   posizione   di   due   parole,   è  

necessario   comparare   i   loro   vettori   rispetto   a   tutte   le   dimensioni   che   li  

compongono.  Maggiore  è   il   numero  di  dimensioni   in   cui   i   vettori  presentano  

valori  simili,  maggiore  è  la  loro  vicinanza  nello  spazio  e,  in  base  all'assunto  di  

fondo  dell'ipotesi  distribuzionale,   la  similarità  semantica  delle  corrispondenti  

parole.   Una   delle   misure   usate   più   comunemente   per   misurare   la   vicinanza  

spaziale   tra   due   vettori   è   il   coseno   dell'angolo   che   essi   formano.   Se   i   vettori  

sono   geometricamente   allineati   su   sulla   stessa   linea,   nella   stessa   direzione,  

l'angolo   che   formano   misura   0°   e   il   coseno   misura   1,   che   indica   massima  

similarità.   Se   i  due  vettori   invece   sono   indipendenti,   il   loro  angolo  è  vicino  a  

90°  e  il  coseno  di  90°  è  uguale  a  0,  il  che  indica  assenza  di  similarità.    

 Figura  3.1:  Distanza  tra  termini  rappresentati  come  vettori  

 

Nella  figura  precedente,  ad  esempio,  si  ha  distanza  massima  tra  i  termini  cane  

e  gatto,  che  risultano  ortogonali  in  quanto  formano  tra  loro  un  angolo  di  $90°,  

che   implica   assenza   di   similarità.   Il   vettore   rappresentativo   del   termine  

levriero   è   più   vicino   a   cane   (forma   infatti   con   il   vettore  di   cane   un   angolo  di    

$15°  rispetto  al  vettore  di  gatto,  con  il  quale  forma  un  angolo  di  $75°.  Il  coseno  

dell'angolo  tra  i  vettori  di  cane  e  levriero  misura  0.96,  che  essendo  un  numero  

molto  vicino  a  1,   indica  alta  similarità   tra   i  due   termini.   Il   coseno  dell'angolo  

tra   i   vettori   di   levriero   e   gatto,   invece,   misura   0.25,   che   indica   una   bassa  

similarità  tra  i  due  termini.  

 

I  modelli  di  semantica  distribuzionale  definiscono  il  significato  di  una  parola  in  

base   alla   posizione   che   questa   occupa   all'interno   dello   spazio  

multidimensionale   determinato   dalla   base   contestuale.   Questi   modelli  

adottano   quindi   un   modello   di   rappresentazione   semantica   diametralmente  

opposto  rispetto  a  quello  tipico  della  tradizione  linguistica  e  cognitiva,  fondato  

sull'utilizzo   di   un   metalinguaggio   formale   costituito   da   strutture   simboliche  

quali  reti  semantiche,   tratti  etc.   Il  vettore  che  rappresenta  una  parola  non  ha  

nessun   valore   semantico   intrinseco   ma   viene   utilizzato   solo   al   fine   di  

determinare  la  posizione  della  parola  stessa  nello  spazio  e  la  distanza  rispetto  

alle   altre  parole.   Il   significato  deriva   solo  dalle   configurazioni  dei  punti  nello  

spazio,   collocati   secondo   rapporti   proporzionali   al   loro   gradi   di   similarità  

distribuzionale.   Le   dimensioni   che   costituiscono   il   vettore   non   sono  

direttamente   interpretabili,   né   associabili   a   simboli   concettuali,   ma  

corrispondono  a  tratti  tipici  delle  rappresentazioni  semantiche  tradizionali.    

 

I  modelli  distribuzioni  differiscono  anche  dai  modelli  relazionali  basati  su  reti  

semantiche   (Quillian, 1967)   o   su   reti   lessicali,   quali   ad   esempio   WordNet  

(Fellbaum, WordNet: An electronic lexical database, 2001).   Gli   elementi   dello  

spazio   sono   parole   e   non   entità   concettuali   o   sensi,   come   avviene   nelle   reti  

semantiche.   Inoltre   in  questi  modelli   il   contenuto   semantico  di   un   lessema  è  

definito   solo   in   termini   di   similarità   distribuzionale,   tradotti   in   termini   di  

distanze   nello   spazio.   La   differenza   più   sostanziale   risiede   quindi   nelle  

relazioni   che   le   legano.   Le   connessioni   tra   i   nodi   delle   reti   semantiche   sono  

distinte  sul  piano  qualitativo  (iperonimia,  meronimia,  etc.),  inoltre,  nonostante  

ci  siano  stati  molti  tentativi  per  definire  metriche  per  calcolare  la  distanza  fra  

due   nodi   concettuali   di   una   rete,   la   rete   mantiene   una   struttura  

intrinsecamente   discreta.   Gli   spazi   di   parole   hanno,   invece,   una   struttura  

puramente   quantitativa,   dato   che,   parallelamente   a   quanto   avviene   nello  

spazio  geometrico,   l'unica  metrica  da  considerare  è  quanto   sono  distanti  due  

parole.  

 

Un   aspetto   importante   della   competenza   lessicale   catturato   dai   modelli  

semantico-­‐distribuzionali,   è   costituito   dai   giudizi   di   similarità   semantica   tra  

parole.  Maggiore  è  il  valore  del  coseno,  minore  è  la  distanza  tra  le  due  parole  

nello   spazio   distribuzionale.   Parole   più   simili   dal   punto   di   vista   semantico  

(come   ad   esempio  animale   e   cane)   riporteranno   valori   di   coseno   più   elevati  

rispetto   a   parole   che   non   hanno   similarità   semantiche.   L'ipotesi  

distribuzionale   trova   quindi   corrispondenza   con   le   intuizioni   semantiche   dei  

parlanti  e  la  similarità  di  significato  tra  due  termini  lessicali  può  essere  definita  

attraverso  la  loro  proiezione  in  uno  spazio  costruito  su  base  distribuzionale.  

 Le   rappresentazioni   lessicali   basate   su   spazi   distribuzionali   possono   essere  

utilizzate  per  la  modellazione  di  vari  tipi  di  evidenza  comportamentale  legata  

alla   distanza   semantica   tra   le   parole   (ad   esempio   in   compiti   di   priming  

semantico   (Jones, 2006)   o   di   riconoscimento   di   parole   (McDonald, 2001))   in  

modo   più   accurato   di   quanto   avvenga   utilizzando   modelli   basati   sul   lessico  

basati  su  rappresentazioni  simboliche  con  reti  lessicali  (ad  esempio  il  già  citato  

WordNet).  

 La   semantica   distribuzionale   offre   anche   un   interessante   punto   di   vista   nel  

rapporto   tra   significato   e   contesto.   Secondo   una   tradizione   consolidata   nelle  

scienze  cognitive  e  in  linguistica,  rappresentare  il  contenuto  semantico  di  una  

parola   consiste   nella   sua   proiezione   su   un'ontologia   di   simboli   concettuali.  

Nell'ambito   della   rappresentazione   della   conoscenza   e   della   linguistica  

computazione,   per   ontologia   si   intende   la   rappresentazione   in   linguaggio  

formale  di  un   sistema  di   categorie   concettuali.  Nel   caso  della  descrizione  del  

lessico,   le   ontologia   sono   sistemi   di   simboli   che   rappresentano   il   contenuto  

semantico   dei   lessemi.   Diversi   significati   di   una   stessa   parola,   vengono  

rappresentati   da   diversi   elementi   dell'ontologia,   mentre   l'architettura   del  

sistema   di   concetti   si   fa   carico   delle   relazioni   inferenziali   tra   i   diversi   sensi  

delle   parole.   Quello   che   caratterizza   maggiormente   questo   tipo   di  

rappresentazioni  è  che  i  significati  vengono  modellati  come  entità  indipendenti  

dal  contesto    

   

 Il   significato   lessicale   è   soggetto   a   processi   di   acquisizione,   modulazione   e  

cambiamento,   ma   questi   aspetti   sono   indipendenti   dal   modo   in   cui   si  

rappresenta   l'informazione   semantica,   che   viene   poi   usata   e   applicata   nei  

contesti.   Una   conseguenza   di   questo   paradigma   è   la   difficoltà   delle  

rappresentazioni   di   tipo   simbolico   a   modellare   processi   dinamici   che   si  

realizzano   in   contesti   testuali   concreti.   I   sensi   delle   parole   sono   realtà  

multidimensionali,   dai   confini   incerti   e   sottodeterminatiì   che   difficilmente   si  

riescono   a   proiettare   su   sistemi   di   simboli   concettuali   non   sufficientemente  

adeguati  a  rappresentarne  la  complessità  strutturale  e  la  variabilità.    

 La  rappresentazione  lessicale,  per  essere  soddisfacente,  deve  essere  in  grado  

di   descrivere   la   natura   proteiforme   del   lessico   e   delle   sue   dinamiche  

dipendenti  dai  rapporti  che  si  creano  tra  i  lessemi  sull'asse  sintagmatico,  come  

descritto  da  (Pustejovsky, 1995).  

Le   ontologie   di   simboli   concettuali   rappresentano   il   contesto   in   maniera  

essenzialmente   discriminativa,   agendo   come   fattore   di   disambiguazione   che  

permette   la   selezione,   all'interno   del   repertorio   di   sensi   di   una   parola,   del  

significato  appropriato  per  una  determinata  situazione  di  utilizzo.  La  metafora  

dello   spazio   di   parole   ribalta   del   tutto   questa   prospettiva,   assegnando   al  

contesto   un   ruolo   costitutivo   del   significato.   In   questo   modo   il   contenuto  

informativo  di  una  parola  è   radicato  nei   contesti   linguistici  da  cui  emerge.  Si  

ottiene  quindi  un  modello  di  rappresentazione  semantica  sensibile  al  contesto  e  

dinamica,   che  offre  prospettive  nuove  nella   re-­‐impostazione  del   rapporto   tra  

rappresentazione  del  significato  e  modellazione  delle  sue  dinamiche.  

 

La  semantica  distribuzionale  applicata  allo  studio  delle  relazioni  

di  iponimia  e  antonimia  

 

I   modelli   distribuzionali   caratterizzano   fenomeni   di   similarità   semantica   tra  

parole   vicine   nello   spazio   distribuzionale,   ma   non   rappresentano   i   tipi   di  

relazioni   semantiche   che   intercorrono   tra  parole   (cane   è   simile   ad  animale   e  

gatto,  ma  con  relazioni  diverse).    Questo  problema  si  ha  anche  nel  cercare  di  

trattare  relazioni  paradigmatiche  quali  l'iperonimia  e  l'antonimia.  

Problematiche  rilevate  

Nei  modelli  distribuzionali,  le  parole  sono  collocate  in  spazi  semantici  comuni,  

in  base  alle  loro  rappresentazioni  contestuali;  la  distanza  tra  parole  è  misurata  

tenendo   conto   della   similarità   semantica.   Tale   distanza   è   una   relazione  

simmetrica:   se  una  parola,  A,   è   vicina  a  una  parola  B   nello   spazio   semantico,  

questo   implica  che  B   sia  vicina  ad  A.   Il  modello  non  riesce  a  caratterizzare   le  

diverse   proprietà   semantiche   delle   relazioni   che   legano   le   parole   vicine.   La  

distanza   tra   le   parole   è   poco   funzionale   nel   descrivere   relazioni   di   tipo  

asimmetrico,   come   l’iponimia.   Considerando,   ad   esempio,   la   coppia   animale-­‐

cane,   legata  dalla  relazione  di   iponimia,  si  può  assumere  che,  se   l’essere  cane  

implica   l’essere   animale,   l’essere   animale   non   implica   l’essere   cane,   essendo  

animale   un   termine   più   ampio   di   cane.   Gli   iperonimi   sono   termini  

semanticamente   più   ampi   rispetto   ai   loro   iponimi   a   livello   estensionale,  

(animale  si  riferisce  a  un  insieme  più  ampio  di  entità  rispetto  a  cane).  A  livello  

intensionale,  invece,  l'iponimo  di  un  termine  risulta  essere  più  informativo  del  

suo  iperonimo  (cane  ha  proprietà  più  informative  rispetto  a  quelle  di  animale,  

si  può  assumere  infatti  che  per  cane  siano  vere  proprietà  non  vere  per  tutti  gli  

animali,   es.   abbaiare),   quindi   i   sopraordinati   risultano   meno   informativi  

rispetto  ai  concetti  di  livello  base.    

Se   si   immaginano   i   concetti   organizzati   in   una   gerarchia   di   categorie,   che   va  

dall'estremamente   generico   allo   specifico,   possiamo   pensare   che   la   classe  

generica   comprenda   un   alto   numero   di   elementi.   Le   categorie   più   specifiche  

permettono  maggiore   accuratezza  nella   categorizzazione  dei  membri:   sapere  

che   qualcosa   è   un   cane   ci   permette   di   inferire   una   serie   di   proprietà   di  

quell’elemento.  Di  tutte  le  possibili  categorie  in  una  gerarchia,  il  livello  base  è  il  

livello  intermedio,  compromesso  tra  l’accuratezza  della  classificazione  data  dal  

livello   più   generico   e   il   potere   predittivo   del   livello   più   specifico (Murphy,

2003).   Le   categorie   di   base   rappresentano   il   livello   di   caratterizzazione   più  

naturale   (Murphy G. L., 1997)   dato   che   sono   quelle   prodotte   più   spesso,  

riconosciute  più  velocemente  e  apprese  per  prime.  

Recentemente   sono   stati   proposti   diversi   modelli   distribuzionali   per   la  

rappresentazione   di   relazioni   asimmetriche   ( (Weeds, 2004), (Clarke, 2009)),  

basati  sull’ipotesi  di  inclusione  distribuzionale,  utilizzata  anche  da  (Kotlerman,

2010)  per  l’identificazione  del  Lexical  Entailment  (implicazione  lessicale).  

Il  lexical  Entailment  modella  relazioni  quali  si  riferisce  a  e  implica  ed  è  parte  di  

un   quadro   teorico   più   generale   per   l’inferenza   semantica,   chiamato   Textual  

Entailment.    

Textual   Entailment   (implicazione   testuale)   è   un   paradigma   di   modellazione  

per  l’inferenza  semantica  emerso  in  anni  recenti  (Giampiccolo, 2009).  Essendo  

un   quadro   teorico   generico,   può   essere   utilizzato   in   un   ampio   spettro   di  

applicazioni  quale  l’estrazione  di  informazione  e  il  recupero  di  documenti.  

Il  Textual  entailment  è  una  relazione  direzionale  tra  due  frammenti  di  testo,  t  e  

h.   t   implica  h   se   il   parlante   che   legge   t   inferirà   che  h   è  molto  probabilmente  

vero  (Dagan, 2006).  Ad  esempio,  dalla  frase  seguente:  ‘Sono  stati  venduti  tutti  i  

biglietti  per  il  concerto  dei  Beatles  a  Liverpool’,  possiamo  dedurre  che  i  Beatles  

abbiano  tenuto  un  concerto  a  Liverpool.      

Un   elemento   lessicale   e   implica   un   altro   elemento   a   se   esistono   alcuni   testi  

naturali   (non  aneddotici)  che  contengono  e   che   implica  \texit{a   in  modo  tale  

che  riferimenti  al  significato  di  a  possano  essere  implicati  solo  dal  significato  di  

e  nel  testo.  Un  sistema  di  questo  tipo  si  baserà  quindi  sulla  regola  e!textit{a.  

Ad   esempio,   la   regola   produrre!   deporre   è   valida   in   contesti   in   cui   il  

produttore  è  gallina  e  il  prodotto  è  uovo.  

Quindi  il  lexical  entailment  è  una  relazione  concettualmente  più  vasta  rispetto  

a   quella   di   iperonimia,   dato   che   l’inferenza   può   essere   determinata   dalla  

sinonimia,  dall’iperonimia  e  dalla  meronimia.  

 

Per   quanto   riguarda   la   relazione   di   antonimia,   al   momento   non   si   rilevano  

tentativi   di   successo   nel   distinguere   la   relazione   di   sinonimia   da   quella   di  

antonimia,  utilizzando  modelli  distribuzionali  standard.  Probabilmente  questo  

è   dovuto   alla   similarità   dei   contesti   d'occorrenza   di   sinonimi   ed   antonimi.  

(Mohammad, 2008)   ad   esempio,   hanno   rilevato   che   le   misure   di   similarità  

distribuzionale   tipicamente   falliscono  nel  distinguere   i   sinonimi  da   coppie  di  

parole   contrastive.   Hanno   infatti   verificato   che,   applicando   una   misura   di  

similarità  semantica  a  un  insieme  di  coppie  di  antonimi  altamente  contrastanti,  

a   coppie   di   sinonimi   e   a   coppie   di   parole   legate   da   una   relazione   casuale,   le  

coppie   legate   da   relazione   di   antonimia   e   le   coppie   legate   da   relazione   di  

sinonimia,  tendevano  ad  avere  una  similarità  distribuzionale  media  più  simile,  

rispetto  a  quanto  avveniva  tra  antonimi  e  coppie  di  parole  legate  da  relazioni  

casuali  e  sinonimi  e  coppie  di  parole  legate  da  relazioni  casuali.  

 E'  stato  anche  provato  che,  in  media,  le  coppie  di  antonimi  hanno  un  grado  di  

similarità   distribuzionale   maggiore   rispetto   ai   sinonimi.   (Miller, 1991)   ha  

effettuato  un  esperimento  di  sostituibilità,  nel  quale  la  relazione  tra  similarità  

semantica   e   contestuale   è   stata   investigata   per   coppie   di   nomi.   Le   coppie  

utilizzate   presentavano   diversi   gradi   di   similarità   semantica.   La   similarità  

semantica   è   stata   valutata   utilizzando   classificazioni   soggettive;   la   similarità  

contestuale   stimata   utilizzando   il   metodo   di   ordinamento   dei   contesti.   Il  

risultato   ha   mostrato   una   relazione   lineare   inversa   tra   la   similarità   di  

significato  e   la  differenziazione  dei  contesti.   In  media,  per  parole  della  stessa  

lingua   ricavate   dalle   stesse   categorie   sintattiche   e   semantiche,   quanto   più  

spesso  due  parole  possono  essere  sostituite  negli  stessi  contesti,  quanto  più  il  

loro   significato   è   giudicato   simile.   In   base   ai   risultati   di   questo   esperimento,  

quindi,   ci   devono   essere   delle   indicazioni   contestuali   che   permettano   ai  

parlanti  di  distinguere  tra  sinonimi  ed  antonimi.  Tali  differenze,  ad  ogni  modo,  

non   vengono   catturate   dalle   attuali   misure   di   similarità   semantica,   il   che  

conduce   all'ipotesi   che   l'antonimia   e   la   sinonimia   siano   simili,   a   livello  

distribuzionale,  rendendo  difficile  utilizzare  tali  metodi  per  la  classificazione  di  

relazioni  di  antonimia.  

Data   la  particolare  condizione,  di  similarità  e  differenza,   i   lavori  di   linguistica  

computazionale   hanno   talvolta   incluso   l'antonimia   sotto   la   classificazione   di  

similarità  semantica.  Ricerche  recenti  hanno  tuttavia  imposto  una  distinzione  

rigida  tra  similarità  semantica  e  correlazione  semantica  (semantic  relatedness).  

La   correlatezza   semantica   è   un   concetto   più   generale   della   similarità  

semantica;   entità   simili   sono   semanticamente   correlate   in   virtù   della   loro  

similarità   (banca-­‐   società   fiduciaria),   ma   entità   dissimili   possono   comunque  

avere   una   relazione   semantica   quale   la   meronimia   (macchina-­‐ruota)   e  

antonimia   (caldo-­‐freddo)   o   da   una   qualsiasi   relazione   funzionale,   o   da  

frequente  associazione  nei  contesti  d’uso  (matita-­‐carta)  (Budanitsky, 2006).  

 

Gli  antonimi  appartengono  alla  seconda  e  più  ampia  categoria  di  correlatezza  

semantica   e   non   dovrebbero,   quindi,   essere   utilizzate   misure   di   similarità  

semantica  per  individuare  questo  tipo  di  relazione,  come  evidenziato  da  (Lin,

2003).   E'   stata   introdotta   una   varietà   di  misure   per   il   calcolo   della   similarità  

semantica  basate  su  corpora  che  tentano  di  identificare  similarità  semantiche  

calcolando   la   loro   similarità  distribuzionale   ( (Hindle, 1990);   (Lin D. , 1998)).  

Tali  misure  si  sono  rivelate  efficienti  nell'individuare  coppie  di  parole  legate  da  

relazione   di   sinonimia;   si   sono   rivelate   anche   molto   meno   accurate   nel  

classificare   antonimi   e   parole   dissimili,   classificandole   ripetutamente   come  

parole  semanticamente  simili.  Ad  ogni  modo,  nonostante   le  difficoltà,   ci   sono  

stati   solo   pochi   studi   effettuati   con   lo   scopo   di   distinguere   gli   antonimi   dai  

sinonimi,   al   contrario   la  maggioranza  degli   studi   effettuati   si   sono   focalizzati  

esclusivamente  sulla  relazione  di  sinonimia    o  di  antonimia.  

 

E'   quindi   possibile   effettuare   una   classificazione   relativa   alla   relazione   di  

antonimia   utilizzando   i   metodi   distribuzionali?   E'   possibile   utilizzare   tali  

metodi   per   distinguere   le   relazioni   di   antonimia  dalle   relazioni   di   sinonimia,  

pur  avendo  queste  distribuzioni  simili  nei  testi?  

 

Primi  esperimenti  di  analisi  distribuzionale  della  relazione  di  iperonimia  

Come  accennato  in  precedenza,  il  problema  più  rilevante  che  si  ha  nel  cercare  

di   individuare   le   relazioni   di   iperonimia  utilizzando  metodi  distribuzionali,   è  

dato   dal   fatto   che,   nei   modelli   distribuzionali,   la   distanza   tra   parole   viene  

rappresentata   come   una   relazione   simmetrica.   L'iperonimia   non   è   una  

relazione   simmetrica,   pertanto,   per   identificarla   in   maniera   distribuzionale,  

una  delle  strade  percorribili  consiste  nell'  individuare  una  misura  di  similarità  

direzionale   (non   simmetrica),   che   riesca   a   definire   le   caratteristiche   della  

relazione  di   iperonimia.  A   tale  proposito   sono  state   investigate   le   capacità  di  

diverse   misure   di   similarità   semantica   direzionali   nel   riconoscimento   delle  

relazioni  di  iperonimia.  Sono  state  anche  proposte  due  misure  nuove,  create  ad  

hoc  per  il  riconoscimento  e  la  classificazione  di  questa  relazione,  che  tentano  di  

implementarne  alcune  caratteristiche  fondamentali.  

Per  indagare  la  capacità  delle  misure  di  similarità  direzionali  nel  classificare  la  

relazione   di   iperonimia,   abbiamo   valutato   il   grado   di   correttezza   sia  

nell’identificare   l’iperonimo   di   un   nome   target,   che   nel   discriminare   termini  

legati   dall’iperonimia   da   termini   legati   da   relazioni   simmetriche,   come   i   co-­‐

iponimi.   Al   momento   gli   esperimenti   si   sono   svolti   sull'Inglese,   in   modo   da  

avere   una  migliore   comparabilità   con   lo   stato   dell'arte   internazionale.   Come  

descritto  nel  Capitolo  4,  i  termini  lessicali  sono  stati  rappresentati  come  vettori  

di   caratteristiche   distribuzionali   estratte   dalla   matrice   TypeDm,   derivata   da  

Distributional   Memory   (DM)   (Baroni, 2010).   DM   rappresenta   i   dati  

distribuzionali   come  un   insieme  di   tuple  pesate   ((p1,   l,  p2),  w)  dove  p1  e  p2  

sono  parole,   l  è   la  dipendenza  sintattica  che   le   lega  e  w  è   il  peso  che  stima  la  

salienza  di  quella  tupla  utilizzando  la  Local  Mutual  Information  (LMI)  calcolata  

sulla   frequenza   dei   legami.   Esempi   di   tuple   possono   essere:   ((marine   own  

bomb)  40.0)  o  ((teacher  own  bomb)  5.2).  Da  questi  esempi  è  possibile  vedere  

che  a  ogni  coppia  di  parole  legate  da  una  certa  dipendenza  sintattica,  si  associa  

il  peso  dato  dalla   frequenza  dei   legami.   Il  peso  di  marine  own  bomb  è  quindi,  

ovviamente,  maggiore  del  peso  di   teacher  own  bomb  dato  che  sarà  molto  più  

probabile  veder  co-­‐occorrere  own  bomb  con  marine  che  con  teacher.    La  Mutua  

Informazione   (MI)   è   una   misura   statistica   che   permette   di   confrontare   la  

probabilità   di   incontrare   una   coppia   di   parole   (bigramma)   rispetto   alla  

probabilità   di   incontrare   i   suoi   costituenti,   considerati   come   mutuamente  

indipendenti.   Dato   che   la  Mutua   Informazione   è   estremamente   sensibile   agli  

eventi   rari,   i   bigrammi   formati   da   hapax   avranno   un   valore   di   Mutua  

Informazione  molto  alto.  Questo  avviene  perché  la  Mutua  Informazione  tende  

a   privilegiare   i   casi   isolati   di   collocazione,   riuscendo   in   questo   modo   a  

eliminare   le   false   collocazioni,   ma   diventando   sproporzionata   nei   casi   poco  

frequenti.  La  LMI  è  una  variante  di  MI  utilizzata  per  ridurre  l’impatto  dei  dati  

poco  frequenti.    

 

TypeDm   contiene   30.693   lemmi   e   25.336   link   diretti   e   inversi   formati   da  

dipendenze  sintattiche.  

Le   misure   sono   state   valutate   su   un   corpus   in   lingua   Inglese   derivato   dal  

dataset   BLESS   ( (Baroni, How we BLESSed distributional semantic evaluation,

2011)),  che  consiste  di  triplette  che  esprimono  una  relazione  tra  concetti  target  

e   concetti   relatum.  BLESS  è   composto  da  200   concetti   target,   suddivisi   in  17  

classi   (quali   BIRD,   FRUIT   etc.).   Per   ogni   concetto   target   BLESS   include   più  

parole,   collegate   al   concetto   target   da   una   relazione   semantica.   Per   questo  

esperimento   è   stato   usato   un   sotto   corpus   derivato   da   BLESS   formato   da  

14547   tuple,   in  modo   che   il   termine   relatum   fosse   attestato   in   TypeDM   e   le  

relazioni  fossero  le  seguenti:  

 

• COORD:  il  relatum  è  un  co-­‐iponimo  del  concetto  (coccodrillo-­‐lucertola)  

• HYPER:  il  relatum  è  un  nome  che  è  iperonimo  del  concetto  (coccodrillo-­‐

animale)  

• MERO:   il   relatum  è   un  nome   che   si   riferisce   a   una   parte   del   concetto  

(coccodrillo-­‐bocca)  

• RANDOM-­‐N:   il   relatum  è  un  nome  casuale   che  non  ha   relazioni   con   il  

concetto  target,  o  ha  relazioni  che  non  sono  le  precedenti  (coccodrillo-­‐

scarpa).  

Ogni   parola   del   test   set   in   esame   è   quindi   rappresentata   come  un   vettore   di  

dati  distribuzionali  relativi  alla  parola  stessa.    

Sono   state   applicate   ai   vettori   derivati   dalle   tuple   tre  misure   direzionali   allo  

stato  dell’arte,  per  valutarne   l’abilità  nel  discriminare   l’iperonimia  dalle  altre  

relazioni  semantiche,  in  particolare  la  co-­‐iponimia  (una  misura  simmetrica).  In  

base   all’ipotesi   di   fondo,   le   misure   di   similarità   distribuzionale   dovrebbero  

attribuire   un   punteggio   più   alto   alle   relazioni   di   iperonimia,   asimmetriche   e  

direzionali.  

I   risultati   ottenuti   su   tre   misure   direzionali   allo   stato   dell'arte   sembrano  

confermare   l'ipotesi.     Innanzitutto,     tutte   le   misure   riescono   a   discriminare  

coppie   che   hanno   un   legame   semantico   da   quelle   che   non   lo   hanno.   E'   stata  

effettuata   un'analisi   dei   risultati   utilizzando   Average   Precision   (AP),   una  

misura   solitamente   utilizzata   nei   compiti   di   recupero   documenti.   Per   ogni  

misura   di   similarità   è   stata   calcolata  AP   rispetto   alle   4   relazioni   di   BLESS.   Il  

massimo   punteggio   possibile   di   AP   si   ottiene   quando   tutti   i   relata   legati   al  

target  dalla  relazione  in  esame  riportano  punteggi  di  similarità  semantica  più  

alti  rispetto  ai  relata  non  legati  al  target  da  quella  particolare  relazione  (se  in  

un  ideale  ordinamento  per  punteggio  di  similarità  semantica,   i  relata  legati  al  

target  dalla  relazione  in  esame  occorressero  tutti  ai  primi  posti).  

Confrontando   i   risultati   ottenuti   nel   valutare   le   relazioni   di   co-­‐iponimia   e  

quelle   di   iponimia   si   nota   che   tutte   le   misure   allo   stato   dell'arte   riportano  

valori  di  AP  più  alti  per  la  relazione  di  co-­‐iponimia  rispetto  a  quella  di  iponimia  

(come   è   possibile   vedere   nella   tabella   4.1)   ,   probabilmente   perché   queste  

misure   di   similarità   sono   state   concepite   per   il   riconoscimento   del   lexical  

entailment.   Questo   fa   sì   che   le   features   di   inclusione   che   usano   siano  

soddisfatte  anche  dai  coordinati.  

 

 Tabella  4.1:  Valori  di  Average  Precision  (AP)  per  le  misure  direzionali  allo  stato  dell’arte  

 

Utilizzare   misure   di   similarità   direzionali   si   rivela   quindi   essere   una   strada  

promettente  per  la  classificazione  dell’iperonimia,  ma  l’analisi  delle  misure  allo  

stato   dell’arte   mostra   che   è   possibile   migliorarle   perché   siano   accurate   nel  

riconoscimento  di  tale  relazione.    

A   tale   proposito   sono   state   sviluppate   due   nuove   misure   distribuzionali  

direzionali,   che   sfruttano   le   proprietà   linguistiche   della   relazione   di  

iperonimia.    

La  prima  misura  implementata  (invCL)  (Lenci, 2012)  è  basata  sull’idea  che  un  

termine   semanticamente   più   ampio   dovrebbe   poter   essere   trovato   anche   in  

contesti  nei  quali  il  termine  semanticamente  meno  ampio  non  è  utilizzato.  Se  v  

è  un  termine  semanticamente  più  ampio  di  u,   le  proprietà  distribuzionali  di  u  

saranno  anche  proprietà  distribuzionali  di  v,  al  contrario  ci  saranno  proprietà  

di   v   che   non   fanno   parte   delle   proprietà   distribuzionali   caratterizzanti   di   u.  

Considerando   la   coppia   di   termini   animale-­‐cane,   si   può   assumere   che   le  

proprietà  distribuzionali  di  animale   comprendano   le  proprietà  di  cane   (tra   le  

proprietà  di  animale   si  potrà   trovare,  ad  esempio,   “abbaiare”,   caratterizzante  

l'entità   cane),   ma   che   le   proprietà   di   cane   non   comprendano   molte   delle  

proprietà   di   animale   (fra   le   proprietà   di   animale   vi   sarà   ad   esempio  

“miagolare”,  che  non  è  caratterizzante  di  cane).  E'  stata  quindi  sviluppata  una  

misura   che   tiene   conto   non   solo   l’inclusione   delle   proprietà   del   termine  

iponimo   in  quelle  dell’iperonimo,  ma  anche   la  non-­‐inclusione  delle  proprietà  

dell’iperonimo  in  quelle  dell’iponimo.  

La   seconda   misura   (COL)   (Benotto, 2013)   è   basata   sull'ipotesi   che   i   termini  

superordinati   si   applicano   a   un   insieme   di   termini   che   appartengono   alla  

stessa   categoria.   Si   assume,   in   altri   termini,   che   gli   iponimi   di   un   iperonimo  

comune  formino  un  insieme  di  termini  contrastivi  in  relazione  all’iperonimo.  Si  

può  dire  che,  considerando  gli  iponimi  del  termine  animale,  termini  come  cane,  

gatto,   cavallo   formano   l’insieme   dei   termini   di   livello   più   basso   rispetto   ad  

animale   e   sono   in   contrasto   tra   loro   avendo   proprietà   diverse   e   quindi  

proprietà  distribuzionali  diverse.  Se  un  termine  v  è  semanticamente  più  ampio  

di  un  termine  u  le  proprietà  di  u  saranno  incluse  nelle  proprietà  distribuzionali  

di  v  (le  proprietà  distribuzionali  di  cane  sono  presenti  anche  tra  le  proprietà  di  

animale),  è  pur  vero  che  anche  le  proprietà  degli  altri  iponimi  complementari  a  

u   rispetto   a  v   saranno   incluse  nelle  proprietà  di  v   (considerando  gatto   come  

complementare  di  cane  rispetto  all’iperonimo  animale,  si  può  assumere  che  ci  

siano  anche  molte  proprietà  di  gatto  che  compaiono  tra  quelle  di  animale).  

Il   termine   più   vicino   all’iponimo   è   stato   individuato   utilizzando   il   coseno  

(essendo   il   coseno   la   misura   che   meglio   individua   similarità   simmetriche,  

come  quella  di  co-­‐iponimia)  che  ha  permesso  di  individuare,  per  ogni  iponimo,  

il   co-­‐iponimo   più   simile.   Si   suppone   quindi   che   l’iponimo   in   esame   e   il   co-­‐

iponimo  più  simile  a  esso  rispetto  a  v  (iperonimo  comune)  abbiano  in  comune  

molte   proprietà   distribuzionali.   Selezionare   solo   le   proprietà   del   co-­‐iponimo  

che  non  sono  caratterizzanti  dell’iponimo  in  esame  dovrebbe  dare  una  buona  

approssimazione  di  come  è  fatto  il  complementare  di  tale  termine.  

La  tabella  4.2  mostra  i  risultati  che  si  ottengono  utilizzando  queste  due  misure.  

Quello  che  si  può  vedere,  confrontando  anche  tali  dati  con  quelli  presenti  nella  

tabella   4.1,   è   che   le   due   misure   riescono   a   classificare   la   relazione   di  

iperonimia  meglio  di  quanto  facciano  le  misure  allo  stato  dell'arte  (dato  che  il  

valore  di  Average  Precision  riportato  per  l'iperonimia  è  più  alto  di  quello  che  si  

ottiene   con   le   altre   misure).   Inoltre,   queste   misure   riescono   a   discriminare  

meglio  la  relazione,  direzionale,  di  iperonimia  rispetto  a  quella,  simmetrica,  di  

coordinazione.   Questo   avviene   perché,   oltre   al   miglioramento   della  

classificazione  della  relazione  di  iperonimia,  i  valori  di  average  precision  che  si  

ottengono  per  i  coordinati  sono  più  bassi  rispetto  a  quelli  che  si  ottengono  con  

le  misure  allo  stato  dell'arte.  

 Tabella  4.2:  valori  di  Average  Precision  per  le  misure  direzionali  sviluppate  per  il  

riconoscimento  dell’iperonimia  

 

Raccolta  dati  utilizzando  Amazon  Mechanical  Turk  

Nel  corso  di  questo  progetto  di  ricerca  è  stato  effettuato  anche  un  esperimento  

di  raccolta  dati  effettuato  utilizzando  Amazon  Mechanical  Turk.  L'esperimento  

è   stato  portato   aventi   in   collaborazione   con   l'   Institute   for  Natural   Language  

Processing  dell'  Università   di   Stoccarda.   Sono   stati   raccolti   dati   per   la   lingua  

tedesca  (Università  di  Stoccarda)  e  per  la  lingua  Inglese.  

Lo  scopo  della  raccolta  consisteva  nel  proporre  a  utenti  selezionati  insiemi  di  

11   parole,   per   ognuna   delle   quali   veniva   chiesto   al   parlante   di   fornire  

l'antonimo,  l'iperonimo  e  il  sinonimo  ritenuto  più  indicato.    

I  dati  da  analizzare  sono  stati  selezionati  utilizzando  WordNet  allineati  per   le  

tre   lingue   in   esame,   utilizzando   per   tutte   e   tre   le   lingue   gli   stessi   criteri   di  

selezione.  

I   dati   per   il   tedesco   sono   stati   raccolti   da   Sabine   Schulte   im   Walde,  

dell'Università   di   Stoccarda.   Per   l'Inglese   sono   stati   seguiti   gli   stessi   criteri  

seguiti   per   il   tedesco,   per   ragioni  di   compatibilità.   In  primo   luogo   sono   state  

generate   liste   di   tutti   i   nomi,   tutti   gli   aggettivi   e   tutti   i   verbi   presenti   nel  

database  WordNet.  Si  è  quindi  calcolato  il  diverso  numero  di  sensi  per  tutte  le  

diverse  parole  nelle   liste.    L'organizzazione  del   lessico,   in  WordNet,   si  avvale  

infatti   di   raggruppamenti   di   termini   con   significato   affine,   chiamati   'synset'  

(dalla   contrazione   di   synonym   set),   e   del   collegamento   dei   loro   significati  

attraverso   diversi   tipi   di   relazioni.   All'interno   dei   synset   le   differenze   di  

significato  sono  numerate  e  definite.  Questa  rappresentazione  ha  semplificato  

la   classificazione   delle   parole   in   fasce   definite   per   numeri   di   senso.   Per   ogni  

parola  nella  lista,  poi,  è  stata  calcolata  la  frequenza  all'interno  di  un  corpus  di  

riferimento.   Per   il   tedesco,   è   stato   utilizzato   SdeWac,   un   corpus   contenente  

approssimativamente   880  milioni   di   parole   costruito   estraendo   il   testo   delle  

pagine  web  a  dominio   .de.  Per  l'inglese  è  stato  utilizzato  ukWac,  un  corpus  di  

circa   2   miliardi   di   parole,   costruito   estraendo   il   testo   delle   pagine   web   a  

dominio  .co.uk.    

Si   è   quindi   deciso   quanti   stimoli   utilizzare   per   l'esperimento.   Sono   stati  

utilizzati   99   stimoli   per   classe   di   parole,   perché   si   è   deciso   di   impostare   tre  

intervalli   di   frequenza   (ottenendo   quindi     3x3=9   categorie)   e   11   stimoli   per  

ogni   categoria.   Le   tre   fasce   di   frequenza   sono   state   così   definite:   200-­‐2999,  

3000-­‐9999   e   >10000   (nella   prima   fascia   si   hanno   quindi   parole   che   sono  

attestate  nel  corpus  con  una  frequenza  maggiore  di  200  e  minore  di  3000,  nella  

seconda  parole   che  hanno   frequenza  nel   corpus  compresa   fra  3000  e  10000,  

dove  10000  è  escluso  e  nella  terza  fascia  si  hanno  parole  con  un'attestazione  di  

frequenza  maggiore  di  10000).  I  diversi  intervalli  di  polisemia  sono  1,  2  e  >2  (il  

che  significa  che  nella  prima  fascia  ci  sono  parole  per  cui  WordNet  attesta  un  

solo   significato,   nella   seconda   fascia   parole   per   cui   WordNet   attesta   due  

significati  e  nella  terza  fascia  parole  per  cui  WordNet  attesta  da  tre  significati  

in   su).   Per   ogni   classe   semantica   (aggettivo/verbo/nome)   di   ogni   classe   di  

parole  è  stato  determinato  il  numero  di  parole  da  selezionare.    Per  effettuare  

tale   selezione   è   stata   effettuata  una  proporzione   sul   numero   totale  di   parole  

per  classe  semantica.  Ad  esempio,  se  la  classe  aggettivo  per  il  tedesco  contiene  

996   parole   distinte   e   il   numero   totale   di   tutti   gli   aggettivi   su   tutte   le   classi  

semantiche  è  8582,  dato  che  abbiamo  fissato  a  99  il  numero  di  stimoli  totali  da  

raccogliere,   vorremo   avere   99*996/8582   =   11   aggettivi   per   questa   classe  

semantica.  

 A  questo  punto,  per  ogni  classe  semantica,  intervallo  di  frequenza  nei  corpora  

e  intervallo  dato  dal  numero  di  sensi,  è  stata  effettuata  una  scelta  casuale  atta  a  

selezionare  le  parole  da  proporre.  In  ultima  analisi,  per  ognuna  delle  lingue  e  

per  ogni   categoria   semantica,  9   insiemi  di  11   termini  da  proporre  agli  utenti  

per  le  analisi.    

Le   parole   così   selezionate   sono   state   quindi   utilizzate   come   input   in   un  

esperimento   effettuato   utilizzando   Amazon   Mechanical   Turk   (MTurk),   un  

servizio  internet  di  crowdsourcing  che  permette  a  chi  lo  utilizza  (requester)  di  

coordinare  l'uso  di  intelligenze  umane  per  eseguire  compiti  che  i  computer,  a  

oggi,  non  sono  in  grado  di  fare  

L'esperimento  prevedeva  di  fornire  agli  utenti  11  parole,  9  estratte  secondo  i  

criteri  precedentemente  descritti  e  2  non-­‐parole  (cioè  parole  che  non  esistono  

realmente   nella   lingua   in   esame);   le   non   parole   sono   state   inserite   per  

verificare  che  a  eseguire  gli  esperimenti  fossero  parlanti  della  lingua  in  esame,  

che  sarebbero  stati  certamente  in  grado  di  riconoscere  le  non  parole  come  tali.  

Per  ognuna  delle  parole   l'utente   era   invitato   a   fornire  quello   che,   secondo   la  

propria  conoscenza  di  parlante,  riteneva  essere  il  miglior  candidato  sinonimo,  

iponimo  o  antonimo.    

Per   quanto   riguarda   la   sezione   dei   turkers   abbiamo   imposto   come   unico  

vincolo   l'essere   parlanti   madrelingua   Inglesi.   Quindi,   l'insieme   degli  

esperimenti  è  stato  proposto  per  l'esecuzione  dal  sistema  (AMT)  solo  a  turkers  

che  nel  profilo  di  registrazione  al  servizio  hanno  impostato  come  lingua  madre  

la   lingua   Inglese.   Questo   era   necessario   perché,   non   potendo   sapere   chi  

avrebbe  eseguito  i  vari  insiemi  di  esperimenti,  era  necessario  avere  la  garanzia  

che   sarebbero   stati,   quantomeno,   buoni   rappresentanti   della   lingua   su   cui  

sarebbero  andati  ad  operare.  

I   dati   ottenuti   secondo   i   vincoli   precedentemente   descritti   (dei   quali   è  

possibile   visionare   un   campione   nella   tabella   4.3)   sono   stati   raccolti   e  

successivamente  ripuliti  eliminando  i  dati  duplicati  (è  infatti  possibile  che  più  

di   un   utente   abbia   indicato   ad   esempio,   per   una   stessa   parola,   il   medesimo  

antonimo/sinonimo/iponimo).   Abbiamo   quindi   ottenuto   liste   di   stimoli   e  

corrispondenti   sinonimi/antonimi/iponimi,   ottenuti   in   maniera   manuale   a  

partire  dai  giudizi  degli  utenti.  

 

 Tabella  4.3:  Esempi  di  stimoli  forniti  con  relative  risposte  e  frequenza  delle  risposte  

 

Primi  esperimenti  per  il  trattamento  semantico-­‐distribuzionale  degli  antonimi  

Il   problema   più   rilevante   che   si   incontra   utilizzando   le   misure   di   similarità  

distribuzionale   per   il   riconoscimento   e   la   classificazione   della   relazione   di  

antonimia,  come  già  accennato  in  precedenza,  risiede  nel  fatto  che  antonimi  e  

sinonimi   tendono   a   distribuirsi   nel   testo   in   maniera   simile,   ovvero   ad  

occorrere   in   contesti   simili.   Si   prenda   ad   esempio   la   coppia   di   aggettivi  

antonimi  nuovo/vecchio.   E'   possibile   che   entrambi   ricorrano   in   una   frase   del  

tipo:   'Ho  perso   il  mio   cappello  nuovo',   'Ho  perso   il  mio   cappello   vecchio'   .   In  

questo   senso,   ovviamente,   si   tende   a   non   ottenere   risultati   rilevanti  

nell'utilizzo  dei  metodi  distribuzionali   per   la   classificazione  di   questo   tipo  di  

relazione  semantica.  

L'utilizzo  di  metodi  distribuzionali   appare  anche,   in  un  contesto   come  quello  

presentato  sopra,  di  difficile  utilizzo  per  l'eventuale  distinzione  di  relazioni  di  

antonimia  da  relazioni  di  sinonimia.  

A   tale  proposito,   come  effettuato  per   la   relazione  di   iperonimia,   è  necessario  

individuare  delle  peculiarità  della  relazione  di  antonimia,  che  possano  essere  

implementate  al  fine  di  distinguere  tale  relazione  dalla  sinonimia.    

In   un   primo,   semplice   esperimento,   è   stata   effettuata   e   conseguentemente  

testata,   la   seguente   ipotesi:   se   una   coppia   di   antonimi   presenta   una   forte  

similarità  distribuzionale,  perché  i  due  termini  che  la  compongono  tenderanno  

ad  occorrere  in  contesti  simili,  è  pur  vero  che  l'uno  dovrebbe  occorrere  ancora  

più   frequentemente   in  contesti   in  cui  occorre   la  negazione  dell'altro.  Se  u  e  v  

sono   due   termini   legati   da   relazione   di   antonimia,   si   assume   quindi   che   u  

occorra  più  frequentemente,  e  quindi  sia  più  simile,  a  non-­‐v  di  quanto  lo  sia  a  v.  

Ovvero,   si   assume   che,   riprendendo   l'esempio   utilizzato   in   precedenza,   non-­‐

nuovo  sia  più  simile  a  vecchio  di  quanto  non  lo  sia  nuovo.    

Per   effettuare   tale   esperimento   è   stato  utilizzato  un   corpus  di   lingua   Inglese  

costituito  dall'unione  di  tre  corpora:  ukWaC,  Wikipedia  e  BNC.  ukWaC  è  stato  

raccolto   come   descritto   nella   seziona   precedente,   il   suo   scopo   è   essere  

utilizzato   come   corpus   di   linguaggio   comune,   paragonabile,   per   quanto  

riguarda  l'eterogeneità  dei  documenti,  alle  risorse  bilanciate  tradizionali.    

BNC   (British   National   Corpus)   è   un   corpus   sviluppato   con   l'intenzione   di  

rappresentare  un'ampia  varietà  dell'Inglese  corrente,  sia  scritto  che  parlato.  Il  

corpus  è  costituito  da  100  milioni  di  parole.  Per  quanto  riguarda  Wikipedia,  il  

corpus  è  stato  ottenuto  scaricando  l'intero  contenuto  dell'enciclopedia  on-­‐line  

Wikipedia  per  la  lingua  Inglese  e  consiste  di    circa  600  milioni  di  parole.  I  tre  

corpora  sono  stati  uniti  per  crearne  uno  più  grande  perché,  come  illustrato  in  

precedenza,  i  metodi  distribuzionali  necessitano  di  grandi  quantità  di  dati  per  

essere  efficienti.  

Tutti   e   tre   i   corpora,   inoltre,   presentano   annotazioni   atte   a   descrivere   le  

categorie  grammaticali  di  ogni  termine  (Part  of  Speech,  PoS  tagging).  

Il   metodo   è   stato   testato   su   due   diverse   liste   di   antonimi   precedentemente  

selezionati.  La  prima  lista  è  stata  ottenuta  attraverso  la  raccolta  dati  effettuata  

utilizzando   Amazon   Mechanical   Turk   descritta   nel   paragrafo   precedente.   La  

seconda  lista  utilizzata  è  basata  su  un  dataset  reso  disponibile  da  (Mohammad

S. , 2013)   costituito   da   una   lista   di   1358   antonimi   estratti   da   WordNet,  

all'interno  dei  quali  sono  stati  selezionati   i  soli  aggettivi,  per  un  totale  di  958  

coppie  di  antonimi.    

 

Nel  corpus  vengono  quindi  cercate  le  occorrenze  di  tali  termini,  sia  nella  loro  

versione   ``positiva''   ,   che   ``negativa''     (ad   esempio,   si   estraggono   sia   le  

occorrenze   di   sweet   che   quelle   in   cui   sweet   occorre   in   concomitanza   con   la  

negazione   not,   sia   esso   preceduto   immediatamente   (occorrenza   nel   testo   di  

strutture   linguistiche   come   not   sweet)   o   con   un   intervallo   di   una   parola,  

tipicamente  un  pronome   (occorrenza  nel   testo  di   strutture   linguistiche   come  

not  very  sweet).    

Per  ogni  parola  che  costituisce  le  coppie,  è  quindi  possibile  costruire  i  rispettivi  

vettori   di   co-­‐occorrenze,   selezionando   come   co-­‐occorrenti   le   parole   che  

occorrono  in  una  finestra  di  cinque  parole  antecedenti  e  successive  alla  parola  

in  esame  nel  corpus.  Ognuna  delle  due  possibili  accezioni  (positiva  o  negativa)  

dei   termini   in   esame,   viene   rappresentata   come   un   vettore   distribuzionale  

distinto  (in  questo  caso  esiste  un  vettore  distribuzionale  per  sweet  e  uno  per  

not-­‐sweet.  

A   questo   punto   viene   misurata   la   similarità   semantica   tra   i   termini   che  

costituiscono  le  coppie.  Inoltre,  per  validare  la  teoria  proposta,  viene  misurata  

anche  la  similarità  semantica  tra  un  membro  negativizzato  della  coppia  (not-­‐u)  

e  il  positivo  dell'altro  (v)  e  viceversa.  

Per   entrambe   le   liste   di   antonimi,   i   risultati   non   sono   stati   risolutivi.   In  

entrambi  i  casi,  infatti,  la  teoria  per  cui  la  similarità  tra  una  parola  e  l'opposto  

del  suo  antonimo  era  maggiore  di  quella  rilevata  per  la  similarità  tra  la  parola  

stessa  e  il  suo  antonimo,  si  attestava  tra  il  30%  e  il  40%.  

 

Un  secondo  esperimento  è  stato  effettuato,  utilizzando  gli  stessi  dati  e  le  stesse  

modalità,  costruendo  il  non-­‐concetto  in  maniera  leggermente  diversa  rispetto  a  

quanto  fatto  in  precedenza.  Per  creare  il  contesto  distribuzionale  che  definisca  

in  maniera  caratteristica  il  non-­‐concetto,  si  è  infatti  pensato  di  escludere  dalle  

sue  proprietà  distribuzionali   tutte  quelle   in   comune  con   il   concetto  nella   sua  

accezione  positiva.   In   altri   termini,   tutte   le  proprietà  distribuzionali   di  v   non  

vengono  incluse  nel  vettore  che  descrive  le  proprietà  distribuzionali  di  non-­‐v.  

E'  stato  assunto  che  in  questa  maniera  fosse  possibile  individuare  le  proprietà  

distribuzionali  salienti  che  caratterizzano  il  non-­‐concetto.   Inoltre,  eliminare  le  

proprietà   distribuzionali   comuni   alla   versione   "positiva"   e   "negativa"   del  

termine,  dovrebbe  implicare  la  creazione  di  un  concetto  di  negatività  esclusivo,  

teoricamente  più  simile  all'antonimo  del  positivo  che  al  positivo  stesso.  

Anche   in  questo  caso  viene  misurata   la  similarità  semantica   tra   i   termini  che  

costituiscono  le  coppie,  valutando  anche  la  similarità  semantica  tra  un  membro  

negativizzato  della  coppia  (not-­‐u)  e  il  positivo  dell'altro  (v)  e  viceversa.  

I   risultati   degli   esperimenti   preliminari   effettuati   sulle   liste   di   antonimi  

descritte  in  precedenza  non  hanno  dato  ancora  risultati  determinanti.    

 

L'analisi   dei   risultati   ha   però   fornito   interessanti   spunti   sulle   ragioni   che  

possono   portare   ad   avere   questo   tipo   di   risultato.   In   primo   luogo   le   liste   di  

antonimi   utilizzate,   necessitano   di   un   miglioramento   sostanziale,   sia   per  

quanto   riguarda   la   costituzione   delle   coppie.   In  molti   casi   infatti   l'antonimo  

riportato  per  un  dato  termine,  non  è  quello  prototipico,  o  comunque  quello  che  

ci   si   aspetterebbe.   Si   prenda   ad   esempio   la   coppia   inexperienced-­‐inured,  

estratta  dal  dataset  di  (Mohammad S. , 2013).  L'antonimo  che  ci  aspetteremmo  

di   rilevare,   per   inexperienced   non   è   inured,   ma   experienced,   come   suggerito  

dall'  Oxford  Thesaurus  of  English.    

I   dati   costruiti   a   partire   da   Amazon  Mechanical   Turk   invece   risentono   della  

scelta  dei   termini   da   valutare,   operata   a  partire  da  dati   estratti   da  WordNet,  

impiegando   come  unico   criterio  un  bilanciamento   tra   termini   appartenenti   a  

diverse   fasce   di   frequenza   e   di   polisemia,   all'interno   delle   quali   i   termini   da  

analizzare   sono   stati   estratti   in   maniera   casuale.   Tali   coppie   di   antonimi  

risentono   anche   delle   valutazioni   fornite   dagli   utenti,   che   possono   aver  

indicato  in  maniera  errata  o  approssimativa,  quello  che  per  loro  risulta  essere  

il  miglior  antonimo  di  un  termine  dato.  

Inoltre  i  dati  possono  essere  falsati  da  una  scarsa  attestazione  dei  termini  che  

compongono  le  coppie  all'interno  del  corpus  in  esame.  A  tal  proposito  è  in  atto  

una  ricostituzione  delle  liste  di  antonimi  in  cui,  non  solo  vengono  validati  i  dati,  

ma  viene  anche  verificato  che  i  dati  siano  presenti  nel  corpus  al  di  sopra  di  una  

determinata   soglia   di   frequenza,   che   verrà   stabilita   in  modo   da   non   ridurre  

eccessivamente  il  numero  di  coppie  su  cui  effettuare  i  test.    

Varrà   poi   la   pena   cercare   di   capire   se   questo   metodo   privilegia   un   tipo  

particolare  di  relazione  antonimica,  si  vorrà  capire,  cioè,  se  il  metodo  in  analisi  

riporta   risultati   migliori   nella   classificazione   di   antonimi   gradabili   o  

complementari,   o   ancora   se   riporta   risultati   migliori   su   quelle   coppie   di  

antonimi   in   cui   uno   dei   due   termini   è   costruito   a   partire   dall'altro,   con  

l'aggiunta  di  un  prefisso  o  di  un  suffisso  di  negazione.  

 

Conclusioni  e  Proposte  Future  

 

Lo   scopo   di   questo   lavoro   consiste   nell'esplorazione   delle   potenzialità   e   dei  

limiti  dell'approccio  distribuzionale  come  modello  del  lessico  semantico.    

E'   stato   ampiamente   illustrato   come   i   modelli   distribuzionali   presentino  

difficoltà   e   sfide   interessanti   per   quanto   riguarda   l'estrazione   di   relazioni  

paradigmatiche   che   intercorrono   fra   termini   in   un   testo,   a   causa   delle  

particolarità  distribuzionali  di  tali  relazioni.    

In   particolare,   le   relazioni   trattate   in   questo   lavoro   sono   la   relazione   di  

iponimia/iperonimia  e  la  relazione  di  antonimia.  

 

In  entrambi  i  casi  ho  proceduto  nell'analizzare  le  peculiarità  linguistiche  delle  

relazioni  in  esame,  nonché  lo  stato  dell'arte  per  quanto  riguarda  l'utilizzo  delle  

metodologie   basate   sull'approccio   distribuzionale   per   l'estrazione   e   la  

classificazione  di  queste  relazioni.    

Per   quanto   riguarda   la   relazione   di   iponimia/iperonimia,   l'analisi   delle  

caratteristiche   linguistiche   della   relazione,  mi   ha   permesso   di   individuare   la  

sua  direzionalità,  permettendomi  di  comprendere   la  ragione  per  cui   i  metodi  

distribuzionali   attualmente   in   uso   falliscono   nel   riconoscimento   di   questa  

relazione.   La   similarità   semantica   viene,   infatti,   tipicamente   computata  

utilizzando   misure   simmetriche,   quali   il   coseno.   Supponendo   infatti   che   i  

significati  delle  parole  possano  essere  dedotti  dal  contesto,  verificare  che  due  

parole  sono  in  relazione  tra  loro  significa  verificare  il  grado  di  similarità  tra  le  

due  parole,  ovvero  il  numero  di  contesti  che  condividono.  Questo  assunto  non  

è  vero  per  la  relazione  di  iponimia,  che  è  una  relazione  asimmetrica.    

Sono   state   quindi   investigate   le   misure   asimmetriche   allo   stato   dell'arte,  

comunemente   utilizzate   nello   studio   del   lexical   entailment   (implicazione  

lessicale),   che   si   sono   rivelate   abili   nel   discriminare   coppie   di   termini   che  

hanno  un  legame  semantico  da  quelle  che  non  lo  hanno.  Le  stesse  misure  però  

non  si  sono  rivelate  in  grado  di  discriminare  tra  termini  co-­‐iponimi  e  termini  in  

relazione  di  iperonimia/iponimia.  

Gli  iperonimi  sono  termini  semanticamente  più  ampi  rispetto  ai  loro  iponimi  a  

livello   estensionale,   (animale   si   riferisce   a   un   insieme   più   ampio   di   entità  

rispetto  a  cane).  A   livello   intensionale,   invece,   l'iponimo  di  un  termine  risulta  

essere  più   informativo  del   suo   iperonimo   (cane   ha  proprietà  più   informative  

rispetto   a   quelle   di  animale,   si   può   assumere   infatti   che   per   cane   siano   vere  

proprietà   non   vere   per   tutti   gli  animali,   es.   abbaiare),   quindi   i   sopraordinati  

risultano   meno   informativi   rispetto   ai   concetti   di   livello   base.   Sfruttando  

queste   proprietà   della   relazione   di   iperonimia,   ho   quindi   implementato   due  

nuove   misure   direzionali,   specificamente   concepite   per   il   riconoscimento   di  

questa  relazione.  I  risultati  sino  ad  ora  ottenuti,  hanno  permesso  di  dimostrare  

che  i  metodi  distribuzionali  risultano  efficaci  e  funzionali  al  riconoscimento  ed  

alla  classificazione  di  relazioni  di  iponimia.  

 

Per  quanto  riguarda  la  relazione  di  antonimia,  le  misure  attualmente  allo  stato  

dell'arte   si   rivelano   fallaci   sia   nella   classificazione   dei   termini   tra   i   quali  

intercorre   questa   relazione,   sia   nella   discriminazione   tra   la   relazione   di  

sinonimia   e   di   antonimia.   Questo   avviene   perché   le   relazioni   di   antonimia   e  

sinonimia   tendono  a  distribuirsi   in  maniera  simile  nei   testi.  Frequentemente,  

infatti,   termini   sinonimi   e   termini   antonimi,   occorrono   negli   stessi   contesti.  

Questo   rende   impossibile   utilizzare   i   metodi   distribuzionali   standard   per   il  

riconoscimento  di  questa  relazione.    

La   metodologia   sviluppata   si   basa   sull'assunto   che,   data   una   coppia   di  

antonimi,  uno  dei  due  membri  dovrebbe  essere  più  simile  alle  occorrenze  della  

versione   negata   dell'altro,   piuttosto   che   di   quella   positiva.   Ad   esempio,  bello  

dovrebbe  essere  più   simile   e  quindi  occorrere   in   contesti   di  uso,  più   simili   a  

quelli   di  non-­‐brutto,   piuttosto   che   a   quelli   di  brutto.   Gli   esperimenti   condotti  

fino   ad   oggi   non   hanno   dato   risultati   risolutivi,   ma   funzionali   solamente   in  

alcuni  casi  specifici.  Sulla  questa  base,    è  in  corso     la  ricerca  di  caratteristiche  

peculiari  che  permetterebbero  di   individuare  formalmente  insiemi  di  dati  nei  

quali  la  misura  proposta  è  molto  efficace.    Inoltre,  dato  che  pur  non  risolutivi,  i  

dati   sembrano   essere   incoraggianti,   mi   sto   muovendo   per   ottimizzare  

l'esperimento.    

In   primo   luogo,  mi   sto   premurando   di   preparare   un   dataset  migliore,   inteso  

come   una   migliore   lista   di   antonimi   da   utilizzare   per   testare   il   sistema.   Le  

coppie  di   termini  utilizzate   fino  ad  ora  non  si   sono  rivelate,  ad  un'analisi  più  

attenta,   molto   adatti   al   mio   scopo,   in   quanto   formate   da   termini   rari,  

difficilmente   rintracciabili   in   termini   di   occorrenze   nei   corpora   (la   scarsa  

frequenza   dei   dati   è   un   grosso   limite   quando   si   utilizzano   metodi  

distribuzionali),  e  molto  poco  'prototipiche'.  

A   tale   proposito   quindi,   ho   intenzione   di   procedere   nel   perfezionamento   del  

metodo  sviluppato  utilizzando  dati  più  puliti.  In  secondo  luogo  procederò  con  

uno  studio  sperimentale  dei  risultati  ottenuti,  al  fine  di  validarli.  

 Qualora   da   tale   studio   emergessero   caratteristiche   della   relazione   di  

antonimia   che   rendono   più   efficiente   la   misura,   o   se   dovesse   emergere   un  

particolare   tipo   di   antonimia   per   cui   questo   approccio   si   dovesse   rivelare  

funzionale,  si  procederà  nell'ottimizzazione  della  misura.    

Un   altro   aspetto   interessante   che   mi   propongo   di   affrontare   riguarda   la  

possibilità  di  utilizzare  misure  di  tipo  distribuzionale  non  solo  per  classificare  

gli   antonimi,   ma   anche   per   distinguere   gli   antonimi   gradabili   rispetto   agli  

antonimi  non  gradabili.    

Inoltre,   un   altro   aspetto   da   approfondire   riguarda   l'applicazione   dei   metodi  

distribuzionali  per  l'analisi  dei  prefissi  negativi  (un-­‐,  im-­‐,  dis-­‐  )  e  degli  antonimi  

che   vengono   generati   grazie   all'utilizzo   di   tali   prefissi   (come   ad   esempio  

possible-­‐impossible).  

 

 

Bibliografia  

• Walter  G.  Charles,  G.  A.  (1989).  Contexts  of  antonymous  adjectives.  Applied  

psycholinguistics  ,  357-­‐375.  

• Weeds,   J.   a.   (2004).   Characterising   measures   of   lexical   distributional  

similarity.   Proceedings   of   the   20th   international   conference   on  

Computational  Linguistics.  Association  for  Computational  Linguistics.  

• Wierzbicka,  A.  (1984).  "Apples"  Are  Not  a  "Kind  of  Fruit":  The  Semantics  of  

Human  Categorization.  American  Ethnologist  ,  313-­‐328.  

• Willners,  C.  (2001).  Antonyms  in  Context.  

• Budanitsky,   A.   a.   (2006).   Evaluating   wordnet-­‐based   measures   of   lexical  

semantic  relatedness.  Computational  Linguistics  .  

• Baroni,   M.   a.   (2010).   Distributional   memory:   A   general   framework   for  

corpus-­‐based  semantics.  Computational  Linguistics  .  

• Baroni,  M.  a.   (2011).  How  we  BLESSed  distributional   semantic  evaluation.  

Proceedings  of   the  GEMS  2011  Workshop  on  GEometrical  Models  of  Natural  

Language  Semantics.  Association  for  Computational  Linguistics.  

• Benotto,   G.   (2013).   Modelli   distribuzionali   delle   relazioni   semantiche:   il  

caso  dell’iperonimia   .  Animali,  Umani,  Macchine.  Atti  del  convegno  2012  del  

CODISCO.  CORISCO  edizioni.  

• Cann,   R.   (1993).   Formal   semantics:   an   introduction.   Cambridge   University  

Press.  

• Charles,   W.   G.   (2000).   Contextual   correlates   of   meaning.   Applied  

Psycholinguistics  .  

• Clarke,   D.   (2009).   Context-­‐theoretic   semantics   for   natural   language:   an  

overview.   Proceedings   of   the   Workshop   on   Geometrical   Models   of   Natural  

Language  Semantics.  Association  for  Computational  Linguistics.  

• Cruse,  A.  (1986).  Lexical  semantics.  Cambridge  University  Press.  

• David   E.   Rumelhart,   P.   H.   (1972).   A   process  model   for   long-­‐term  memory.  

Academic  Press.  

• Dagan,  I.  a.  (2006).  The  pascal  recognising  textual  entailment  challenge.   In  

Machine   Learning   Challenges.   Evaluating   Predictive   Uncertainty,   Visual  

Object  Classification,  and  Recognising  Tectual  Entailment.  Springer.  

• Deese,   J.   (1966).   Structure   of   associations   in   language   and   thought.  

Baltimore:  Johns  Hopkins  Press  .  

• Fellbaum,  C.  (2001).  WordNet:  An  electronic  lexical  database.  MIT  Press.  

• Fellbaum,  C.   (1995).  Co-­‐occurrence  and  antonymy.   International  journal  of  

lexicography  ,  281-­‐303.  

• Firth,  J.  (1957).  Modes  of  Meaning.  Papers  in  Linguistics  .  

• George   Miller,   a.   C.   (1998).   Wordnet:   An   electronic   lexical   database.  

Cambridge:  MIT  Press  Cambridge.  

• Giampiccolo,  D.   a.   (2009).   The   third   pascal   recognizing   textual   entailment  

challenge.   Proceedings   of   the   ACL-­‐PASCAL   workshop   on   textual   entailment  

and  paraphrasing.  Association  for  Computational  Linguistics.  

• Hindle,  D.   (1990).  Noun  classification   from  predicate-­‐argument  structures.  

Proceedings   of   the   28th   annual   meeting   on   Association   for   Computational  

Linguistics.  Association  for  Computational  Linguistics.  

• Jones,  M.  N.  (2006).  High-­‐dimensional  semantic  space  accounts  of  priming.  

Journal  of  memory  and  language  .  

• Katz,  J.  J.  (1972).  Semantic  theory.  New  York:  Harper  &  Row.  

• Kempson,  R.  M.  (1977).  Semantic  Theory.  Cambridge:  Cambridge  University  

Press.  

• Kintsch,   W.   (2000).   Metaphor   comprehension:   A   computational   theory.  

Psychonomic  Bulletin  &  Review  .  

• Kintsch,  W.  (1974).  The  representation  of  meaning  in  memory.  

• Kotlerman,   L.   a.-­‐G.   (2010).   Directional   distributional   similarity   for   lexical  

inference.  Natural  Language  Engineering  .  

• Lyons,  J.  (1977).  Semantics.  Vol.  1-­‐2.  

• Lehrer,  A.  L.  (1982).  Antonymy.  Linguistics  and  philosophy  ,  483-­‐501.  

• Lehrer,  A.  (1974).  Semantic  Fields  and  Lexical  Structure  .  Amsterdam:  North  

-­‐  Holland.  

• Lenci,  A.  a.  (2012).  Identifying  hypernyms  in  distributional  semantic  spaces.  

Proceedings   of   the   First   Joint   Conference   on   Lexical   and   Computational  

Semantics-­‐Volume  1:  Proceedings  of  the  main  conference  and  the  shared  task,  

and  Volume  2:  Proceedings  of  the  Sixth  International  Workshop  on  Semantic  

Evaluation.  Association  for  Computational  Linguistics.  

• Lin,   D.   a.   (2003).   Identifying   synonyms   among   distributionally   similar  

words.  IJCAI.    

• Lin,  D.  (1998).  An  information-­‐theoretic  definition  of  similarity.  ICML.    

• Murphy,  G.  L.  (1997).  Hierarchical  structure  in  concepts  and  the  basic  level  of  

categorization.  MIT  Press.  

• Murphy,   M.   L.   (2003).   Semantic   relations   and   the   lexicon.   Cambridge  

University  Press.  

• Martha   W.   Evens,   B.   L.   (1980).   Lexical-­‐semantic   relations:   a   comparative  

survey.  Linguistic  Research.  

• McDonald,  S.  a.  (2001).  Testing  the  distributional  hypothesis:  The  influence  

of  context  on  judgements  of  semantic  similarity.  

• Michael  N  Jones,  W.  K.  (2006).  High-­‐dimensional  semantic  space  accounts  of  

priming.  Journal  of  memory  and  language  .  

• Miller,  G.  A.  (1991).  Contextual  correlates  of  semantic  similarity.  Language  

and  cognitive  processes  .  

• Mohammad,   S.   a.   (2008).   Computing   word-­‐pair   antonymy.   Proceedings   of  

the   Conference   on   Empirical   Methods   in   Natural   Language   Processing.  

Association  for  Computational  Linguistics.  

• Mohammad,  S.  (2013).  Publications  and  Data.  

• Quillian,   M.   R.   (1967).   Word   concepts:   A   theory   and   simulation   of   some  

basic  semantic  capabilities.  Behavioral  science  .  

• Pustejovsky,  J.  (1995).  The  Generative  Lexicon.  Cambridge:  MIT  Press.  

• Palmer,  F.  (1981).  Semantics.  Cambridge:  Cambridge  University  Press.  

• Persson,  U.  M.   (1986).  Facets,  phases  and  foci:  studies   in   lexical  relations   in  

English.  Universitetet  i  Umeå.  

• Persson,   G.   (1990).   Meanings,   models   and   metaphors:   a   study   in   lexical  

semantics  in  English.  Stockholm:  Almqvist  &  Wiksell  International  .  

• Sahlgren,  M.   (2006).  The  Word-­‐Space  Model:  Using  distributional   analysis  

to   represent   syntagmatic   and   paradigmatic   relations   between   words   in  

high-­‐dimensional  vector  spaces.  The  Word-­‐Space  Model:  Using  distributional  

analysis  to  represent  syntagmatic  and  paradigmatic  relations  between  words  

in  high-­‐dimensional  vector  spaces  .  Stockholm.  

• Steven   Jones,   M.   L.   (2012).   Antonyms   in   English:   Construals,   constructions  

and  canonicity  .  Cambridge  University  Pres.  

• Resnik,   P.   S.   (1993).   Selection   and   information:   a   class-­‐based   approach   to  

lexical  relationships.  IRCS  Technical  Reports  Series.  

• Thomas  K  Landauer,  S.  T.  (1997).  A  solution  to  Plato's  problem:  The  latent  

semantic   analysis   theory   of   acquisition,   induction,   and   representation   of  

knowledge.  .  Psychological  review  .  

 

 

 


Recommended