12/03/2010
1
SEMANTICA E LESSICO
Per la lessicografia contemporanea
I. Chiari, Linguistica computazionale - a.a. 2009/2010 1
Definizioni Discipline
Vocabolario: insieme delle parole di una lingua o parte di esso; insieme di parole che parlanti specifici di una lingua possiedono; nell‟uso comune è l‟opera che raccoglie il lessico; in questa accezione è sinonimo di dizionario
Lessicografia: tecnica di composizione dei dizionari
Semantica: settore del lessico relativo al significato e ai suoi meccanismi
Parola: definizione problematica. Spesso usata con il significato di voce,vocabolo.La definizione più diffusa di parola è “segmento della catena parlata o del testo scritto tale che non sia interrompibile da altri elementi, che sia mobile, che possa comparire da solo e che abbia un significato” (Beccaria, G. (1994). Dizionario di linguistica e di filologia, metrica, retorica. Torino, Einaudi)
2
I. Chiari, Linguistica computazionale - a.a. 2009/2010
12/03/2010
2
vocabolario
I. Chiari, Linguistica computazionale - a.a. 2009/2010
3
Da T. De Mauro, La fabbrica delle parole, UTET, 2000.
lessico
I. Chiari, Linguistica computazionale - a.a. 2009/2010
4
Da T. De Mauro, La fabbrica delle
parole, UTET, 2000.
12/03/2010
3
dizionario
I. Chiari, Linguistica computazionale - a.a. 2009/2010
5
Da T. De Mauro, La fabbrica delle parole, UTET, 2000.
Terminologia della lessicologia
I. Chiari, Linguistica computazionale - a.a. 2009/2010
6
Parole chiave
• LESSEMA
• termine adoperato in lessicologia strutturale e “indica l‟unità lessicale a due facce (significante e significato) appartenente al piano della langue, del sistema linguistico e come tale astratta “
• LEMMA
• Forma di citazione del lessema nel dizionario
• TERMINE
• parola appartenente a un linguaggio settoriale, ad un ambito definito,avente un significato preciso e univoco (es. termine regionale, dialettale)
• PAROLA TESTUALE o occorrenza
• PAROLA GRAFICA
• Sequenza di caratteri alfabetici compresi tra due spazi o segni di interpunzione
• POLIREMATICA
12/03/2010
4
TERMINOLOGIA
PAROLA (Inglese: WORD)
Un‟unita‟ linguistica a cui sono associate una funzione
grammaticale ed un significato (Marello)
FORME di parola / parole testuali
Varianti morfologiche di una parola con funzioni
grammaticali anche diverse:
BELLO, BELLISSIMO
DOTTORE, DOTTORI
MANGERO‟, MANGIARE
da Poesio, diapositive di Lessicografia(http://www.dit.unitn.it/~poesio/Teach/IU)
7
I. Chiari, Linguistica computazionale - a.a. 2009/2010
TERMINOLOGIA (2)
VOCE di un dizionario (Inglese: ENTRY) Le informazioni date da un dizionario su una parola
indicizzata da un certo LEMMA
LEMMA La forma di parola „canonica‟ usata per rappresentare la
parola nel dizionario (per esempio, per deciderne la posizione alfabetica)
Per esempio, DOTTORE per il sostantivo con forme DOTTORE, DOTTORI
MANGIARE per il verbo con forme MANGIO / MANGIERO‟ / MANGIO‟
da Poesio, diapositive di Lessicografia(http://www.dit.unitn.it/~poesio/Teach/IU)
8
I. Chiari, Linguistica computazionale - a.a. 2009/2010
12/03/2010
5
Lessemi e parole testuali
I. Chiari, Linguistica computazionale - a.a. 2009/2010
Quel ramo del lago di Como, che volge a mezzogiorno,
tra due catene non interrotte di monti, tutto a seni e a golfi, a
seconda dello sporgere e del rientrare di quelli, vien, quasi a
un tratto, a ristringersi, e a prender corso e figura di fiume,
tra un promontorio a destra, e un'ampia costiera dall'altra
parte; e il ponte, che ivi congiunge le due rive, par che renda
ancor più sensibile all'occhio questa trasformazione, e segni
il punto in cui il lago cessa, e l'Adda rincomincia, per ripi-
gliar poi nome di lago dove le rive, allontanandosi di nuovo,
lascian l'acqua distendersi e rallentarsi in nuovi golfi e in
nuovi seni.
Il testo contiene 116 parole testuali/grafiche (tokens)
76 tipi di parole (types)
• la congiunzione e occorre 10 volte,
• la preposizione a e di, rispettivamente 8 e 6 volte, ecc.
9
Dizionari ed enciclopedie
“Dictionaries are about words” La voce di un dizionario sulla parola „TOAD‟ ne da‟ forma e
pronuncia, etimologia, grammatica, uso, e significati
“Encyclopedias are about knowledge” Un articolo di enciclopedia su “TOAD” e‟ un riassunto piu‟ o
meno breve della conoscenza sull‟argomento
ovviamente ci sono aspetti in comune
da Poesio, diapositive di Lessicografia(http://www.dit.unitn.it/~poesio/Teach/IU)
10
I. Chiari, Linguistica computazionale - a.a. 2009/2010
12/03/2010
6
UN ESEMPIO DI VOCE IN DIZIONARIO
toad /təųd/ n.
1 any froglike amphibian of the family Bufonidae, esp. of
the genus Bufo, breeding in water but living chiefly on
land.
2 any of various similar tailless amphibians.
3 a repulsive or detestable person.
toadish adj.
[Old English tadige, tadde, tada, of unknown origin]
(COD 9)
da Poesio, diapositive di Lessicografia(http://www.dit.unitn.it/~poesio/Teach/IU)
11
I. Chiari, Linguistica computazionale - a.a. 2009/2010
UN ESEMPIO DI VOCE IN
ENCICLOPEDIA
TOAD
The true toads are amphibians in the Bufonidae family. A number of species in other
families of Amphibia are commonly referred to as toads. This is because the
characteristics that are popularly used to distinguish frogs from toads are not quite the
same as those used for scientific classification.
The type species of the family Bufonidae is the Common toad, Bufo bufo, and around it
cluster a large number of species of the same genus, and some smaller genera. B. bufo
is a tailless amphibian of stout build, with a warty skin, and any animal that shares
these characteristics is liable to be called a toad, regardless of its location in formal
taxonomy.
That the shape of the body is not a safe guide in judging of anuran groups is shown by
some true frogs (Rana), which have adapted to burrowing habits, and are absolutely
toad-like. The Bufonidae include terrestrial, burrowing, thoroughly aquatic and arboreal
types; Rhinophrynus, of Mexico, may be described as an anteater.
Almost all toads have two lumps near the head, called the parotid glands. These glands
contain poison, which oozes out if the toad is angered. Some, like cane toads, are more
poisonous than others.
da Poesio, diapositive di Lessicografia(http://www.dit.unitn.it/~poesio/Teach/IU)
12
I. Chiari, Linguistica computazionale - a.a. 2009/2010
12/03/2010
7
Principi di base
SEMANTICA E LESSICO13
I. Chiari, Linguistica computazionale - a.a. 2009/2010
Semantica lessicale
Ambiguità del significato
I. Chiari, Linguistica computazionale - a.a. 2009/2010
14
Ambiguità: alcuni lessemi hanno più di un significato (più di un riferimento)
Polisemia: un lessema con più significati in qualche misura collegati fra di loro
esecuzione: 1. „realizzazione di un brano musicale‟2. „messa in atto di una pena‟
mano: 1. „arto superiore‟2. „quantità di vernice data su un muro'
Omonimia: un lessema con più significati non collegati fra di loro (in realtà si tratta di lessemi diversi)
„SCANNARE‟ come „fare a pezzi‟ / „italianizzazione di TO SCAN‟; GRU come uccello / macchina per sollevare pesi
spesso: 1. „Agg., denso‟2. „Avv., frequentemente‟
letto: 1. „nome, mobile per dormire‟2. „p.pass., voce del verbo leggere'
12/03/2010
8
Ancora sulla polisemia
I. Chiari, Linguistica computazionale - a.a. 2009/2010
15
La polisemia di una parola può essere causata dal contesto sintattico in cui si trova:
(1) Gianni si è dimenticato di aver chiuso la porta
ricaviamo l‟informazione che Gianni aveva chiuso la porta«presupposizione di fattività»
(2) Gianni si è dimenticato di chiudere la porta
ricaviamo l‟informazione contraria, ossia che Gianni non aveva chiuso la porta
(3) Gianni ha cotto le uova
le uova esistevano anche prima che Gianni le cuocesse,«cambiamento di stato», «presupposizione di esistenza»
(4) Gianni ha cotto una frittata
Gianni ha «prodotto» qualcosa di nuovo, la frittata esiste solo perché Gianni l‟ha cotta
Estensioni del significato:
metafora e metonimia
I. Chiari, Linguistica computazionale - a.a. 2009/2010
16
La polisemia può anche essere causata da metafora e metonimia
Metafora: uso traslato di una parola, sulla base di una «somiglianza» tra il significato «fondamentale» e il significato traslato
vite 1: „pianta, con viticci attorcigliati‟ =>
vite 2: „utensile, con filettatura‟(la filettatura della vite 2 assomiglia al viticcio della vite 1)
Metonimia: consiste nell‟estendere il significato di una parola a un altro connesso al primo per «contiguità»
mano 1: „arto‟ =>
mano 2: „turno nel gioco di carte‟mano 3: „quantità di vernice data‟
(è con la mano che si gioca a carte o si vernicia)
12/03/2010
9
Relazioni di significato
I. Chiari, Linguistica computazionale - a.a. 2009/2010
17
Sinonimia: lessemi diversi con lo stesso significatomano = manche = smazzata („turno di gioco‟)
sovente = frequentemente = spesso
Antonimia: lessemi che esprimono significati opposti
Antonimi contrari: bianco vs. nero, caldo vs. freddo
ammettono entità intermedie (per es. grigio, tiepido)
Antonimi contraddittori: scapolo vs. sposato, vero vs. falso
Iponimia: il sign. di un lessema è «incluso» in quello di un altro lessema
airone «iponimo di» uccellouccello «iponimo di» animale
Iperonimia: il sign. di un lessema «include» quello di un altro lessema
animale «iperonimo di» uccellouccello «iperonimo di» airone
SINONIMIA
Origini: Words from different strata:
Begin vs commence (Jackson p. 17)
Dialect difference
Biscuit / cookie; Lorry / truck
Non e‟ mai perfetta: Italiano: PAPA‟ vs. PADRE / PEDALINO vs. CALZINO
Everything is illuminated:
`harmonize‟ invece di „agree‟
„rigid‟ invece di „hard‟
„disseminate‟ invece di „spend‟
“forgetful dogs.”
Vedi: http://parole.alice.it/parole/sinonimi_e_contrari/
da Poesio, diapositive di Lessicografia(http://www.dit.unitn.it/~poesio/Teach/IU)
18
I. Chiari, Linguistica computazionale - a.a. 2009/2010
12/03/2010
10
Semantica frasale
I. Chiari, Linguistica computazionale - a.a. 2009/2010
19
L‟ipotesi più semplice: il principio di composizionalità
«il significato di una frase è il risultato della combinazione dei significati delle parole che la compongono»
Funziona in molti casi, ma a volte risulta troppo restrittivo:1. le frasi spesso contengono «qualcosa in più» rispetto ai singoli
elementi che le compongono
2. alcune combinazioni di parole hanno un significato che non è ricavabile dalle singole parole da cui sono costituite
lessicalizzazioni (espressioni idiomatiche, polirematiche)tagliare la cordasbarcare il lunarioessere al verde
Costruzione, caratteristiche, prospettive
DIZIONARI20
I. Chiari, Linguistica computazionale - a.a. 2009/2010
12/03/2010
11
2. Dizionari
I. Chiari, Linguistica computazionale - a.a. 2009/2010
21
Un dizionario non corrisponde al «lessico mentale»: La lessicografia cerca di raccogliere l’insieme delle parole usate da
tutta una comunità linguistica, anche dal punto di vista diacronico
Un dizionario si pone a livello della langue saussuriana
La lessicografia tradizionale non cerca di descrivere la competenza lessicale di un parlante
Un dizionario non rappresenta la competenza chomskiana
Un dizionario è costituito da entrate lessicali o lemmi è necessario lemmatizzare le parole:
(per es. avremmo amato, amando, amavamo, amammo ecc. vanno tutte ricondotte al lemma amare)
per ogni lemma troviamo altre informazioni
trascrizione fonetica o fonologica, etimologia, categoria lessicale, esempi di utilizzo e varie accezioni semantiche
2.2 Lessicalizzazioni
I. Chiari, Linguistica computazionale - a.a. 2009/2010
22
In un dizionario trovano posto tutte le forme imprevedibili, che hanno forme o significati idiosincratici (non formate tramite regole):
parole semplici: casa, libro, felice
forme lessicalizzate: (espressioni il cui significato non è desumibile dalla somma dei significati delle parti)
parole complesse non-trasparenti: dirigibile, volante
costruzioni polirematiche: tagliare la corda, nontiscordardimé
sigle, acronimi, parole «macedonia», abbreviazioni:CGIL, polfer, racc.
gli altri tipi di parole vengono invece «costruiti» tramite le regole della morfologia, e non è necessario scriverle esplicitamente nel dizionario
12/03/2010
12
Stratificazioni dell‟italiano:
uso e registro stilistico nei dizionari
I. Chiari, Linguistica computazionale - a.a. 2009/2010
23
I livelli d’uso nel DISC: antico (aderbare, adunazione) antiquato (accorruomo, dappoiché) dialettale (cadrega, ceraso) letterario (accadimento, gemebondo) non comune (accarezzevole, acquiescere) regionale (abbacchio, appizzare, bagigi) toscano (babbione, berciare, bischeraggio)
I registri stilistici nel DISC: familiare (acciderba, aggeggiare, appioppare, baluba) gergale (attacchinaggio, cuccare, fico, matusa, sfiga) ironico (ambientino, genietto, lentocrazia, santerello) popolare (ammucchiata, arruffianamento, buggerare) scherzoso (cervellone, comprendonio, fantastilione) spregiativo (canzonettaro, galoppino, mangiapolenta) volgare (bagascia, incazzato, leccaculo, stronzata)
Stratificazioni dell‟italiano:
frequenza d‟uso
I. Chiari, Linguistica computazionale - a.a. 2009/2010
24
I dizionari più recenti introducono indicazioni sulla frequenza d‟uso delle parole
Per esempio, il De Mauro - Paravia usa queste categorie:
FO: fondamentale(vocaboli frequentissimi, come a, di, il, faccia, andare; da soli coprono il 90% dello scritto o del parlato)
AU: alto uso/frequenza(parole come bensì, viso, recarsi che coprono all‟incirca il 6-8% dei testi e discorsi, note a chi ha un livello almeno medio di istruzione)
AD: di alta disponibilità(relativamente rari nel parlare o scrivere, ma legati a oggetti o atti della vita quotidiana, come coperchio, furgone, garza, pantofola)
12/03/2010
13
Il vocabolario di base (De Mauro 1980)
I. Chiari, Linguistica computazionale - a.a. 2009/2010
FO : fondamentale; tra i lemmi principali, sono così marcati 2049
vocaboli di altissima frequenza, le cui occorrenze costituiscono circa
il 90% delle occorrenze lessicali nell‟insieme di tutti i testi scritti o
discorsi parlati;
AU : di alto uso; sono così marcati 2576 vocaboli di alta frequenza,
le cui occorrenze costituiscono un altro 6% circa delle occorrenze
lessicali nell‟insieme di tutti i testi scritti o discorsi parlati;
AD : di alta disponibilità; sono così marcati 1897 vocaboli,
relativamente rari nel parlare o scrivere, ma tutti ben noti perché
legati ad atti e oggetti di grande rilevanza nella vita quotidiana
(alluce, batuffolo, carrozzeria, dogana, ecc.).
I vocaboli fondamentali, di alto uso e di alta disponibilità
(quest‟ultimo è il gruppo più esposto al variare della cultura
materiale e richiede aggiornamenti relativamente frequenti)
costituiscono nell‟insieme il “vocabolario di base”
(De Mauro 1999a, XX).
25
Stratificazione del lessico
LSVocabolario
comune
Vocabolario
Di base
26
I. Chiari, Linguistica computazionale - a.a. 2009/2010
12/03/2010
14
Vocabolario COMUNE (Gradit)
I. Chiari, Linguistica computazionale - a.a. 2009/2010
27
Vocabolario tecnico-specialistico
I. Chiari, Linguistica computazionale - a.a. 2009/2010
28
12/03/2010
15
Letterario, regionale, dialettale
I. Chiari, Linguistica computazionale - a.a. 2009/2010
29
Esotismi, basso uso, obsoleti
I. Chiari, Linguistica computazionale - a.a. 2009/2010
30
12/03/2010
16
COMPILARE UN DIZIONARIO
La compilazione di un dizionario comporta tre
aspetti:
Scelta delle voci
Identificazione dei testi
Scrittura delle voci
da Poesio, diapositive di Lessicografia(http://www.dit.unitn.it/~poesio/Teach/IU)
31
I. Chiari, Linguistica computazionale - a.a. 2009/2010
SCELTA DELLE VOCI
Tre fonti primarie:
Dizionari precedenti (non si parte da zero)
Citation file (= archivio di citazioni della casa editrice)
(Vedi sotto per quel che riguarda Dr. Johnson‟s / OED)
Nuovi testi
da Poesio, diapositive di Lessicografia(http://www.dit.unitn.it/~poesio/Teach/IU)
32
I. Chiari, Linguistica computazionale - a.a. 2009/2010
12/03/2010
17
RESTRIZIONI
Costo
Della creazione (OED: tra il 1858 ed il 1928)
Del volume
Spazio
da Poesio, diapositive di Lessicografia(http://www.dit.unitn.it/~poesio/Teach/IU)
33
I. Chiari, Linguistica computazionale - a.a. 2009/2010
ORGANIZZAZIONE
Le voci in un dizionario possono essere organizzate
In ordine ALFABETICO
In ordine TEMATICO
da Poesio, diapositive di Lessicografia(http://www.dit.unitn.it/~poesio/Teach/IU)
34
I. Chiari, Linguistica computazionale - a.a. 2009/2010
12/03/2010
18
Come sono fatte, cosa contengono
Le voci del dizionario35
I. Chiari, Linguistica computazionale - a.a. 2009/2010
COSA SI TROVA IN UNA VOCE
Il LEMMA della parola
Le altre FORME (ortografia e pronuncia)
La loro STRUTTURA (da quali morfemi sono composti)
Informazioni GRAMMATICALI
Esempi di USO
ETIMOLOGIA
Il SIGNIFICATO della parola (compresi sinonimi)
da Poesio, diapositive di Lessicografia(http://www.dit.unitn.it/~poesio/Teach/IU)
36
I. Chiari, Linguistica computazionale - a.a. 2009/2010
12/03/2010
19
TRE TIPI DI PAROLE
Main words
Subordinate words
Afforse, obs. variant of AFFORCE
Afforst, obs. variant of ATHIRST
Composite
da Poesio, diapositive di Lessicografia(http://www.dit.unitn.it/~poesio/Teach/IU)
37
I. Chiari, Linguistica computazionale - a.a. 2009/2010
STRUTTURA DELLE VOCI
IDENTIFICATION
Spelling (con alternanze): Jowl, jole
`Citizenship in the language‟: Kursaal
Pronunciation (non ancora IPA)
MORPHOLOGY
Form history of the word
SIGNIFICATION
ILLUSTRATIVE QUOTATIONS
da Poesio, diapositive di Lessicografia(http://www.dit.unitn.it/~poesio/Teach/IU)
38
I. Chiari, Linguistica computazionale - a.a. 2009/2010
12/03/2010
20
FORME DI PAROLA
PRONUNCIA
Fonemi, oggigiorno solitamente IPA /təųd/
Prosodia (accento)
ORTOGRAFIA
Sillabe
Varianti
da Poesio, diapositive di Lessicografia(http://www.dit.unitn.it/~poesio/Teach/IU)
39
I. Chiari, Linguistica computazionale - a.a. 2009/2010
INFORMAZIONI GRAMMATICALI
Morfologia
Verbi: inflessioni
Nomi: forma del plurale
dito dita
Sintassi
Parte del discorso (con restrizioni: awake predicative (the baby is awake) ma non attributive (*the awake baby)
Verbi: transitivo / intransitivo, quali tipi di preposizioni, etc.
Classe flessionale
Modificata da Poesio, diapositive di Lessicografia(http://www.dit.unitn.it/~poesio/Teach/IU)
40
I. Chiari, Linguistica computazionale - a.a. 2009/2010
12/03/2010
21
DESCRIZIONE DELL‟USO
Fascia d‟uso (su analisi di corpora); marca
Spesso in forma di citazioni (vedi esempi successivi)
Espressioni comuni (collocazioni)
Modificata dada Poesio, diapositive di Lessicografia(http://www.dit.unitn.it/~poesio/Teach/IU)
41
I. Chiari, Linguistica computazionale - a.a. 2009/2010
COLLOCAZIONI
Frasi fatte: Studente lavoratore, padre padrone,
governo ombra
Preferenze d‟uso:
Il sostantivo ban tipicamente modificato dagli aggettivi
total o complete, associato con il verbo impose, etc.
da Poesio, diapositive di Lessicografia(http://www.dit.unitn.it/~poesio/Teach/IU)
42
I. Chiari, Linguistica computazionale - a.a. 2009/2010
12/03/2010
22
SIGNIFICATO
Una delle funzioni piu‟ importanti di un dizionario e‟
caratterizzare le ACCEZIONI di una parola
attraverso DEFINIZIONI
Probabilmente l‟aspetto piu‟ difficile della
lessicografia
da Poesio, diapositive di Lessicografia(http://www.dit.unitn.it/~poesio/Teach/IU)
43
I. Chiari, Linguistica computazionale - a.a. 2009/2010
IL PROBLEMA DEL SIGNIFICATO
Come possiamo caratterizzare
questo significato?
Come minimo, come trovare un
modo per caratterizzare questo
significato che ci permetta di
distinguere tra queste accezioni
diverse?
da Poesio, diapositive di Lessicografia(http://www.dit.unitn.it/~poesio/Teach/IU)
44
I. Chiari, Linguistica computazionale - a.a. 2009/2010
12/03/2010
23
SIGNIFICATO IN UN DIZIONARIO
RIFERIMENTO OK: „bicicletta‟ / `tromba‟
Piu‟ difficile: „deferenza‟ / „ridicolo‟
RELAZIONI SEMANTICHE Sinonimia
Antonimia
Iponimia
CONNOTAZIONE inspire vs. fundamentalist
COLLOCAZIONI
da Poesio, diapositive di Lessicografia(http://www.dit.unitn.it/~poesio/Teach/IU)
45
I. Chiari, Linguistica computazionale - a.a. 2009/2010
Significato, senso, accezioni (GRADIT)
I. Chiari, Linguistica computazionale - a.a. 2009/2010
46
12/03/2010
24
Tutti tratti dal GRADIT
ESEMPI DI DEFINIZIONI47
I. Chiari, Linguistica computazionale - a.a. 2009/2010
Abbracciare1 e 2
I. Chiari, Linguistica computazionale - a.a. 2009/2010
48
12/03/2010
25
circostanza
I. Chiari, Linguistica computazionale - a.a. 2009/2010
49
palazzo
I. Chiari, Linguistica computazionale - a.a. 2009/2010
50
12/03/2010
26
fortuna
I. Chiari, Linguistica computazionale - a.a. 2009/2010
51
guadagnare
I. Chiari, Linguistica computazionale - a.a. 2009/2010
52
12/03/2010
27
nutrire
I. Chiari, Linguistica computazionale - a.a. 2009/2010
53
Fare
I. Chiari, Linguistica computazionale - a.a. 2009/2010
54
12/03/2010
28
Parole grammaticali
I. Chiari, Linguistica computazionale - a.a. 2009/2010
55
I. Chiari, Linguistica computazionale - a.a. 2009/201056
12/03/2010
29
LINGUAGGI SETTORIALI: folle
Master EDITORIA GIORNALISMO E MANAGEMENT CULTURALE (2010)
57
L‟esempio di forza
Master EDITORIA GIORNALISMO E MANAGEMENT CULTURALE (2010)
58
12/03/2010
30
Frizione e candela
Master EDITORIA GIORNALISMO E MANAGEMENT CULTURALE (2010)
59
7. definizioni analogiche
Master EDITORIA GIORNALISMO E MANAGEMENT CULTURALE (2010)
60
Soprattutto per la formazione di polirematiche
basate su meccanismi metaforici
(elettrodo a baffo di gatto, valvole a farfalla, cellule a
palizzata, a bastoncello, a fiamma)
12/03/2010
31
Caratteristiche ed esempi
Tipi di dizionari61
I. Chiari, Linguistica computazionale - a.a. 2009/2010
Differenze tra dizionari
Il contenuto delle voci cambia a seconda de
Il TIPO di dizionario (monolingue / bilingue, eta‟
dell‟utente, livello di specializzazione)
La FUNZIONE (d‟uso, di riferimento)
da Poesio, diapositive di Lessicografia(http://www.dit.unitn.it/~poesio/Teach/IU)
62
I. Chiari, Linguistica computazionale - a.a. 2009/2010
12/03/2010
32
TIPI DI DIZIONARI
Dizionari `general purpose‟
= `desk‟ o „concise‟
Dizionari „di riferimento‟
Dizionari per learners
Dizionari specialistici
Dizionari BILINGUI
da Poesio, diapositive di Lessicografia(http://www.dit.unitn.it/~poesio/Teach/IU)
63
I. Chiari, Linguistica computazionale - a.a. 2009/2010
DIZIONARI ONOMASIOLOGICI/ TESAURI
Dizionario ONOMASIOLOGICO: voci raggruppate per SOGGETTI invece che in ordine alfabetico
I dizionari Italiani piu‟ antichi sono in questa forma (Alunno, 1548)
TESAURI: dizionari organizzati per RELAZIONI LESSICALI e tipicamente strutturati in modo CONCETTUALE
Peter Mark Roget, THESAURUS OF ENGLISH WORDS AND PHRASES (1852)
da Poesio, diapositive di Lessicografia(http://www.dit.unitn.it/~poesio/Teach/IU)
64
I. Chiari, Linguistica computazionale - a.a. 2009/2010
12/03/2010
33
ALTRI TIPI DI DIZIONARI
Dizionari ETIMOLOGICI
Concentra solamente su derivazione delle parole
LEI Lessico Epistemologico Italiano (Max Pfister, in
completamento)
Pianigiani: http://www.etimo.it/
Dizionari dei SINONIMI e dei CONTRARI
Tommaseo, 1830
da Poesio, diapositive di Lessicografia(http://www.dit.unitn.it/~poesio/Teach/IU)
65
I. Chiari, Linguistica computazionale - a.a. 2009/2010
GRADIT De Mauro 1999: ca 360.000
lemmi e sottolemmi
I. Chiari, Linguistica computazionale - a.a. 2009/2010
66
260.709 lemmi monorematici
67.678 polirematiche (130.000 lemmi con
associate polirematiche)
12/03/2010
34
Criteri ordinamento accezioni e
quantità
I. Chiari, Linguistica computazionale - a.a. 2009/2010
67
Legami tra accezioni
I. Chiari, Linguistica computazionale - a.a. 2009/2010
68
12/03/2010
35
Definizioni e significati
I. Chiari, Linguistica computazionale - a.a. 2009/2010
69
Struttura delle definizioni
I. Chiari, Linguistica computazionale - a.a. 2009/2010
70
12/03/2010
36
Tipologie di voci
I. Chiari, Linguistica computazionale - a.a. 2009/2010
71
Nomi di piante e animali
I. Chiari, Linguistica computazionale - a.a. 2009/2010
72
12/03/2010
37
Sinonimi nel GRADIT
I. Chiari, Linguistica computazionale - a.a. 2009/2010
73
Lessico TS nel GRADIT
I. Chiari, Linguistica computazionale - a.a. 2009/2010
74
12/03/2010
38
Liste di frequenza, LIP
Dizionari di frequenza75
I. Chiari, Linguistica computazionale - a.a. 2009/2010
Dizionari di frequenza
I. Chiari, Linguistica computazionale - a.a. 2009/2010
76
Usando il computer, si possono raccogliere grandi quantità di testi in formato elettronico (un corpus) e riordinare le parole contenute:
per es. ordine alfabetico, ordine alfabetico inverso, ordine di frequenza
LIF - Lessico di frequenza della lingua italiana contemporanea:500.000 parole (scritte)circa 5.000 lemmi in ordine alfabetico e in ordine di frequenza
– Il corpus del LIF contiene testi teatrali (T) romanzi (R)copioni cinematografici (C) periodici (P)sussidiari (S)
– Le parole più frequenti dell‟italiano sono: il, di, egli, a, essere, e, uno, in, che, non, io, avere, da ecc.
– Le liste di frequenza possono aiutare nello studio delle lingue
– Le prime 100 parole più frequenti arrivano a coprire il 60% di qualsiasi testo
– Le prime 1.000, l’85%
– Le prime 4.000, il 97%
12/03/2010
39
Liste di frequenza
I. Chiari, Linguistica computazionale - a.a. 2009/2010
• elenco di tutte le forme (type, tipi di parole)
• indici di frequenza (ossia il numero di occorrenze nel testo)
• frequenza relativa, (Fw/N)
• rapporto tra le occorrenze della singola parola (Fw) e il numero di parole testuali del corpus (N)
• frequenza relativa normalizzata
Forma
• per frequenza decrescente
• Al primo posto compare la parola testuale più frequente, all‟ultimo la meno frequente.
• La forma che ha frequenza maggiore, e che si trova al primo posto, si dice di primo rango.
Presentazione
• e, di, che, a, il, in
• parole grammaticali
parole vuote
• Don, era
• sostantivi, verbi, aggettivi, avverbi
parole piene
77
Lista di frequenza del primo capitolo
dei Promessi Sposi
I. Chiari, Linguistica computazionale - a.a. 2009/2010
I Frequenze assolute II frequenza relative III tipi di parole
255 4,1255% e
195 3,1548% di
162 2,6209% che
146 2,3621% a
109 1,7635% il
100 1,6179% in
100 1,6179% un
97 1,5693% non
80 1,2943% la
78 1,2619% per
55 0,8898% le
53 0,8575% con
47 0,7604% si
44 0,7119% del
42 0,6795% i
41 0,6633% come
39 0,6310% una
38 0,6148% ma
38 0,6148% più
34 0,5501% o
31 0,5015% gli
28 0,4530% don
28 0,4530% da
26 0,4206% due
25 0,4045% se
24 0,3883% poi
24 0,3883% della
24 0,3883% era
23 0,3721% al
22 0,3559% abbondio
78
12/03/2010
40
4.4 Dizionari di frequenza
I. Chiari, Linguistica computazionale - a.a. 2009/2010
79
LIP - Lessico di frequenza dell‟italiano parlato:dimensioni simili al LIF
Raccoglie campioni di «italiano parlato» in quattro città: Milano, Firenze, Roma e Napoli
Vari tipi di interazioni linguistiche: scambi faccia a faccia
conversazioni telefoniche
dibattiti
lezioni
conferenze
trasmissioni radio e TV
Il vocabolario del «parlato» per il 97% è costituito da parole ben radicate nell‟italiano Anglicismi ed esotismi sono minimi
Il parlato è relativamente povero dal punto di vista lessicale rispetto allo scritto
Non sembra esistere un lessico specifico del parlato molto diverso dal lessico della lingua scritta
Lemmi LIP in ordine alfabetico
I. Chiari, Linguistica computazionale - a.a. 2009/2010
80
12/03/2010
41
Storia della lessicografia italiana81
I. Chiari, Linguistica computazionale - a.a. 2009/2010
STORIA DEI DIZIONARI ITALIANI
VOCABOLARIO DEGLI ACCADEMICI DELLA CRUSCA (1612 1729/38)
Primo dizionario storico in Europa
Obiettivo: „fissare‟ la lingua
1612: 30000 voci
Francesco D‟Alberti di Villanuova (1797-1805)
Primo dizionario a registrare termini tecnici
TOMMASEO-BELLINI (1865-1879)
Ultimo vocabolario storico disponibile
Collaboratori molto validi per voci specialistiche
Etimologie spesso fantasiose
da Poesio, diapositive di Lessicografia(http://www.dit.unitn.it/~poesio/Teach/IU)
82
I. Chiari, Linguistica computazionale - a.a. 2009/2010
12/03/2010
42
GRANDE DIZIONARIO DELLA LINGUA
ITALIANA
Nato come aggiornamento del Tommaseo
Edito da Battaglia , poi Barberi Squarotti
Statistiche:
Tempi di realizzazione: 19612006
185 594 voci, 21 volumi, 22 000 pagine
Metodi:
Registra tutte le parole e le varianti
Citazioni da 14 000 autori
da Poesio, diapositive di Lessicografia(http://www.dit.unitn.it/~poesio/Teach/IU)
83
I. Chiari, Linguistica computazionale - a.a. 2009/2010
Informatica e dizionari
Uso di collezioni di testi (CORPORA) in formato
elettronico per identificare
LEMMI
COLLOCAZIONI
USI dei lemmi (CONCORDANZE)
da Poesio, diapositive di Lessicografia(http://www.dit.unitn.it/~poesio/Teach/IU)
84
I. Chiari, Linguistica computazionale - a.a. 2009/2010
12/03/2010
43
Dizionari elettronici
Il passaggio dalla forma cartacea alla forma
elettronica ha rivoluzionato molti aspetti della
lessicografia e dell‟uso dei dizionari
Molte limitazioni di spazio si sono ridotte
La ricerca di voci non piu‟ ristretta all‟ordine alfabetico
Sono apparsi dizionari la cui organizzazione riflette
l‟organizzazione del LESSICO MENTALE (WordNet)
da Poesio, diapositive di Lessicografia(http://www.dit.unitn.it/~poesio/Teach/IU)
85
I. Chiari, Linguistica computazionale - a.a. 2009/2010
O la Storia dei dizionari inglesi
Fine ?86
I. Chiari, Linguistica computazionale - a.a. 2009/2010
12/03/2010
44
Storia della lessicografia inglese87
I. Chiari, Linguistica computazionale - a.a. 2009/2010
STORIA DEI DIZIONARI INGLESI, 1:
GLOSSARI
Primi `dizionari‟: i GLOSSARI medievali
raccolte di GLOSSE in Old English di parole latine,
tipicamente scritte da monaci
Primi dizionari sono bilingui!
Uno dei piu‟ noti: The London Vocabulary di Ǽlfric
(XI secolo)
da Poesio, diapositive di Lessicografia(http://www.dit.unitn.it/~poesio/Teach/IU)
88
I. Chiari, Linguistica computazionale - a.a. 2009/2010
12/03/2010
45
STORIA DEI DIZIONARI INGLESI, 2:
`HARD WORDS‟
Rinascimento: cominciano i „prestiti‟ da altre lingue (non solo Latino, ma anche Francese, Greco, Italiano)
Nasce la necessita‟ di aver spiegazioni su `hard words‟: neologismi introdotti di recente, con cui un „uneducated reader‟ puo‟ non avere familiarita‟
Esempio piu‟ noto di risorsa di questo tipo: Robert Cawdrey, A Table Alphabeticall, 1604 2500 parole
da Poesio, diapositive di Lessicografia(http://www.dit.unitn.it/~poesio/Teach/IU)
89
I. Chiari, Linguistica computazionale - a.a. 2009/2010
DA `A TABLE ALPHABETICALL‟ DI CAWDREY
§ Abandon, cast away, or yeelde up, to leave, or
forsake
Abash, blush
abba, father
§ abbesse, abbatesse, Mistris of a Nunnerie,
comforters of others
§ abbettors, counsellors
….
Apocrypha (g), not of authoritie, a thing hidden,
whose originall is not knowne
da Poesio, diapositive di Lessicografia(http://www.dit.unitn.it/~poesio/Teach/IU)
90
I. Chiari, Linguistica computazionale - a.a. 2009/2010
12/03/2010
46
DA „HARD WORDS‟ A „ALL WORDS‟
John Bullokar, AN ENGLISH EXPOSITOR (1616)
Cockeram‟s THE ENGLISH DICTIONARIE (1623) Primo ad essere chiamato „DICTIONARY‟
Anche `vulgar words‟
Prime etimologie: Thomas Blount (1656), Stephen Skinner (1671)
A NEW ENGLISH DICTIONARY, di `J.K.‟ (1702) primo tentativo di produrre un dizionario completo (28 000 lemmi)
Per artigiani e mercanti
Nathaniel Bailey, AN UNIVERSAL ETYMOLOGICAL ENGLISH DICTIONARY sia completezza (40000 parole prima edizione, poi 50000) che
etimologia
da Poesio, diapositive di Lessicografia(http://www.dit.unitn.it/~poesio/Teach/IU)
91
I. Chiari, Linguistica computazionale - a.a. 2009/2010
CORREGGERE E `BLOCCARE‟ („ASCERTAINING‟)
LA LINGUA
XVII secolo: molta preoccupazione che un numero eccessivo di parole straniere venisse assorbito nell‟Inglese
Si guardo‟ con favore al modello dell‟ Académie Francaise, fondata nel 1635, e che produsse tra il 1639 ed il 1694 il DICTIONNAIRE DE L‟ACADEMIE FRANCAISE con l‟intenzione di „codificare‟ e `ripulire‟ il linguaggio Cfr. Dizionario degli Accademici della Crusca
Jonathan Swift: A PROPOSAL FOR CORRECTING, IMPROVING AND ASCERTAINING (= FIX) THE ENGLISH LANGUAGE (1712)
da Poesio, diapositive di Lessicografia(http://www.dit.unitn.it/~poesio/Teach/IU)
92
I. Chiari, Linguistica computazionale - a.a. 2009/2010
12/03/2010
47
SAMUEL JOHNSON
(1709-1784)
When we see men grow old and die at a certain time
one after another, from century to century, we laugh at
the elixir that promises to prolong life to a thousand
years; and with equal justice may the lexicographer be
derided, who being able to produce no example of a
nation that has preserved their words and phrases from
mutability; shall imagine that his dictionary can embalm
the language, and secure it from corruption and decay
… (Preface al Dictionary of the English Language, 1755)
da Poesio, diapositive di Lessicografia(http://www.dit.unitn.it/~poesio/Teach/IU)
93
I. Chiari, Linguistica computazionale - a.a. 2009/2010
THE DICTIONARY OF THE ENGLISH
LANGUAGE
Prodotto tra il 1746 ed il 1755 con 6 assistenti
42773 lemmi
Primo dizionario sviluppato secondo metodilessicografici moderni; la creazione del dizionariosollevo‟ problemi ancora attuali per la lessicografia
da Poesio, diapositive di Lessicografia(http://www.dit.unitn.it/~poesio/Teach/IU)
94
I. Chiari, Linguistica computazionale - a.a. 2009/2010
12/03/2010
48
SAMUEL JOHNSON: PLAN FOR A DICTIONARY OF THE
ENGLISH LANGUAGE (1747)
Il lavoro comincio‟ con lo sviluppo di principi da seguire
Criteri di SELEZIONE
ORTOGRAFIA e PRONUNCIA
ETIMOLOGIA
ANALOGY (inflessione) e SYNTAX
INTERPRETATION (= definizione)
CITAZIONI con AUTORE
da Poesio, diapositive di Lessicografia(http://www.dit.unitn.it/~poesio/Teach/IU)
95
I. Chiari, Linguistica computazionale - a.a. 2009/2010
METODOLOGIA
Punto di partenza: dizionario di Bailey
Identificazione di nuove voci: lettura di autori ammirati da Johnson Ogni volta che trovava un uso „corretto‟ di una parola,
sottolineava e marcava la citazione; un assistente avrebbe creato uno SLIP
Gli slip con citazioni (114000 in tutto) poi ordinati in modo alfabetico
A partire dal 1749, Johnson comincio‟ ad identificare i sensi e scrivere le definizioni
Primo volume 1753
da Poesio, diapositive di Lessicografia(http://www.dit.unitn.it/~poesio/Teach/IU)
96
I. Chiari, Linguistica computazionale - a.a. 2009/2010
12/03/2010
49
RISULTATO
da Poesio, diapositive di Lessicografia(http://www.dit.unitn.it/~poesio/Teach/IU)
97
I. Chiari, Linguistica computazionale - a.a. 2009/2010
THE NEW ENGLISH DICTIONARY
L‟Oxford English Dictionary e‟ quanto di piu‟ vicino ci sia ad un „record ufficiale‟ dell‟Inglese (Britannico)
Obiettivo: creare un dizionario le cui definizioni fossero basate sui criteri „scientifici‟ sviluppati nella nuova scienza della filologia
Sotto gli auspici della Philological Society
Prima edizione richiese 70 anni (tra il 1858 ed il 1928) e 5 „editors‟
Editor chiave: JAMES MURRAY
da Poesio, diapositive di Lessicografia(http://www.dit.unitn.it/~poesio/Teach/IU)
98
I. Chiari, Linguistica computazionale - a.a. 2009/2010
12/03/2010
50
THE NEW ENGLISH DICTIONARY:
METODO
Principio: “to furnish an adequate account of the meaning, origin, and history of English words now in general use, or known to have been in general use at any time during the last seven hundred years” (dalla prefazione di Murray al volume I, 1888)
Basato sul lavoro di MIGLIAIA di volontari (READERS) che produssero 5 millioni di slips
Tra cui D. W. C. Minor, paziente schizofrenico
da Poesio, diapositive di Lessicografia(http://www.dit.unitn.it/~poesio/Teach/IU)
99
I. Chiari, Linguistica computazionale - a.a. 2009/2010
THE NEW ENGLISH DICTIONARY: LA PRIMA EDIZIONE
10 volumi
252 000 voci, 414 000 definizioni
da Poesio, diapositive di Lessicografia(http://www.dit.unitn.it/~poesio/Teach/IU)
100
I. Chiari, Linguistica computazionale - a.a. 2009/2010
12/03/2010
51
SVILUPPI SUCCESSIVI
Primo supplemento (4 volumi, 1955 1986)
Distinzione main / subordinate scompare
Molte subject labels aggiuntive
OED2 (1984 1989)
Versione elettronica su CD-ROM
20 volumi, 500000 definizioni,
OED3 (1993 2010): www.oed.com
da Poesio, diapositive di Lessicografia(http://www.dit.unitn.it/~poesio/Teach/IU)
101
I. Chiari, Linguistica computazionale - a.a. 2009/2010