2Le 30 parole più frequenti in Pinocchio
Distribuzione della frequenza delle parole l Rango di una parola (rv)
l posizione occupata da una parola in un ordinamento di frequenza discendente
3
Distribuzione della frequenza delle parole l Distribuzione delle frequenze delle parole in
Pinocchio rispetto al loro rango
4
l Legge di Zipf (George Kingsley Zipf, 1949)l la frequenza di una parola è inversamente proporzionale al suo
rango
l f(z) = frequenza della parola di rango zl C è una costante corrispondente alla frequenza della parola di
rango 1l C dipende dalla lunghezza del corpus e dal suo vocabolario
l a è un indice inverso della ricchezza lessicale del corpusl più grande a e più ristretto è il vocabolario del corpus
§ per Zipf, a»1
azCzf =)(
La Legge di Zipf
5
La Legge di Zipfl Per a = 1, vale che
f(1) = Cf(2) = C/2f(3) = C/3 …
l in generale, al crescere del rango, lo scarto (C/n)-(C/n+1) tra la frequenza della parola di rango n e la frequenza della parola di rango n-1 diminuisce progressivamentel all’aumentare del rango la frequenza diminuisce sempre più lentamente
l La Legge di Zipf prevede un decremento progressivo della frequenza di una parola proporzionale all’aumentare del suo rangol la parola di rango 2 dovrebbe ricorrere la metà delle volte della parola
più frequentel parole che appaiono molto in basso nella lista di Zipf tendono ad avere
frequenze similil la coda della curva di Zipf conterrà dunque tante parole con frequenza 1:
gli hapax
6
y = 6185.5x-1.0418
1
10
100
1000
10000
1 10 100 1000 10000
rango
frequenza
andamento teorico previsto alla Legge di ZipfC = 6185a=1,04
andamento del rapporto tra rango e frequenza osservato in Pinocchio
La Legge di Zipfl La Legge di Zipf in doppia scala logaritmica
7
I logaritmi
l Il logaritmo in base a di un numero x è l'esponenteda dare ad a per ottenere xl se x = ay, allora y = loga xl logaa = 1l loga1 = 0 (il log in qualsiasi base di 1 è 0)
8
l Alcune proprietà dei logaritmil logm (a * b) = logma + logm bl logm (a/b) = logma - logm b
l La scala logaritmica ingrandisce le distanze tra i punti vicini allo zero e comprime le stesse distanze tra punti lontani dallo zero
l trasforma rapporti costanti tra distanze in differenze costantil 10/1 = 1000/100 Þ log(10) – log(1) = log(1000)-log(100)
01 20,1
0 1-1
3 4 10010
2
5 6 7 8 90
1 20,1
0 1-1
3 4 10010
2
5 6 7 8 9
I logaritmi
9
l La legge di Zipf in doppia scala logaritmica diventa l’equazione di una retta (per le proprietà dei logaritmi)
l l’intercetta sull’asse y corrisponde a log (C)l log della frequenza massima nel corpus
l l’intercetta dell’asse x corrisponde al rango in cui incominciamo a trovare hapax
l la pendenza della retta è data da a (coefficiente angolare)l dipende dalla ricchezza lessicale del testo
l In scala logaritmica f(1)-f(10) = f(100)-f(10) = f(1000)-f(100), ecc.l secondo la legge di Zipf le frequenze per parole con ranghi alti
decrescono molto più lentamente
zaCzf loglog)(log −=
La Legge di Zipf
10
Equazione della retta
l m è il coefficiente angolare e determina la pendenza(positiva o negativa) di una retta
l q è l’intercetta, ovvero il punto in cui la retta incrocia l’asse yl se q = 0, la retta passa per
l’origine
qmxy +=
11
La Legge di Zipfl La Legge di Zipf è una legge teorica della distribuzione delle
parole in un testo, che approssima la distribuzione realel maggiori discostamenti nella testa e nella coda della distribuzionel nelle distribuzioni reali, la coda della retta è costituita da gradoni
sempre più larghil esistono più parole con la stessa frequenza e il numero di queste
aumenta all’aumentare del rango
l In ogni testo (e in ogni lingua) la distribuzione delle parole approssima la Legge di Zipfl la retta varia nella pendenza e nelle intercette
l la Legge di Zipf definisce una famiglia di distribuzioni che dipendono da C e da a
12
Invarianza di scalal La Legge di Zipf fa parte delle leggi di potenza (power
laws)l y=axk
l cf. frattali (Mandelbrot)l Le leggi di potenza godono della proprietà di invarianza
di scalal moltiplicando l’argomento per un fattore di scala c, il
valore della funzione viene moltiplicato di un fattore ck
l f(cx) = a(cx)k=ckf(x)l es. funzione lineare: y = 3x => 2(y) = 3(2x)
l Ampliando la dimensione del testo, si ha solo un cambiamento di scala, che non muta la forma della distribuzione di Zipf
14
l La frequenza di una parola è correlata ad altre sue proprietàl le parole più frequenti sono più corte (l = lunghezza in caratteri)
l le parole più frequenti hanno più significati (s = significati di una parola)
l Altri eventi nel mondo si distribuiscono secondo la Legge di Zipfl accessi ai siti webl numero degli abitanti per cittàl distribuzione del redditol reti sociali (social networks)
vv lf 1∝
vv fs ∝
Altre Leggi di Zipf
15
l Secondo Zipf la distribuzione delle parole nei testi riflette un principio di economia nella comunicazionel parlante e ascoltatore cercano entrambi di minimizzare i
loro sforzil lo sforzo del parlante è ridotto avendo un piccolo vocabolario di
parole molto comuni (= frequenti)l lo sforzo dell’ascoltatore è ridotto avendo un grande
vocabolario di parole più rare (e meno ambigue)l la Legge di Zipf rappresenterebbe il compromesso
migliore (= più economico) tra queste due opposte tendenze
Intepretare la Legge di Zipf
16
I dati linguistici sono rari (data sparseness)
La Legge di Zipsle conseguenze per la linguistica computazionale
l Ci sono sempre poche parole molto frequentil corrispondono solitamente a parole appartenenti a “classi chiuse”
(articoli, preposizioni, congiunzioni, ecc.)l Ci sono sempre moltissime parole a bassa frequenza e hapax
(LNRE, Large Number of Rare Events)l sono parole “piene” (nomi, verbi, ecc.), solitamente estremamente
informative sul contenuto di un documentol il vocabolario è aperto
l nuovi temi e concetti portano a introdurre nuove parolel produttività lessicale
§ nuovi termini§ derivati morfologici, ecc.
17
La dinamica del vocabolariol Studiamo l’andamento della crescita lessicale all’aumentare del
testol come aumenta |VC| all’aumentare di |C|
l Il testo come flusso di parolel Il testo può essere visto come una sequenza v1, v2, …,vi, … v|C| di
parole indicizzate per posizionel i può essere interpretato come associato a un dato istante
temporale,§ vi è la parola che troviamo leggendo sequenzialmente il testo all’istante i
l VC(i) è il vocabolario delle prime i parole di C (i£|C|)l |VC(i)| è la grandezza del vocabolario usato nelle prime i parole del
testo l fornisce il tasso di crescita del vocabolario all’aumentare del corpus
18
y = 3.2824x0.6984
0
1000
2000
3000
4000
5000
6000
7000
0 10000 20000 30000 40000 50000 60000
lunghezza testo
gra
nd
ezza
vo
cab
ola
rio
con punteggiatura senza punteggiatura
Potenza (con punteggiatura)
La crescita del vocabolario in PInocchio|VC(i)|
0
500
1000
1500
2000
2500
3000
3500
0 10000 20000 30000 40000 50000
media hapax hapax osservati
La crescita degli hapax in Pinocchionumero di hapax
La dinamica del vocabolario
19
La dinamica del vocabolariol Forte correlazione tra aumento della lunghezza del
corpus e aumento del vocabolariol Il vocabolario VC di un corpus cresce in maniera non
lineare rispetto a |C|l |VC(i)| non cresce sempre, poiché esistono parole che devono
ripetersi più o meno regolarmente§ parole grammaticali,§ principi di coerenza lessicale§ andamento narrativo, ecc.
l la curva di |VC(i)| non ha mai un asintoto orizzontalel il vocabolario non smette mai di crescere
§ aumenta sempre più lentamente rispetto al crescere delle dimensioni del corpus
l Media aritmetica
l Medianal la modalità di un’osservazione che divide la distribuzione in due
parti uguali
l La media è un indicatore molto sensibile ai valori “estremi”l 1,2,3,4,5 --> media = 3; mediana =3l 1,2,3,4,70 --> media = 16; mediana =3
20
n
x
nxxx
n
i in ∑ ==+++
= 121 ...x
Indicatori di tendenza centrale
€
me(x) =n +12
21
n
xxn
i i∑ =−
= 12)(
σ
media
scartiscarti
Indicatori di dispersionel Deviazione standard (s, scarto quadratico medio)
l indice statistico di “dispersione” che misura la variabilità dei dati di una distribuzione (quanto i singoli dati differiscono rispetto alla media)l s2 è la varianza della variabile
Distribuzione normalevalori frequenza freq. relativa
%1.50-1.55 1 3.7
1.56-1.60 3 11.1
1.61-1.65 6 22.2
1.66-1.70 8 29.6
1.71-1.75 5 18.5
1.76-1.80 3 11.1
1.81-1.85 1 3.7
Misurazione dell’altezza di un campione di 27 soggetti
media = 1.68
mediana = 1.68
24
Distribuzione normale (Gaussiana)l Famiglia di distribuzioni delle frequenze relative (probabilità) dei
valori di una variabile (continua)l x = valori della variabilel y = frequenza relativa (probabilità) di ciascun valore
25
Distribuzioni statistiche distribuzione normale (Gaussiana)l Distribuzioni simmetriche rispetto alla media e con forma a
campanal ha il massimo in corrispondenza della media
l i valori della distribuzione si addensano intorno al valor mediol ogni distribuzione è completamente definita da due parametri:
media e σl σ = definisce l’ampiezza della campana
l l’area sottesa dalla curva è uguale a 1l Pochi valori “estremi”: la maggior parte dei valori tende a
raggrupparsi intorno al valor mediol 68% dei valori della variabile cade nell’intervallo µ±sl 95% dei valori della variabile cade nell’intervallo µ±2sl 99,7% dei valori della variabile cade nell’intervallo µ±3s
26
Distribuzioni statistiche distribuzione normale (Gaussiana)
l Distribuzione tipica di molti variabili relative a fenomeni naturali e comportamentali (es. peso, altezza, ecc.) e socialil i valori si concentrano intorno alla media, mentre i
valori estremi sono estremamente improbabilil gli errori di misura (errori accidentali) si distribuiscono
normalmente
0
0,03
0,06
0,09
0,12
0,15
75 80 85 90 95 100 105
n=40
0
0,03
0,06
0,09
0,12
0,15
75 80 85 90 95 100 105
n=160
0
0,03
0,06
0,09
0,12
0,15
75 80 85 90 95 100 105
n=5120
distribuzione normale degli errori di misura
27
Data una variabile x e una popolazione P in cui x ha media μx e deviazione standard σx - indipendentemente dalla distribuzione di x nella popolazione
- le medie di x in una serie di campioni casuali di dimensione n estratti dalla stessa popolazione si distribuiscono al crescere di n secondo una curva normale con media μx e con deviazione standard uguale a σx/Ön
Il Teorema del Limite Centrale
l Al crescere della dimensione di un campione, la media di una variabile misurata sui campioni converge al valore della media della popolazionel es. la distribuzione delle medie campionarie della lunghezza delle parole
tipo (in caratteri) approssima una gaussianal La media è un buon indicatore statistico che permette di fare
inferenze da campioni ai parametri della popolazionel la media della popolazione che si vuole stimare è molto vicina alla media
dei valori nei campioni estratta