Misurare la diversità Alessandro Giuliani. La diversità può essere definita solo in riferimento...

Post on 02-May-2015

213 views 0 download

transcript

Misurare la diversità

Alessandro Giuliani

La diversità può essere definita solo in riferimento ad una popolazione e per quanto riguarda una misuradotata di variabilità, che può cioè assumere diversi

valori in diversi individui

La quantificazione della diversità è quindi un problema statistico

• La statistica deriva dalla confluenza della sapienza sviluppata dagli esseri umani in relazione a due problemi differenti:

1. Lo sviluppo di numeri indice che riassumano le caratteristiche rilevanti di una popolazione (censimenti, statistica descrittiva).

2. Prendere decisioni in condizione di incertezza calcolando delle probabilità per diversi esiti

(gioco d’azzardo, statistica inferenziale)

mondo

misura

compressore

Ogni misura implica una scelta ben definita di prospettiva, solo alcune caratteristiche dell’oggetto vengono prese in considerazione, oggetti, eventi

diversi, dopo l’atto della misura risultano indistinguibili.

Una misura consiste in un insieme di regole che mi consente di assegnare univocamente, adun certo evento (campione di sangue, ratto, volume d’aria..) un valore

Questo valore deve essere tale da consentirmi di stabilire una metrica, cioè di dire se l’eventoA è più simile all’evento B o all’evento C.

D(a,b) = SQRT [ (X(a)-X(b))2 + (Y(a) – Y(b))2 ]

Matrici di dati

nome Eta’ Abitazione Reddito Sesso Lavoro

Mario 23 120 A M Lib. Prof.

Vanda 56 80 B F Cas.

Pietro 72 100 M M Pens.

Luca 38 130 M M Imp.

Pina 18 60 B F Stud

Lucia 25 75 M F Imp.

Tonino 42 62 B M Op.

Andrea 58 100 B M Contad.

Virginia 34 80 A F Lib. Prof.

Per la costruzione di una misura posso fare affidamento su un fenomeno fisicoCome ad esempio la dilatazione termica (termometri) o la forza di gravità (bilance).

..oppure posso immaginare un punteggio basato sulla risposta ad una serie di domande(es. cartella delle tasse, test psicologici..).

In ogni caso le mie misure non saranno mai la cosa in sé, ma dei ‘proxy’ cioè qualcosache ha a che vedere con qualcosa di misterioso che ne garantisce il senso in modo a noiignoto.

Classi di misure

• Scala intervallare : le differenze hanno significato quantitativo

• Scala ordinale: l’ordinamento e’ affidabile, l’entita’ dei distacchi no

• Scala qualitativa: dati di categoria, e’ affidabile solo l’assegnazione alle classi

Scala intervallare: temperature, pressioni, altezze, peso

Scala ordinale: voti scolastici, classifica campionato

Scala qualitativa: colore dei capelli, attivita’ lavorativa

E (X) = (X(i))/N ) : Media, indice di locazione

SD (X) = (X(i)) – E(X))2 / N: Deviazione standard, indice di diversità

ES = Std.Dev. / N (3)

Quanto differiscono tra loro le medie dei campioni ?

Tanto piu’ grandi i campioni, tantopiu’ simili fra di loro (legge dei grandi numeri)

Da non confondere con la variabilita’ naturale tra soggetti.

Il modello uniforme

Il modello normale

La quantita’ di informazione derivabile da una misura dipende dalla sua distribuzione in frequenza

Entropia = p(i)lg (p(i))

Una tabella di contingenza rappresenta una correlazione

*******************

******************

*******************

* * *

* * * ******************

******************

*******************

A Non A

B

Non B

Il calcolo dell’entropia (o indice di mutabilità) si basasulla divisione della popolazione in classi di cui si calcola la frequenza relativa.

La massima diversità (entropia) corrisponde alla distribuzione uniforme: tutte le classi sono equiprobabili,la mia incertezza nel collocare un oggetto sconosciutonella sua classe di appartenenza è massima.

Massima è quindi l’informazione che posso immagazzinare in una codifica dotata di elevataentropia.

Codifica: scegliere una dimensione privilegiata di interpretazione

La distribuzione di idrofobicità della proteina P53, la mancanza di un ordine prestabilito nella distribuzionespaziale di idrofobicità (elevata entropia), consente alla proteina di veicolare grandi quantità di informazione

0 100 200 300 400 500 600

0

200

400

600

0 100 200 300 400 500 600

-1.5

-1.0

-0.5

0.0

0.5

1.01.5

Il confronto del grado relativo di ‘diversità’ di due insiemi,insomma la decisione se l’ambiente A ha un maggiore gradodi biodiversità dell’insieme B o se il paziente A ha un maggiore grado di variabilità del paziente B relativo albattito cardiaco, ci costringe a prendere delle decisioniesplicite sullo stato delle cose.

Queste decisioni vanno sotto il nome generico diSTANDARDIZZAZIONE

Due insiemi A e B, chi è il più variabile ?

A: 10, 20, 30B: 1, 2, 3

Due distribuzioni C e D, chi ha più entropia ?

c1 c2 c3C: 0.33 0.33 0.33

d1 d2 d3 d4D: 0.25 0.25 0.25 0.25

La scelta di una misura piuttosto di un’ altra,di cosa diamo per ‘già dato’ e quindi irrilevante,da normalizzare o da considerare esplicitamente,influenza il nostro giudizio di diversità.

Non esistono misure neutre, esistono però misureoneste.