Post on 17-Feb-2019
transcript
1/39 P�i?22333ML232
Corso di Teoria dei CampioniFacolta di Economia — Corso di Laurea SIGI
M. Giovanna Ranalli
email: giovanna@stat.unipg.it
sito web: www.stat.unipg.it/∼giovanna → didattica
2/39 P�i?22333ML232
Il programma del corso
• Popolazioni finite; concetti base della teoria dei campioni; Stimatore fondamentale
di Horvitz-Thompson.
• Piani di campionamento probabilistici: casuale semplice, sistematico, con probabilita
variabili, stratificato, a piu stadi.
• Piani di campionamento non probabilistici
• Stima per intervallo, Dimensionamento del campione.
• Ottica post-campionaria: domini di studio, stima per quoziente e per regressione,
post - stratificazione e calibrazione
• Fonti di errore non campionario.
• Indagini ripetute nel tempo.
3/39 P�i?22333ML232
Organizzazione del corso
• lezioni frontali
• esercitazioni in laboratorio (5)
• bonus consegna esercitazioni
• dispensa e altro materiale online
• esame orale
4/39 P�i?22333ML232
Introduzione alle Popolazioni Finite
La Teoria dei Campioni e quella parte delle Scienze Statistiche che si occupa dei criteri
scientifici a cui attenersi nella estrazione di un campione da una popolazione finita o
infinita, allo scopo di fare inferenza su di essa con un costo minore possibile.
Si definisce popolazione finita ogni insieme di unita di uno stesso tipo e di numerosita
limitata di cui interessa studiare una o piu caratteristiche comuni.
Una popolazione finita e identificabile, cioe etichettabile:
Lista delle unita: U = 1, 2, ..., N
Carattere statistico: y
Distribuzione semplice in forma unitaria o disaggregata:
Unita 1 2 3 . . . i . . . N
Intensita Y1 Y2 Y3 . . . Yi . . . YN
5/39 P�i?22333ML232
Caratteri qualitativi e distribuzioni multivariate
Variabile dicotomica
Yi =
{1 se l’attributo e presente
0 altrimenti
Dati y e x caratteri statistici, la distribuzione doppia (congiunta) unitaria o disaggregata
e data da
Unita 1 2 3 . . . i . . . N
Intensita y Y1 Y2 Y3 . . . Yi . . . YN
Intensita x X1 X2 X3 . . . Xi . . . XN
e di conseguenza per estensione le distribuzioni triple, quadruple, e multivariate in genere.
Una popolazione si dice interamente nota rispetto ad uno o piu caratteri statistici quando
si conosce la distribuzioni congiunta dei caratteri considerati.
6/39 P�i?22333ML232
Parametri descrittivi della popolazioneSi chiamano parametri descrittivi quelle costanti che descrivono uno o piu aspetti della
distribuzione di uno o piu caratteri statistici.
• La media: Y = 1N
∑Ni=1 Yi (se y e binaria → frequenza relativa attributo)
• Il totale: Y =∑N
i=1 Yi (se y e binaria → frequenza assoluta attributo)
• La varianza: S2y = 1
N−1
∑Ni=1(Yi − Y )2
• La covarianza: Syx = 1N−1
∑Ni=1(Yi − Y )(Xi − X)
• Il coefficiente di variazione Cy = 100Sy
Y
• Il rapporto tra totali o medie R = YX
= YX
• Il coefficiente di correlazione lineare: ryx = Syx
SySx
• Il coefficiente di regressione: by/x = Syx
S2x
Inferenza descrittiva e inferenza analitica
7/39 P�i?22333ML232
Censimento e campionamento – censimento
Vantaggi del censimento
1. Consente di conoscere interamente una popolazione rispetto ad un insieme di ca-
ratteri e di ricavare il valore esatto (?) dei parametri descrittivi di interesse.
2. Consente lanalisi della distribuzione di uno o piu caratteri in una qualsiasi sottopo-
polazione possa interessare, piccola quanto si vuole.
Svantaggi del censimento
1. Tempi di svolgimento molto lunghi e costi estremamente elevati.
2. Bassa qualita dei dati (intendendo con questo termine la corrispondenza tra i dati
raccolti e la realta effettiva)
8/39 P�i?22333ML232
Censimento e campionamento – campionamento
Vantaggi del campionamento
1. Tempi ridotti di esecuzione e costi contenuti.
2. Possibile elevata qualita dei dati
Svantaggi del campionamento
1. Non si possono ricavare risultati attendibili per sottopopolazioni piu piccole di quelle
considerate nello stabilire la dimensione del campione.
2. Presenza dell’errore di campionamento.
9/39 P�i?22333ML232
Fonti di errore nelle rilevazioni statisticheFonti di errore non campionario
Progettazione lacunosa dell’indagine – pertinenza dei caratteri da rilevare rispetto
al problema da studiare, corretta individuazione della popolazione, mancanza di
controllo di fattori subsperimentali, etc.
Difettosita delle liste da cui viene estratto il campione – nominativi mancanti, nomi-
nativi ripetuti, inesistenti o incompleti, etc.
Errori di misurazione – generati dal rispondente, dallintervistatore, dal questionario,
da mancata osservazione, da errori di trattamento dei dati.
L’errore totale – i.e. lo scostamento tra i valori calcolati dei parametri di interesse ed
il valore effettivo nella popolazione considerata – e somma delle diverse fonti di errore
non campionario e dell’errore campionario.
10/39 P�i?22333ML232
Le rilevazioni statisticheCon il termine rilevazione dei dati si intende qui l’insieme delle operazioni con cui si
perviene alla conoscenza delle modalita dei caratteri da osservare nelle diverse unita di
un collettivo.
Studi osservazionali ⇒ Indagini statistiche ⇒ Piano della rilevazione
Studi sperimentali ⇒ Sperimentazione ⇒ Piano della sperimentazione
11/39 P�i?22333ML232
Fasi di una rilevazione dei dati – 1A) Scopo e finalita dello studio. Studio esplorativo o qualitativo, Studio descrittivo,
Studio esplicativo, Studio trasversale, Studio longitudinale.
B) Dettaglio dei caratteri e scale di misura. Modalita automatiche, Classificazioni
ufficiali – attivita economiche, produzioni, professioni, cause di morte, ecc. Modalita
definite dal ricercatore, Caratteri quantitativi – livello di precisione, classi.
C) Unita statistica, popolazione, unita di rilevazione.
D) Periodo di riferimento e svolgimento. Fenomeni di stato, Fenomeni di movi-
mento
E) Tipo di rilevazione. Rilevazione totale, Rilevazione campionaria – dimensione e
modalita di estrazione del campione – Rilevazione unica, saltuaria, periodica.
12/39 P�i?22333ML232
Fasi di una rilevazione dei dati – 2F) Strumenti di misura, questionario e modalita di somministrazione. Il questio-
nario deve contenere domande:
• pertinenti e in numero minore possibile,
• univocamente interpretabili,
• che richiedono sforzi limitati di memoria,
• che non creano imbarazzo o tensione psicologica.
Modalita di somministrazione: interviste dirette o faccia a faccia, interviste telefo-
niche, autocompilazione del questionario, metodi informatizzati. Indagine pilota.
G) Lavoro sul campo.
H) Codifica, registrazione su supporto magnetico, revisione. Revisione e control-
lo dei dati, imputazione dei dati mancanti, Matrice dei dati o dei microdati.
I) Elaborazione dei dati, risultati e rapporto di ricerca. Spoglio dei dati o tabu-
lazione dei dati, distribuzioni e macrodati, Rapporto di ricerca.
13/39 P�i?22333ML232
Le statistiche ufficiali e le fonti dei dati• L’ISTAT e il SISTAN (legge di riforma del 1989)
• L’EUROSTAT
• Istituti demoscopici e di ricerche di mercato (Doxa, Cirm, Nielsen, ecc. )
14/39 P�i?22333ML232
Definizione di campione e spazio campionario
Si consideri una popolazione finita U = {1, 2, . . . , N}.
• Definiamo campione un qualsiasi sottoinsieme di n unita di U .
s = {i1, i2, . . . , in}, dove ij e l’etichetta della j-esima unita campionaria, con j =
1, 2, . . . , n.
• Indicheremo con S l’universo dei campioni
dimensione del campione cardinalita di S
n
(N
n
)=
N !
n!(N − n)!
qualsiasiN∑
n=1
N !
n!(N − n)!= 2N − 1
• Tasso di sondaggio f = n/N
15/39 P�i?22333ML232
Schema di selezione e piano di campionamento
• Si chiama schema di selezione del campione qualsiasi meccanismo o procedimento
che porta alla selezione di un campione
• Si chiama piano di campionamento ogni funzione p(s) definita su S (cioe sullo
spazio campionario) tale che:
1. p(s) ≥ 0, ∀s ∈ S;
2.∑
s∈S p(s) = 1.
• Schema di selezione ⇒ Piano di campionamento
:
16/39 P�i?22333ML232
Esempio di schema di selezione
Sia U = {1, 2, . . . , i, . . . , N}
1. Si estragga una etichetta a caso con probabilita uguali per ottenere la prima unita
campionaria.
2. Si estragga una seconda etichetta a caso con probabilita uguali dalle rimanenti.
3. Si ripeta il passo 2 altre n− 2 volte, dove n < N .
Piano di campionamento:
p(s) =
1(Nn
) =n!(N − n)!
N !se s ha dimensione n
0 altrimenti
.
⇒ Campionamento casuale semplice senza ripetizione.
17/39 P�i?22333ML232
Probabilita di inclusione del primo ordine
Si chiama probabilita di inclusione del primo ordine dell’unita i di U la quantita
πi =∑s3i
p(s),
dove la sommatoria e estesa a tutti i campioni che contengono l’unita i.
Se definiamo la variabile indicatrice δi come
δi =
{1 se l’unita i appartiene al campione
0 altrimenti,
allora
πi =∑s∈S
p(s)δi = E(δi).
18/39 P�i?22333ML232
Esempio di calcolo delle probabilita di inclusione del
primo ordine
Sia U = {1, 2, 3, 4, 5}
Campione p(s) δ1
s1 = {1, 2, 3, 4} 0.1 1
s2 = {1, 2, 3, 5} 0.2 1
s3 = {1, 2, 4, 5} 0.2 1
s4 = {1, 3, 4, 5} 0.3 1
s5 = {2, 3, 4, 5} 0.2 0
1,0
allora π1 = 0.8, si verifichi che π2 = 0.7, π3 = 0.8, π4 = 0.8, π5 = 0.9.
19/39 P�i?22333ML232
Probabilita di inclusione del secondo ordineSi chiama probabilita di inclusione del secondo ordine della coppia di unita i, j di U la
quantita
πij =∑s3i,j
p(s),
dove la sommatoria e estesa a tutti i campioni che contengono la coppia di unita i e j.
Si ha anche che
πij =∑s∈S
p(s)δiδj = E(δiδj).
20/39 P�i?22333ML232
Esempio di calcolo delle probabilita di inclusione del
secondo ordineSia U = {1, 2, 3, 4, 5}
Campione p(s) δ1 δ2 δ1δ2
s1 = {1, 2, 3, 4} 0,1 1 1 1
s2 = {1, 2, 3, 5} 0,2 1 1 1
s3 = {1, 2, 4, 5} 0,2 1 1 1
s4 = {1, 3, 4, 5} 0,3 1 0 0
s5 = {2, 3, 4, 5} 0,2 0 1 0
1,0
allora π12 = 0, 5; si trovino per esercizio le altre.
21/39 P�i?22333ML232
Calcolo delle probabilita di inclusione per il CCS
Primo ordine
πi =∑s3i
p(s) =(N − 1)!
(n− 1)!(N − n)!
n!(N − n)!
N !=
n
N
Secondo ordine
πij =∑s3ij
p(s) =(N − 2)!
(n− 2)!(N − n)!
n!(N − n)!
N !=
n
N
n− 1
N − 1
22/39 P�i?22333ML232
Importanti definizioni per i piani di campionamento
relative alle probabilita di inclusione
• Un piano di campionamento si dice probabilistico se ogni unita della popolazione
ha una probabilita del primo ordine positiva (πi > 0,∀i ∈ U) e calcolabile.
• Un piano di campionamento si dice autoponderante se le probabilita di inclusione
delle unita della popolazione sono tutte uguali (πi costante).
• Un piano di campionamento si dice misurabile se le probabilita di inclusione del
secondo ordine sono tutte positive (πij > 0,∀i, j ∈ U) e calcolabili.
Il CCS e ...
23/39 P�i?22333ML232
Momenti delle variabili indicatrici δiδi per i = 1, 2, . . . , N sono variabili casuali bernoulliane non indipendenti e tali che:
• E(δi) = πi,
• V (δi) = πi(1− πi),
• C(δi, δj) = E(δiδj)− E(δi)E(δj) = πij − πiπj.
Inoltre, n(s) =N∑
i=1
δi ⇒ E[n(s)] =N∑
i=1
πi
se n(s) = n, alloraN∑
i=1
πi = n.
24/39 P�i?22333ML232
La matrice dei dati
unita campionaria etichetta variabile y variabile x . . . variabile z
1 j1 Y1 X1 . . . Z1
2 j2 Y2 X2 . . . Z1
3 j3 Y3 X3 . . . Z3
......
......
......
i ji Yi Xi . . . Zi
......
......
......
n jn Yn Xn . . . Zn
25/39 P�i?22333ML232
Le statistiche campionarie
• La media campionaria: y = 1n
∑ni=1 Yi
• Il totale campionario: ty =∑n
i=1 Yi
• La varianza campionaria: s2y = 1
n−1
∑ni=1(Yi − y)2
• La covarianza campionaria: syx = 1n−1
∑ni=1(Yi − y)(Xi − x)
• Il coefficiente di variazione cy = 100 sy
y
• Il rapporto tra totali o medie Rc = tytx
= yx
• Il coefficiente di correlazione lineare: rcyx = syx
sysx
• Il coefficiente di regressione: bcy/x = syx
s2x
Ad ogni parametro descrittivo della popolazione corrisponde una statistica campionaria
calcolata con la medesima formula (considerando il campione come una popolazione).
Si ottiene uno stimatore “naturale”, ma...
26/39 P�i?22333ML232
Stimatori• Si chiama stimatore θ di un parametro θ della popolazione ogni statistica campio-
naria prescelta per assegnare un valore al parametro considerato.
• Si chiama stima il valore numerico dello stimatore nel campione estratto.
• Si chiama errore di stima la differenza tra la stima e il valore del parametro.
Distribuzione campionaria dello stimatore θ
campione probabilita stima errore di stima
s1 p(s1) θ1 θ1 − θs2 p(s2) θ2 θ2 − θs3 p(s3) θ3 θ3 − θ...
......
...
sM p(sM) θM θM − θ
27/39 P�i?22333ML232
Criteri di selezione dello stimatore – 1
Correttezza.
Sia E(θ) =∑
s∈S θsp(s). Uno stimatore del parametro θ si dice corretto, o non
distorto, se il suo valore atteso coincide con θ:
E(θ) = θ.
Si chiama distorsione di uno stimatore la quantita
B(θ) = E(θ)− θ.
28/39 P�i?22333ML232
Criteri di selezione dello stimatore – 2Efficienza.
Errore quadratico medio dello stimatore:
MSE(θ) =∑s∈S
(θs − θ)2p(s).
Vale che MSE(θ) = V (θ) +B(θ)2 (∗), dove
V (θ) =∑s∈S
[θs − E(θ)]2p(s),
e la varianza dello stimatore. Uno stimatore θ1 si dice piu efficiente di un altro
stimatore θ2 se si verifica che
MSE(θ1) 6 MSE(θ2) per ogni valore di θ.
29/39 P�i?22333ML232
Le strategie campionarie
Si chiama strategia campionaria ogni coppia costituita da un piano di campionamento
e da uno stimatore, ovvero [p(s), θ].
Correttezza. Una strategia campionaria si dice corretta se lo stimatore e corretto
rispetto al piano di campionamento prescelto.
Efficienza. Una strategia campionaria [p1(s), θ1] si dice piu efficiente di un’altra stra-
tegia [p2(s), θ2] se si verifica che
MSE1(θ1) 6 MSE2(θ2) per ogni valore di θ.
L’obiettivo della teoria dei campioni e quello di individuare la strategia piu efficiente
a parita di costo complessivo della rilevazione.
30/39 P�i?22333ML232
Lo stimatore corretto fondamentale• Stima corretta del totale - stimatore di Horvitz-Thompson.
• Varianza dello stimatore di HT.
• Stima della varianza dello stimatore di HT:
– stima di HT;
– stima di Yates-Grundy.
• Stima corretta della media
• Stima di altri parametri
– funzioni lineari di totali di popolazione;
– funzioni NON lineari di totali di popolazione – metodo della linearizzazione.
31/39 P�i?22333ML232
Stima corretta del totaleParametro da stimare: Y =
∑Ni=1 Yi.
Stimatore lineare: Y =∑n
i=1wiYi.
Si vuole che E(Y ) = Y . Quali pesi wi garantiscono uno stimatore corretto? Riscriviamo
Y =n∑
i=1
wiYi =N∑
i=1
wiYiδi,
allora
E(Y ) =N∑
i=1
wiYiE(δi) =N∑
i=1
wiYiπi
e quindi la condizione di correttezza impone che
wi =1
πi
32/39 P�i?22333ML232
Stimatore di Horvitz-Thompson
Y =n∑
i=1
Yi
πi
• campione probabilistico garantisce il calcolo di uno stimatore corretto
• campione autoponderante Y =n∑
i=1
Yi
π=tyπ
• Stima della media Y =Y
N
ESEMPIO: campionamento casuale semplice: πi = π = nN
, allora lo stimatore di Horvitz-
Thompson per questo piano di campionamento sara
• TOTALE Y =n∑
i=1
YiN
n=N
nty = Ny
• MEDIA Y = y
33/39 P�i?22333ML232
Esempio di calcoloSi definisca la popolazione U = {1, 2, 3, 4} di dimensione N = 4. Lo spazio campionario nel caso di
campioni di dimensione n = 3 estratti senza ripetizione e dato da S = { (1,2,3), (1,2,4), (1,3,4),
(2,3,4) }. Si supponga che le probabilita di estrazione di ciascun campione siano le seguenti:
s p(s)
(1,2,3) 0.15
(1,2,4) 0.35
(1,3,4) 0.30
(2,3,4) 0.20
1
Le probabilita di inclusione del I ordine per ciascuna unita sono:
i 1 2 3 4
πi 0.80 0.70 0.65 0.85
Le probabilita di inclusione del II ordine per ciascuna coppia di unita sono:
(i, j) (1,2) (1,3) (1,4) (2,3) (2,4) (3,4)
πij 0.50 0.45 0.65 0.35 0.55 0.50
34/39 P�i?22333ML232
Esempio di calcolo (continua)Si supponga che la variabile di interesse assuma i seguenti valori:
i Yi πi wi
1 50 0.80 1.25
2 32 0.70 1.43
3 48 0.65 1.54
4 65 0.85 1.18
da cui si ricava Y = (50+32+48+65)/4 = 48.75. Per il primo campione, s = {1, 2, 3}, le osservazioni
sono (50, 32, 48) e quindi Y =14
(50
0.80+
320.70
+48
0.65
)= 45.51,
mentre la media campionaria y =∑n
i=1 Yi/n e pari a y = (50 + 32 + 48)/3 = 43.33. Per i 4 possibili
campioni, la distribuzione degli stimatori Y e y e la seguente:
35/39 P�i?22333ML232
Esempio di calcolo (fine)
s YiY y p(s)
(1,2,3) (50,32,48) 45.51 43.33 0.15
(1,2,4) (50,32,65) 46.17 49.00 0.35
(2,3,4) (32,48,65) 49.01 48.33 0.20
(1,3,4) (50,48,65) 53.20 54.33 0.30
E( Y ) = 45.51× 0.15 + 46.17× 0.35 + 49.01× 0.20 + 53.20× 0.30 = 48.75
V ( Y ) = MSE( Y ) = (45.51− 48.75)2 × 0.15 + . . .+ (53.20− 48.75)2 × 0.30 = 9.85
E(y) = 43.33× 0.15 + 49.00× 0.35 + 48.33× 0.20 + 54.33× 0.30 = 49.62 6= 48.75
MSE(y) = (43.33− 48.75)2 × 0.15 + . . .+ (54.33− 48.75)2 × 0.30 = 13.81
36/39 P�i?22333ML232
Varianza dello stimatore corretto
V (Y ) = V
(N∑
i=1
Yi
πi
δi
)
=N∑
i=1
Y 2i
π2i
V (δi) +N∑
i=1
N∑j 6=i
Yi
πi
Yj
πj
C(δi, δj)
=N∑
i=1
Y 2i
πi
(1− πi) +N∑
i=1
N∑j 6=i
Yi
πi
Yj
πj
(πij − πiπj)
Se n(s) = n, si puo dimostrare che
V (Y ) =1
2
N∑i=1
N∑j 6=i
(πiπj − πij)
(Yi
πi
− Yj
πj
)2
37/39 P�i?22333ML232
Stima della varianza dello stimatore di HT
Risultato preliminare utile. Sia B =N∑
i=1
N∑j 6=i
bij, allora B =n∑
i=1
n∑j 6=i
bijπij
e corretto per B.
Infatti E(B) =N∑
i=1
N∑j 6=i
bijπij
E(δiδj) = B. La varianza dello stimatore di HT puo essere
vista come la somma di due totali V (Y ) = A+B, dove
A =N∑
i=1
ai =N∑
i=1
Y 2i
πi
(1− πi), B =N∑
i=1
N∑j 6=i
Yi
πi
Yj
πj
(πij − πiπj) =N∑
i=1
N∑j 6=i
bij.
Quindi uno stimatore corretto di Horvitz-Thompson di V (Y ) e dato da
v(Y ) =n∑
i=1
Y 2i
π2i
(1− πi) +n∑
i=1
n∑j 6=i
Yi
πi
Yj
πj
πij − πiπj
πij
38/39 P�i?22333ML232
Stimatore della varianza di Yates-Grundy
Uno stimatore alternativo si puo ottenere nel caso in cui n(s) = n
v(Y ) =1
2
n∑i=1
n∑j 6=i
πiπj − πij
πij
(Yi
πi
− Yj
πj
)2
• misurabilita
• varianza dello stimatore della media: V ( Y ) = V
(Y
N
)=V (Y )
N2
• stimatore della varianza dello stimatore della media: v( Y ) =v(Y )
N2
39/39 P�i?22333ML232
Stima di altri parametri della popolazione
X combinazioni lineari di totali di popolazione.
Es. D = Y −X → D = Y − X e corretto per D
× altre funzioni di totali: R =Y
X→ R =
Y
Xnon e corretto per R
• metodo della linearizzazione.