Corso di Teoria dei Campioni Facolt a di Economia …giovanna/didattica/teo/baseHT.pdf2/39 2 3 L2 3M...

transcript

1/39 P�i?22333ML232

Corso di Teoria dei CampioniFacolta di Economia — Corso di Laurea SIGI

M. Giovanna Ranalli

email: giovanna@stat.unipg.it

sito web: www.stat.unipg.it/∼giovanna → didattica

2/39 P�i?22333ML232

Il programma del corso

• Popolazioni finite; concetti base della teoria dei campioni; Stimatore fondamentale

di Horvitz-Thompson.

• Piani di campionamento probabilistici: casuale semplice, sistematico, con probabilita

variabili, stratificato, a piu stadi.

• Piani di campionamento non probabilistici

• Stima per intervallo, Dimensionamento del campione.

• Ottica post-campionaria: domini di studio, stima per quoziente e per regressione,

post - stratificazione e calibrazione

• Fonti di errore non campionario.

• Indagini ripetute nel tempo.

3/39 P�i?22333ML232

Organizzazione del corso

• lezioni frontali

• esercitazioni in laboratorio (5)

• bonus consegna esercitazioni

• dispensa e altro materiale online

• esame orale

4/39 P�i?22333ML232

Introduzione alle Popolazioni Finite

La Teoria dei Campioni e quella parte delle Scienze Statistiche che si occupa dei criteri

scientifici a cui attenersi nella estrazione di un campione da una popolazione finita o

infinita, allo scopo di fare inferenza su di essa con un costo minore possibile.

Si definisce popolazione finita ogni insieme di unita di uno stesso tipo e di numerosita

limitata di cui interessa studiare una o piu caratteristiche comuni.

Una popolazione finita e identificabile, cioe etichettabile:

Lista delle unita: U = 1, 2, ..., N

Carattere statistico: y

Distribuzione semplice in forma unitaria o disaggregata:

Unita 1 2 3 . . . i . . . N

Intensita Y1 Y2 Y3 . . . Yi . . . YN

5/39 P�i?22333ML232

Caratteri qualitativi e distribuzioni multivariate

Variabile dicotomica

{1 se l’attributo e presente

0 altrimenti

Dati y e x caratteri statistici, la distribuzione doppia (congiunta) unitaria o disaggregata

e data da

Unita 1 2 3 . . . i . . . N

Intensita y Y1 Y2 Y3 . . . Yi . . . YN

Intensita x X1 X2 X3 . . . Xi . . . XN

e di conseguenza per estensione le distribuzioni triple, quadruple, e multivariate in genere.

Una popolazione si dice interamente nota rispetto ad uno o piu caratteri statistici quando

si conosce la distribuzioni congiunta dei caratteri considerati.

6/39 P�i?22333ML232

Parametri descrittivi della popolazioneSi chiamano parametri descrittivi quelle costanti che descrivono uno o piu aspetti della

distribuzione di uno o piu caratteri statistici.

• La media: Y = 1N

∑Ni=1 Yi (se y e binaria → frequenza relativa attributo)

• Il totale: Y =∑N

i=1 Yi (se y e binaria → frequenza assoluta attributo)

• La varianza: S2y = 1

∑Ni=1(Yi − Y )2

• La covarianza: Syx = 1N−1

∑Ni=1(Yi − Y )(Xi − X)

• Il coefficiente di variazione Cy = 100Sy

• Il rapporto tra totali o medie R = YX

• Il coefficiente di correlazione lineare: ryx = Syx

• Il coefficiente di regressione: by/x = Syx

Inferenza descrittiva e inferenza analitica

7/39 P�i?22333ML232

Censimento e campionamento – censimento

Vantaggi del censimento

1. Consente di conoscere interamente una popolazione rispetto ad un insieme di ca-

ratteri e di ricavare il valore esatto (?) dei parametri descrittivi di interesse.

2. Consente lanalisi della distribuzione di uno o piu caratteri in una qualsiasi sottopo-

polazione possa interessare, piccola quanto si vuole.

Svantaggi del censimento

1. Tempi di svolgimento molto lunghi e costi estremamente elevati.

2. Bassa qualita dei dati (intendendo con questo termine la corrispondenza tra i dati

raccolti e la realta effettiva)

8/39 P�i?22333ML232

Censimento e campionamento – campionamento

Vantaggi del campionamento

1. Tempi ridotti di esecuzione e costi contenuti.

2. Possibile elevata qualita dei dati

Svantaggi del campionamento

1. Non si possono ricavare risultati attendibili per sottopopolazioni piu piccole di quelle

considerate nello stabilire la dimensione del campione.

2. Presenza dell’errore di campionamento.

9/39 P�i?22333ML232

Fonti di errore nelle rilevazioni statisticheFonti di errore non campionario

Progettazione lacunosa dell’indagine – pertinenza dei caratteri da rilevare rispetto

al problema da studiare, corretta individuazione della popolazione, mancanza di

controllo di fattori subsperimentali, etc.

Difettosita delle liste da cui viene estratto il campione – nominativi mancanti, nomi-

nativi ripetuti, inesistenti o incompleti, etc.

Errori di misurazione – generati dal rispondente, dallintervistatore, dal questionario,

da mancata osservazione, da errori di trattamento dei dati.

L’errore totale – i.e. lo scostamento tra i valori calcolati dei parametri di interesse ed

il valore effettivo nella popolazione considerata – e somma delle diverse fonti di errore

non campionario e dell’errore campionario.

10/39 P�i?22333ML232

Le rilevazioni statisticheCon il termine rilevazione dei dati si intende qui l’insieme delle operazioni con cui si

perviene alla conoscenza delle modalita dei caratteri da osservare nelle diverse unita di

un collettivo.

Studi osservazionali ⇒ Indagini statistiche ⇒ Piano della rilevazione

Studi sperimentali ⇒ Sperimentazione ⇒ Piano della sperimentazione

11/39 P�i?22333ML232

Fasi di una rilevazione dei dati – 1A) Scopo e finalita dello studio. Studio esplorativo o qualitativo, Studio descrittivo,

Studio esplicativo, Studio trasversale, Studio longitudinale.

B) Dettaglio dei caratteri e scale di misura. Modalita automatiche, Classificazioni

ufficiali – attivita economiche, produzioni, professioni, cause di morte, ecc. Modalita

definite dal ricercatore, Caratteri quantitativi – livello di precisione, classi.

C) Unita statistica, popolazione, unita di rilevazione.

D) Periodo di riferimento e svolgimento. Fenomeni di stato, Fenomeni di movi-

E) Tipo di rilevazione. Rilevazione totale, Rilevazione campionaria – dimensione e

modalita di estrazione del campione – Rilevazione unica, saltuaria, periodica.

12/39 P�i?22333ML232

Fasi di una rilevazione dei dati – 2F) Strumenti di misura, questionario e modalita di somministrazione. Il questio-

nario deve contenere domande:

• pertinenti e in numero minore possibile,

• univocamente interpretabili,

• che richiedono sforzi limitati di memoria,

• che non creano imbarazzo o tensione psicologica.

Modalita di somministrazione: interviste dirette o faccia a faccia, interviste telefo-

niche, autocompilazione del questionario, metodi informatizzati. Indagine pilota.

G) Lavoro sul campo.

H) Codifica, registrazione su supporto magnetico, revisione. Revisione e control-

lo dei dati, imputazione dei dati mancanti, Matrice dei dati o dei microdati.

I) Elaborazione dei dati, risultati e rapporto di ricerca. Spoglio dei dati o tabu-

lazione dei dati, distribuzioni e macrodati, Rapporto di ricerca.

13/39 P�i?22333ML232

Le statistiche ufficiali e le fonti dei dati• L’ISTAT e il SISTAN (legge di riforma del 1989)

• L’EUROSTAT

• Istituti demoscopici e di ricerche di mercato (Doxa, Cirm, Nielsen, ecc. )

14/39 P�i?22333ML232

Definizione di campione e spazio campionario

Si consideri una popolazione finita U = {1, 2, . . . , N}.

• Definiamo campione un qualsiasi sottoinsieme di n unita di U .

s = {i1, i2, . . . , in}, dove ij e l’etichetta della j-esima unita campionaria, con j =

1, 2, . . . , n.

• Indicheremo con S l’universo dei campioni

dimensione del campione cardinalita di S

n!(N − n)!

qualsiasiN∑

n!(N − n)!= 2N − 1

• Tasso di sondaggio f = n/N

15/39 P�i?22333ML232

Schema di selezione e piano di campionamento

• Si chiama schema di selezione del campione qualsiasi meccanismo o procedimento

che porta alla selezione di un campione

• Si chiama piano di campionamento ogni funzione p(s) definita su S (cioe sullo

spazio campionario) tale che:

1. p(s) ≥ 0, ∀s ∈ S;

s∈S p(s) = 1.

• Schema di selezione ⇒ Piano di campionamento

16/39 P�i?22333ML232

Esempio di schema di selezione

Sia U = {1, 2, . . . , i, . . . , N}

1. Si estragga una etichetta a caso con probabilita uguali per ottenere la prima unita

campionaria.

2. Si estragga una seconda etichetta a caso con probabilita uguali dalle rimanenti.

3. Si ripeta il passo 2 altre n− 2 volte, dove n < N .

Piano di campionamento:

p(s) =

) =n!(N − n)!

N !se s ha dimensione n

0 altrimenti

⇒ Campionamento casuale semplice senza ripetizione.

17/39 P�i?22333ML232

Probabilita di inclusione del primo ordine

Si chiama probabilita di inclusione del primo ordine dell’unita i di U la quantita

πi =∑s3i

dove la sommatoria e estesa a tutti i campioni che contengono l’unita i.

Se definiamo la variabile indicatrice δi come

{1 se l’unita i appartiene al campione

0 altrimenti,

allora

πi =∑s∈S

p(s)δi = E(δi).

18/39 P�i?22333ML232

Esempio di calcolo delle probabilita di inclusione del

primo ordine

Sia U = {1, 2, 3, 4, 5}

Campione p(s) δ1

s1 = {1, 2, 3, 4} 0.1 1

s2 = {1, 2, 3, 5} 0.2 1

s3 = {1, 2, 4, 5} 0.2 1

s4 = {1, 3, 4, 5} 0.3 1

s5 = {2, 3, 4, 5} 0.2 0

allora π1 = 0.8, si verifichi che π2 = 0.7, π3 = 0.8, π4 = 0.8, π5 = 0.9.

19/39 P�i?22333ML232

Probabilita di inclusione del secondo ordineSi chiama probabilita di inclusione del secondo ordine della coppia di unita i, j di U la

quantita

πij =∑s3i,j

dove la sommatoria e estesa a tutti i campioni che contengono la coppia di unita i e j.

Si ha anche che

πij =∑s∈S

p(s)δiδj = E(δiδj).

20/39 P�i?22333ML232

Esempio di calcolo delle probabilita di inclusione del

secondo ordineSia U = {1, 2, 3, 4, 5}

Campione p(s) δ1 δ2 δ1δ2

s1 = {1, 2, 3, 4} 0,1 1 1 1

s2 = {1, 2, 3, 5} 0,2 1 1 1

s3 = {1, 2, 4, 5} 0,2 1 1 1

s4 = {1, 3, 4, 5} 0,3 1 0 0

s5 = {2, 3, 4, 5} 0,2 0 1 0

allora π12 = 0, 5; si trovino per esercizio le altre.

21/39 P�i?22333ML232

Calcolo delle probabilita di inclusione per il CCS

Primo ordine

πi =∑s3i

p(s) =(N − 1)!

(n− 1)!(N − n)!

n!(N − n)!

Secondo ordine

πij =∑s3ij

p(s) =(N − 2)!

(n− 2)!(N − n)!

n!(N − n)!

n− 1

N − 1

22/39 P�i?22333ML232

Importanti definizioni per i piani di campionamento

relative alle probabilita di inclusione

• Un piano di campionamento si dice probabilistico se ogni unita della popolazione

ha una probabilita del primo ordine positiva (πi > 0,∀i ∈ U) e calcolabile.

• Un piano di campionamento si dice autoponderante se le probabilita di inclusione

delle unita della popolazione sono tutte uguali (πi costante).

• Un piano di campionamento si dice misurabile se le probabilita di inclusione del

secondo ordine sono tutte positive (πij > 0,∀i, j ∈ U) e calcolabili.

Il CCS e ...

23/39 P�i?22333ML232

Momenti delle variabili indicatrici δiδi per i = 1, 2, . . . , N sono variabili casuali bernoulliane non indipendenti e tali che:

• E(δi) = πi,

• V (δi) = πi(1− πi),

• C(δi, δj) = E(δiδj)− E(δi)E(δj) = πij − πiπj.

Inoltre, n(s) =N∑

δi ⇒ E[n(s)] =N∑

se n(s) = n, alloraN∑

πi = n.

24/39 P�i?22333ML232

La matrice dei dati

unita campionaria etichetta variabile y variabile x . . . variabile z

1 j1 Y1 X1 . . . Z1

2 j2 Y2 X2 . . . Z1

3 j3 Y3 X3 . . . Z3

......

i ji Yi Xi . . . Zi

......

n jn Yn Xn . . . Zn

25/39 P�i?22333ML232

Le statistiche campionarie

• La media campionaria: y = 1n

∑ni=1 Yi

• Il totale campionario: ty =∑n

i=1 Yi

• La varianza campionaria: s2y = 1

∑ni=1(Yi − y)2

• La covarianza campionaria: syx = 1n−1

∑ni=1(Yi − y)(Xi − x)

• Il coefficiente di variazione cy = 100 sy

• Il rapporto tra totali o medie Rc = tytx

• Il coefficiente di correlazione lineare: rcyx = syx

• Il coefficiente di regressione: bcy/x = syx

Ad ogni parametro descrittivo della popolazione corrisponde una statistica campionaria

calcolata con la medesima formula (considerando il campione come una popolazione).

Si ottiene uno stimatore “naturale”, ma...

26/39 P�i?22333ML232

Stimatori• Si chiama stimatore θ di un parametro θ della popolazione ogni statistica campio-

naria prescelta per assegnare un valore al parametro considerato.

• Si chiama stima il valore numerico dello stimatore nel campione estratto.

• Si chiama errore di stima la differenza tra la stima e il valore del parametro.

Distribuzione campionaria dello stimatore θ

campione probabilita stima errore di stima

s1 p(s1) θ1 θ1 − θs2 p(s2) θ2 θ2 − θs3 p(s3) θ3 θ3 − θ...

......

sM p(sM) θM θM − θ

27/39 P�i?22333ML232

Criteri di selezione dello stimatore – 1

Correttezza.

Sia E(θ) =∑

s∈S θsp(s). Uno stimatore del parametro θ si dice corretto, o non

distorto, se il suo valore atteso coincide con θ:

E(θ) = θ.

Si chiama distorsione di uno stimatore la quantita

B(θ) = E(θ)− θ.

28/39 P�i?22333ML232

Criteri di selezione dello stimatore – 2Efficienza.

Errore quadratico medio dello stimatore:

MSE(θ) =∑s∈S

(θs − θ)2p(s).

Vale che MSE(θ) = V (θ) +B(θ)2 (∗), dove

V (θ) =∑s∈S

[θs − E(θ)]2p(s),

e la varianza dello stimatore. Uno stimatore θ1 si dice piu efficiente di un altro

stimatore θ2 se si verifica che

MSE(θ1) 6 MSE(θ2) per ogni valore di θ.

29/39 P�i?22333ML232

Le strategie campionarie

Si chiama strategia campionaria ogni coppia costituita da un piano di campionamento

e da uno stimatore, ovvero [p(s), θ].

Correttezza. Una strategia campionaria si dice corretta se lo stimatore e corretto

rispetto al piano di campionamento prescelto.

Efficienza. Una strategia campionaria [p1(s), θ1] si dice piu efficiente di un’altra stra-

tegia [p2(s), θ2] se si verifica che

MSE1(θ1) 6 MSE2(θ2) per ogni valore di θ.

L’obiettivo della teoria dei campioni e quello di individuare la strategia piu efficiente

a parita di costo complessivo della rilevazione.

30/39 P�i?22333ML232

Lo stimatore corretto fondamentale• Stima corretta del totale - stimatore di Horvitz-Thompson.

• Varianza dello stimatore di HT.

• Stima della varianza dello stimatore di HT:

– stima di HT;

– stima di Yates-Grundy.

• Stima corretta della media

• Stima di altri parametri

– funzioni lineari di totali di popolazione;

– funzioni NON lineari di totali di popolazione – metodo della linearizzazione.

31/39 P�i?22333ML232

Stima corretta del totaleParametro da stimare: Y =

∑Ni=1 Yi.

Stimatore lineare: Y =∑n

i=1wiYi.

Si vuole che E(Y ) = Y . Quali pesi wi garantiscono uno stimatore corretto? Riscriviamo

Y =n∑

wiYi =N∑

wiYiδi,

allora

E(Y ) =N∑

wiYiE(δi) =N∑

wiYiπi

e quindi la condizione di correttezza impone che

32/39 P�i?22333ML232

Stimatore di Horvitz-Thompson

Y =n∑

• campione probabilistico garantisce il calcolo di uno stimatore corretto

• campione autoponderante Y =n∑

π=tyπ

• Stima della media Y =Y

ESEMPIO: campionamento casuale semplice: πi = π = nN

, allora lo stimatore di Horvitz-

Thompson per questo piano di campionamento sara

• TOTALE Y =n∑

nty = Ny

• MEDIA Y = y

33/39 P�i?22333ML232

Esempio di calcoloSi definisca la popolazione U = {1, 2, 3, 4} di dimensione N = 4. Lo spazio campionario nel caso di

campioni di dimensione n = 3 estratti senza ripetizione e dato da S = { (1,2,3), (1,2,4), (1,3,4),

(2,3,4) }. Si supponga che le probabilita di estrazione di ciascun campione siano le seguenti:

s p(s)

(1,2,3) 0.15

(1,2,4) 0.35

(1,3,4) 0.30

(2,3,4) 0.20

Le probabilita di inclusione del I ordine per ciascuna unita sono:

i 1 2 3 4

πi 0.80 0.70 0.65 0.85

Le probabilita di inclusione del II ordine per ciascuna coppia di unita sono:

(i, j) (1,2) (1,3) (1,4) (2,3) (2,4) (3,4)

πij 0.50 0.45 0.65 0.35 0.55 0.50

34/39 P�i?22333ML232

Esempio di calcolo (continua)Si supponga che la variabile di interesse assuma i seguenti valori:

i Yi πi wi

1 50 0.80 1.25

2 32 0.70 1.43

3 48 0.65 1.54

4 65 0.85 1.18

da cui si ricava Y = (50+32+48+65)/4 = 48.75. Per il primo campione, s = {1, 2, 3}, le osservazioni

sono (50, 32, 48) e quindi Y =14

320.70

)= 45.51,

mentre la media campionaria y =∑n

i=1 Yi/n e pari a y = (50 + 32 + 48)/3 = 43.33. Per i 4 possibili

campioni, la distribuzione degli stimatori Y e y e la seguente:

35/39 P�i?22333ML232

Esempio di calcolo (fine)

s YiY y p(s)

(1,2,3) (50,32,48) 45.51 43.33 0.15

(1,2,4) (50,32,65) 46.17 49.00 0.35

(2,3,4) (32,48,65) 49.01 48.33 0.20

(1,3,4) (50,48,65) 53.20 54.33 0.30

E( Y ) = 45.51× 0.15 + 46.17× 0.35 + 49.01× 0.20 + 53.20× 0.30 = 48.75

V ( Y ) = MSE( Y ) = (45.51− 48.75)2 × 0.15 + . . .+ (53.20− 48.75)2 × 0.30 = 9.85

E(y) = 43.33× 0.15 + 49.00× 0.35 + 48.33× 0.20 + 54.33× 0.30 = 49.62 6= 48.75

MSE(y) = (43.33− 48.75)2 × 0.15 + . . .+ (54.33− 48.75)2 × 0.30 = 13.81

36/39 P�i?22333ML232

Varianza dello stimatore corretto

V (Y ) = V

V (δi) +N∑

N∑j 6=i

C(δi, δj)

(1− πi) +N∑

N∑j 6=i

(πij − πiπj)

Se n(s) = n, si puo dimostrare che

V (Y ) =1

N∑i=1

N∑j 6=i

(πiπj − πij)

− Yj

37/39 P�i?22333ML232

Stima della varianza dello stimatore di HT

Risultato preliminare utile. Sia B =N∑

N∑j 6=i

bij, allora B =n∑

n∑j 6=i

bijπij

e corretto per B.

Infatti E(B) =N∑

N∑j 6=i

bijπij

E(δiδj) = B. La varianza dello stimatore di HT puo essere

vista come la somma di due totali V (Y ) = A+B, dove

A =N∑

ai =N∑

(1− πi), B =N∑

N∑j 6=i

(πij − πiπj) =N∑

N∑j 6=i

Quindi uno stimatore corretto di Horvitz-Thompson di V (Y ) e dato da

v(Y ) =n∑

(1− πi) +n∑

n∑j 6=i

πij − πiπj

38/39 P�i?22333ML232

Stimatore della varianza di Yates-Grundy

Uno stimatore alternativo si puo ottenere nel caso in cui n(s) = n

v(Y ) =1

n∑i=1

n∑j 6=i

πiπj − πij

− Yj

• misurabilita

• varianza dello stimatore della media: V ( Y ) = V

)=V (Y )

• stimatore della varianza dello stimatore della media: v( Y ) =v(Y )

39/39 P�i?22333ML232

Stima di altri parametri della popolazione

X combinazioni lineari di totali di popolazione.

Es. D = Y −X → D = Y − X e corretto per D

× altre funzioni di totali: R =Y

X→ R =

Xnon e corretto per R

• metodo della linearizzazione.

Corso di Teoria dei Campioni Facolt a di Economia …giovanna/didattica/teo/baseHT.pdf2/39 2 3 L2 3M...

Documents