+ All Categories
Home > Documents > Il paradosso di Stein in statistica -...

Il paradosso di Stein in statistica -...

Date post: 18-Sep-2019
Category:
Upload: others
View: 2 times
Download: 0 times
Share this document with a friend
5
ROBERTO CLEMENTE FRANK ROBINSON FRANK HOWARD JAY JOHNSTONE KEN BERRY JIM SPENCER DON KESSINGER LUIS ALVARADO RON SANTO RON SWOBODA DEL UNSER BILLY WILLIAMS GEORGE SCOTT RICO PETROCELLI ELLIE RODRIGUEZ BERT CAMPANERIS THURMAN MUNSON MAX ALVIS IMMII~M~I~ 7 1 7 D D 0,05 0,1 0,15 0,2 0,25 0,3 0,35 0,4 0,45 0 0,005 0,01 0,015 0,02 0,025 MEDIA DI BATTUTA ERRORE QUADRATICO L'abilità nella battuta di 18 giocatori di baseball di prima divisione è valutata con maggiore precisione con il metodo di C. Stein e W. James che non per mezzo delle medie dei singoli valori di battuta. Le medie dei valori utilizzate come valutatori sono quelle calcolate dopo che ciascuno dei 18 giocatori si era trovato 45 volte alla battuta, nel corso della stagione 1970. La «vera» abilità del singolo giocatore è una quantità inosservabile, ma se ne ha una buona approssimazione, considerando le sue prestazioni sul lungo periodo. Nella tabella la «vera» abilità è rappresentata dalle medie dei valori di battuta riscontrate nel resto della stagione 1970. Per 14 giocatori su 18 le medie iniziali sono inferiori, come valore predittivo dell'abilità in battuta, di un altro numero, il valutatore di James-Stein. Nel complesso i valutatori di James-Stein hanno un minore errore quadratico totale. I l MEDIA INIZIALE MEDIA STAGIONALE VALUTATORE DI JAMES-STEIN T alvolta un risultato matematico è fortemente contrario all'opinione universalmente professata, anche se ne è data una dimostrazione chiara- mente valida. Charles Stein della Stan- fors University ha scoperto un paradosso di tal fatta in statistica, nel 1955: il suo risultato ha minato alla base l'edificio della teoria della valutazione, costruito da un secolo e mezzo a questa parte, a partire dall'opera di Karl Friedrich Gauss e Adrien Marie Legendre. Dopo un lun- go periodo di resistenza alle idee di Stein, sottolineato da dibattiti frequenti e tal- volta molto accesi, l'impressione di pa- radosso è andata diminuendo e le idee di Stein sono state incorporate nella statisti- ca teorica e applicata. Il paradosso di Stein concerne l'uso di medie di valori osservati per valutare quantità inosservabili. Il computo della media dei valori è il secondo processo fondamentale in statistica, dopo il sem- plice atto del contare. Un giocatore di baseball che fa 7 punti su 20 battute in incontri di campionato, si dice che ha una media di battuta di 0,35. Nel calco- lare questa statistica, facciamo una valu- tazione della effettiva abilità del giocato- re nella battuta, in termini della media osservata dei suoi successi. Il fatto paradossale nel risultato di Stein è che esso talvolta contraddice que- sta legge elementare della teoria statisti- ca. Se consideriamo tre o più giocatori di baseball, e se siamo interessati a predire le medie di battuta per ciascuno di essi in futuro, allora esiste una procedura mi- gliore della semplice estrapolazione a par- tire dalle tre (o più) medie di battuta se- parate. «Migliore» ha qui un senso pre- ciso e forte. Lo statistico che impiega il metodo di Stein può attendersi di predire le medie future dei valori con una mag- giore precisione, non importa quale pos- sa essere l'effettiva abilità nella battuta dei vari giocatori. T I baseball è uno sport per il quale è sta- I to compilato un corpus di statistiche ampio e accurato, che offre materiale adeguato per illustrare il funzionamento del metodo di Stein. Come dati primari considereremo le medie di battuta di 18 giocatori di prima divisione, calcolate dopo le prime 45 battute nella stagione 1970. I 18 giocatori sono esattamente tutti i giocatori che, al giorno in cui i dati sono stati tabulati, avevano effet- tuato esattamente 45 battute in partite di campionato. Ovviamente la media di bat- tuta è definita semplicemente dal nume- ro delle volte in cui il giocatore ha bat- tuto: è sempre un numero compreso fra O e 1. Denoteremo ciascuna di queste medie con la lettera y. Il primo passo, nell'applicazione del metodo di Stein, consiste nel calcolare la media delle medie: ovviamente anche questa grande media (che denotiamo con il simbolo :P) deve essere compresa fra O e 1. Il processo essenziale del metodo di Stein è la «contrazione» di tutte le medie individuali intorno a questa grande me- dia. Se la media di un giocatore è supe- riore alla grande media, allora va ridot- ta; se invece è inferiore, va aumentata. Designamo con z il valore risultante dal- la contrazione, per ogni giocatore: que- sto valore è il valutatore di James-Stein dell'abilità nella battuta per il dato gio- catore. Il nome deriva da C. Stein e W. James, che insieme, nel 1961, proposero una versione particolarmente semplice di questo metodo. Il paradosso di Stein sta in questo, semplicemente: che i valori Z, i valutatori di James-Stein, forniscono una stima dell'effettiva abilità nella bat- tuta, migliore che non le medie di battu- ta individuali effettivamente registrate. Il valutatore di James-Stein per ogni giocatore si trova attraverso la seguente equazione: z =y + c(y—y). La quantità (y—y) è la differenza fra la media indi- viduale di battuta e la grande media. L'equazione afferma quindi che il valu- tatore di James-Stein differisce dalla grande media della stessa quantità (y—y) moltiplicata per una costante, c. Questa costante c è il «fattore di contrazione». Se il fattore di contrazione fosse uguale a 1, allora l'equazione affermerebbe che il valutatore di James-Stein per un dato giocatore è uguale alla media di battuta di quel giocatore; in altre parole, y sa- rebbe uguale a z. Il teorema di Stein afferma che il fattore di contrazione è sempre minore di 1. Il suo valore effetti- vo è determinato dalla collezione di tutte le medie osservate. Nel caso dei dati di baseball, la grande media 9 è 0,265 e il fattore di contrazio- ne è 0,212. Sostituendo questi valori nel- l'equazione, troviamo che, per ogni gio- catore, z è uguale a 0,265 + 0,212(7— —0,265). Poiché c è circa 0,2, ciascuna media ridurrà di circa l'80 per cento la distanza dalla grande media, e analoga- mente si ridurrà dell'80 per cento la di- stanza massima fra le medie. Consideriamo, ad esempio, il defunto Roberto Clemente che, all'atto della compilazione della statistica, era il mi- glior battitore della prima divisione. Per Clemente y è uguale a 0,4 e z può essere determinato calcolando l'espressione z= = 0,265 + 0,212 (0,4-0,265). Il risultato è 0,294. Thurman Munson, giù di forma all'inizio della stagione 1970, aveva una media di solo 0,178. Sostituendo questo valore nell'equazione, troviamo che la sua abilità stimata è sostanzialmente au- mentata: il valutatore di James-Stein per Munson è 0,247. Q uale insieme di valori è il miglior in- dicatore dell'abilità nella battuta dei 18 giocatori nel nostro esempio, l'insie- me degli y o quello degli z? Per rispon- dere con precisione bisognerebbe cono- scere la «vera abilità nella battuta» di ciascun giocatore. Indichiamo questa me- dia vera con O (lettera greca theta). Di fat- to si tratta di una quantità inconoscibile, di un'entità astratta che rappresenta la probabilità che un giocatore faccia pun- to o g ni volta che batte. Benché O sia inosservabile, ne abbiamo una buona ap- prossimazione: le successive prestazioni dei battitori. È sufficiente considerare le altre partite della stagione 1970, che ci forniscono una quantità di osservazioni pari a nove volte le osservazioni su cui erano basate le medie iniziali. L'errore statistico che ci si può aspettare, con un tale campione, è abbastanza piccolo per- ché lo si possa trascurare, e si possa pro- cedere come se la media su tutta la sta- gione fosse la «vera abilità nella battuta» Il paradosso di Stein in statistica La migliore previsione de/futuro usualmente si ottiene calcolando la media degli eventi passati. Il paradosso di Stein indica circostanze nelle quali esistono valutatori migliori della media aritmetica di Bradley Efron e Cari Morris 90 91
Transcript

ROBERTO CLEMENTE

FRANK ROBINSON

FRANK HOWARD

JAY JOHNSTONE

KEN BERRY

JIM SPENCER

DON KESSINGER

LUIS ALVARADO

RON SANTO

RON SWOBODA

DEL UNSER

BILLY WILLIAMS

GEORGE SCOTT

RICO PETROCELLI

ELLIE RODRIGUEZ

BERT CAMPANERIS

THURMAN MUNSON

MAX ALVIS

IMMII~M~I~

7

17

D

D

0,05 0,1 0,15 0,2 0,25

0,3

0,35

0,4 0,45 0

0,005 0,01 0,015 0,02 0,025

MEDIA DI BATTUTA

ERRORE QUADRATICO

L'abilità nella battuta di 18 giocatori di baseball di prima divisione è valutata con maggiore precisione con ilmetodo di C. Stein e W. James che non per mezzo delle medie dei singoli valori di battuta. Le medie dei valoriutilizzate come valutatori sono quelle calcolate dopo che ciascuno dei 18 giocatori si era trovato 45 volte allabattuta, nel corso della stagione 1970. La «vera» abilità del singolo giocatore è una quantità inosservabile, ma sene ha una buona approssimazione, considerando le sue prestazioni sul lungo periodo. Nella tabella la «vera»abilità è rappresentata dalle medie dei valori di battuta riscontrate nel resto della stagione 1970. Per 14 giocatori su18 le medie iniziali sono inferiori, come valore predittivo dell'abilità in battuta, di un altro numero, ilvalutatore di James-Stein. Nel complesso i valutatori di James-Stein hanno un minore errore quadratico totale.

I l MEDIA INIZIALE

MEDIA STAGIONALE

VALUTATORE DI JAMES-STEIN

T

alvolta un risultato matematico èfortemente contrario all'opinioneuniversalmente professata, anche

se ne è data una dimostrazione chiara-mente valida. Charles Stein della Stan-fors University ha scoperto un paradossodi tal fatta in statistica, nel 1955: il suorisultato ha minato alla base l'edificiodella teoria della valutazione, costruitoda un secolo e mezzo a questa parte, apartire dall'opera di Karl Friedrich Gausse Adrien Marie Legendre. Dopo un lun-go periodo di resistenza alle idee di Stein,sottolineato da dibattiti frequenti e tal-volta molto accesi, l'impressione di pa-radosso è andata diminuendo e le idee diStein sono state incorporate nella statisti-ca teorica e applicata.

Il paradosso di Stein concerne l'uso dimedie di valori osservati per valutarequantità inosservabili. Il computo dellamedia dei valori è il secondo processofondamentale in statistica, dopo il sem-plice atto del contare. Un giocatore dibaseball che fa 7 punti su 20 battute inincontri di campionato, si dice che hauna media di battuta di 0,35. Nel calco-lare questa statistica, facciamo una valu-tazione della effettiva abilità del giocato-re nella battuta, in termini della mediaosservata dei suoi successi.

Il fatto paradossale nel risultato diStein è che esso talvolta contraddice que-sta legge elementare della teoria statisti-ca. Se consideriamo tre o più giocatori dibaseball, e se siamo interessati a predirele medie di battuta per ciascuno di essi infuturo, allora esiste una procedura mi-gliore della semplice estrapolazione a par-tire dalle tre (o più) medie di battuta se-parate. «Migliore» ha qui un senso pre-ciso e forte. Lo statistico che impiega ilmetodo di Stein può attendersi di predirele medie future dei valori con una mag-giore precisione, non importa quale pos-sa essere l'effettiva abilità nella battutadei vari giocatori.

T I baseball è uno sport per il quale è sta-I to compilato un corpus di statisticheampio e accurato, che offre materialeadeguato per illustrare il funzionamentodel metodo di Stein. Come dati primari

considereremo le medie di battuta di 18giocatori di prima divisione, calcolatedopo le prime 45 battute nella stagione1970. I 18 giocatori sono esattamentetutti i giocatori che, al giorno in cui idati sono stati tabulati, avevano effet-tuato esattamente 45 battute in partite dicampionato. Ovviamente la media di bat-tuta è definita semplicemente dal nume-ro delle volte in cui il giocatore ha bat-tuto: è sempre un numero compreso fraO e 1. Denoteremo ciascuna di questemedie con la lettera y.

Il primo passo, nell'applicazione delmetodo di Stein, consiste nel calcolare lamedia delle medie: ovviamente anchequesta grande media (che denotiamo conil simbolo :P) deve essere compresa fra Oe 1. Il processo essenziale del metodo diStein è la «contrazione» di tutte le medieindividuali intorno a questa grande me-dia. Se la media di un giocatore è supe-riore alla grande media, allora va ridot-ta; se invece è inferiore, va aumentata.Designamo con z il valore risultante dal-la contrazione, per ogni giocatore: que-sto valore è il valutatore di James-Steindell'abilità nella battuta per il dato gio-catore. Il nome deriva da C. Stein e W.James, che insieme, nel 1961, proposerouna versione particolarmente semplice diquesto metodo. Il paradosso di Stein stain questo, semplicemente: che i valori Z,i valutatori di James-Stein, fornisconouna stima dell'effettiva abilità nella bat-tuta, migliore che non le medie di battu-ta individuali effettivamente registrate.

Il valutatore di James-Stein per ognigiocatore si trova attraverso la seguenteequazione: z =y + c(y—y). La quantità(y—y) è la differenza fra la media indi-viduale di battuta e la grande media.L'equazione afferma quindi che il valu-tatore di James-Stein differisce dallagrande media della stessa quantità (y—y)moltiplicata per una costante, c. Questacostante c è il «fattore di contrazione».Se il fattore di contrazione fosse ugualea 1, allora l'equazione affermerebbe cheil valutatore di James-Stein per un datogiocatore è uguale alla media di battutadi quel giocatore; in altre parole, y sa-rebbe uguale a z. Il teorema di Stein

afferma che il fattore di contrazione èsempre minore di 1. Il suo valore effetti-vo è determinato dalla collezione di tuttele medie osservate.

Nel caso dei dati di baseball, la grandemedia 9 è 0,265 e il fattore di contrazio-ne è 0,212. Sostituendo questi valori nel-l'equazione, troviamo che, per ogni gio-catore, z è uguale a 0,265 + 0,212(7——0,265). Poiché c è circa 0,2, ciascunamedia ridurrà di circa l'80 per cento ladistanza dalla grande media, e analoga-mente si ridurrà dell'80 per cento la di-stanza massima fra le medie.

Consideriamo, ad esempio, il defuntoRoberto Clemente che, all'atto dellacompilazione della statistica, era il mi-glior battitore della prima divisione. PerClemente y è uguale a 0,4 e z può esseredeterminato calcolando l'espressione z== 0,265 + 0,212 (0,4-0,265). Il risultatoè 0,294. Thurman Munson, giù di formaall'inizio della stagione 1970, aveva unamedia di solo 0,178. Sostituendo questovalore nell'equazione, troviamo che lasua abilità stimata è sostanzialmente au-mentata: il valutatore di James-Stein perMunson è 0,247.

Quale insieme di valori è il miglior in-dicatore dell'abilità nella battuta dei

18 giocatori nel nostro esempio, l'insie-me degli y o quello degli z? Per rispon-dere con precisione bisognerebbe cono-scere la «vera abilità nella battuta» diciascun giocatore. Indichiamo questa me-dia vera con O (lettera greca theta). Di fat-to si tratta di una quantità inconoscibile,di un'entità astratta che rappresenta laprobabilità che un giocatore faccia pun-to ogni volta che batte. Benché O siainosservabile, ne abbiamo una buona ap-prossimazione: le successive prestazionidei battitori. È sufficiente considerare lealtre partite della stagione 1970, che ciforniscono una quantità di osservazionipari a nove volte le osservazioni su cuierano basate le medie iniziali. L'errorestatistico che ci si può aspettare, con untale campione, è abbastanza piccolo per-ché lo si possa trascurare, e si possa pro-cedere come se la media su tutta la sta-gione fosse la «vera abilità nella battuta»

Il paradosso di Stein in statisticaLa migliore previsione de/futuro usualmente si ottiene calcolando lamedia degli eventi passati. Il paradosso di Stein indica circostanzenelle quali esistono valutatori migliori della media aritmetica

di Bradley Efron e Cari Morris

9091

0,265(GRANDE MEDIA)

wCC IL -J <CW Dw _CO oz z oo 2

o a -C:m-a= co° Oo ii Z tv—zlIl I—

Z > Ch--0_j (n C2ZOLUU — Z 5-SD

2 iSt i ccci_cnD o cnn i 1-7---1

MEDIEOSSERVATE

0,15 0 20 0,25 030

VALUTATORI DI JAMES-STEIN

0,35 0 40

I v alutatori di James-Stein per i 18 giocatori di baseball sono calcolati per «contrazione» dellemedie indi. iduali di battuta intorno alla generale «media delle medie». In questo caso la grandemedia è 0,265 e ciascuna delle medie si contrae per circa 180 per cento della distanza che lesepara da tale valore. Secondo il teorema su cui si basa il metodo di Stein le «vere» abilità nellabattuta dei giocatori sono più raggruppate di quanto non farebbero pensare le medie nazionali.

3-3o 2,3 a 3c O 2o O + 3a(MEDIA VERA)

68%

95%

99,7%

La distribuzione normale di una variabile casuale intorno al suovalore medio fornisce la giustificazione fondamentale per il metodo divalutazione basato sulla media dei valori. La distribuzione è definitada due parametri, la media O, che ci dà il punto massimo della curva,e la deviazione standard o, che misura il grado di dispersione dei punti

che rappresentano i dati. Si assume, nel definire la distribuzione, chela variabile x possa avere, sull'asse delle ascisse, qualunque valore. Ilvalore più probabile di x, per definizione, è la media O. La probabilitàche x giaccia in un intervallo, ad esempio quello fra a e b, è ugualeall'area (in grigio nella figura) delimitata dalla parte di curva tra a e b.

ASSE DELLE X

0 di un giocatore. Questa è una delleragioni per cui abbiamo scelto, per esem-plificare, le medie di battuta nel baseball.Nella maggior parte dei problemi, il verovalore di a non può essere determinato.

Un modo per confrontare le due stimeè semplicemente quello di contare i lorosuccessi e i loro errori. Per 16 dei 18 gio-catori il valutatore di James-Stein z è piùvicino della media osservata y alla mediavera 0, la media su tutta la stagione. Unmetodo più quantitativo per confrontarele due tecniche è l'errore quadratico to-tale della valutazione che si misura, inprimo luogo, determinando l'errore ef-fettivo di ciasana predizione, dato da(7—y) e (0—z), per ciascun giocatore.Ciascuna di queste quantità è quindi ele-vata al quadrato, e i valori risultantisono sommati fra loro. Le medie osser-vate y hanno un errore quadratico totaledi 0,077, mentre l'errore quadratico to-tale dei valutatori di James-Stein è di0,022 soltanto. Da questo confronto,quindi, il metodo di Stein risulta 3,5volte più preciso. Si può dimostrare che3,5 (per i dati che avevamo) è vicino alrapporto atteso fra gli errori quadraticitotali dei due metodi. Non siamo statiproprio fortunati.

upponiamo che uno statistico prendaun campione casuale di automobili,

a Chicago, e trovi che delle prime 45 cheha registrato nove sono di fabbricazioneestera, e le altre sono di marche naziona-li. Vogliamo stimare la vera percentualedelle automobili importate in circolazio-ne a Chicago, quantità rappresentata daun'altra 0 inosservabile. La media osser-vata, 9/45 = 0,2, è una prima stima. Unaaltra si ha semplicemente associando que-sto problema a quello dei 18 giocatori.Sostituendo il valore 0,2 nell'equazioneusata in quel problema si ha, per la per-centuale delle vetture importate, un va-

lutatore di James-Stein di 0,251. (In ef-fetti l'aggiunta di un diciannovesimo va-lore modifica la grande media 9 e legger-mente anche il fattore di contrazione c.Cambia poco, comunque: il valore cosìcorretto di z è 0,249.)

In questo caso l'intuizione ci dice chela media osservata, e non il valutatore diJames-Stein, deve darci la predizione mi-gliore. In effetti, tutto il procedimentosembra folle: che cosa hanno a vedere lemedie di battuta con le automobili im-portate? E qui che la natura paradossa-le del teorema di Stein appare in pieno.Il teorema si applica ai 19 problemi esat-tamente come si applicava ai primi 18.Non c'è nulla, nell'enunciato del teore-ma, che richieda una qualche relazionesensibile fra i vari problemi.

Questa stessa sconcertante indifferen-za per il comune buon senso si può di-mostrare anche in un altro modo. Checosa ha che fare la media osservata diClemente (0,4) con Max Alvis, il menoforte in battuta dei 18 giocatori conside-rati? Se Alvis avesse avuto un inizio distagione più smagliante, con una mediadi 0,444, al posto di quella che in effettiha, il valutatore di James-Stein per Cle-mente sarebbe salito da 0,294 a 0,325.Perché mai i successi (o i mancati succes-si) di Alvis dovrebbero avere una qua-lunque influenza sulla nostra valutazionedell'abilità di Clemente? (I due fra l'al-tro non giocavano neanche nello stessogirone.) Problemi di questo tipo sonoquelli sollevati dai critici del metodo diStein. Per poter loro replicare, sarà ne-cessario descrivere il metodo un po' piùin dettaglio.

IT l calcolo della media dei valori è un

procedimento semplice e familiare,che non sembra aver bisogno di alcunagiustificazione. In realtà, però, non ècosì ovvio il perché la media dei valori

sia utile così frequentemente per valuta-re il vero centro di gravità di un processocasuale. La spiegazione sta nella distri-buzione che tendono ad assumere i valo-ri della variabile casuale.

La più comune delle distribuzioni chesi incontrano nel lavoro scientifico è ladistribuzione «normale», descritta dauna curva a campana, che fu studiata inprofondità per la prima volta da Gauss,e che talvolta viene chiamata distribuzio-ne gaussiana. La si costruisce assumendoche la variabile casuale possa assumereun qualunque valore lungo un asse; laprobabilità che cada entro un dato inter-vallo, allora, è fatta uguale all'area limi-tata della curva a campana in corrispon-denza di quello stesso intervallo. La curvaè completamente specificata da due para-metri: la media, 0, che giace sul picco dellacurva, e la deviazione standard, che mi-sura quanto strettamente i valori sianodistribuiti attorno alla media. È uso in-dicare la deviazione standard col simbo-lo o. Quanto maggiore è la deviazionestandard, tanto maggiore è l'area su cuisono dispersi i dati.

Nella teoria della probabilità una me-dia conosciuta e la deviazione standardsono utilizzati per predire il comporta-mento futuro; l'analisi di un problemain statistica procede nella direzione op-posta: dai dati osservati si determina lamedia 0 e la deviazione standard a.

Supponiamo, ad esempio, che la misu-razione di una variabile casuale x dia icinque valori successivi 10, 9,4, 10,3,8,6 e 9,7. Supponiamo, inoltre, che sisappia che i valori fanno parte di unadistribuzione normale con deviazionestandard pari a 1. Qual è il valore dellamedia vera 0? In linea di principio ilvalore della media può essere qualunque,ma ci sono valori più probabili di altri.Se la media fosse di 6,5, ad esempio,tutti i cinque valori dovrebbero stare sot-to la coda estrema della curva, e nessunosi troverebbe vicino al centro. Gauss hadimostrato che, fra tutti i valori che sipossono scegliere per la media, la mediaT dei dati osservati (che in questo casovale 9,6) massimizza la probabilità diottenere i dati osservati. In questo casola media dei valori è la stima più verosi-mile della media; di fatto, Gauss ha co-struito la distribuzione normale in modoche avesse questa proprietà.

C'è un'ulteriore giustificazione, anchequesta messa in evidenza da Gauss, perscegliere la media dei valori come il mi-glior valutatore della media inosservabileO. Gauss notava come la media dei valoridei dati fosse un valutatore «imparziale»della media, nel senso che non favoriscealcuno dei valori selezionati di O. Peressere più precisi, il valore medio è im-parziale perché il valore atteso di 7x. èuguale alla vera 0, non importa qualepossa essere O. Esiste un numero infinitodi valutatori imparziali di 0, nessuno deiquali però valuta il esattamente. Gaussha dimostrato che l'errore quadratico distima atteso per la media _V è minore diquello di ogni altra funzione lineare im-parziale dei dati osservativi. Negli anni

quaranta di questo secolo, è stato dimo-strato che nessuna funzione imparziale,lineare o non lineare, può valutare 0 conmaggiore precisione della media, in ter-mini di errore quadratico atteso. Un con-tributo essenziale a questa dimostrazioneè stato dato negli anni venti da R.A.Fisher, che ha dimostrato che tutte le in-formazioni su 0, che si possono trovarenei dati, sono contenute nella media x.

Nel corso degli anni trenta, Jerzy Ney-man, Egon S. Pearson e Abraham

Wald hanno impostato un approccio ma-tematicamente più rigoroso al problemadell'inferenza statistica: le idee da essisviluppate fanno parte di quella che oggiè nota come teoria statistica delle deci-sioni. Lasciando da parte il requisito del-la valutazione imparziale, essi esamina-rono tutte le funzioni dei dati che po-tevano servire come valutatori della me-dia ignota O. Questi valutatori eranoconfrontati fra loro attraverso una fun-zione di rischio, definita come il valoreatteso dell'errore quadratico per ogni pos-sibile valore di O.

Consideriamo tre valutatori in compe-tizione fra loro: la media dei valori deidati, la metà di tale media: V2, e lamediana dei dati. Tanto per la media deivalori quanto per la mediana, la funzio-ne di rischio è costante: il che è semplice-mente un altro modo per dire che il loroerrore quadratico atteso nella predizionedella media 0 è lo stesso, non importaquale sia in realtà O. Delle due funzionicostanti di rischio, quella per la media x

è uniformemente più piccola di un fatto-re di circa due terzi; chiaramente la me-dia dei dati è il valutatore preferito. Nellinguaggio della teoria delle decisioni lamediana si dice «inammissibile» comevalutatore di 0, poiché esiste un valuta-tore che ha un rischio (cioè un errorequadratico atteso) minore, non importaquale sia O. (Va detto, comunque, chequando i dati hanno una distribuzionediversa da quella normale, è possibileche l'ordine di preferenza sia rovesciato.)Per il valutatore :X72, che è «parziale»nei confronti del valore 0=0, la funzio-ne di rischio non è costante: questo valu-tatore è preciso se si verifica che 0 è vici-no a zero, ma l'errore quadratico attesocresce rapidamente quando la media ve-ra si allontana da zero. La funzione dirischio descrive una parabola, con puntodi minimo a 0 = 0; se per caso la mediaè zero, allora la funzione di rischio perV2 è quattro volte minore di quella perla media dei valori stessa. Per grandivalori della media, tuttavia, la media deivalori x riacquista la sua superiorità. Conaltri valutatori possiamo abbassare lafunzione di rischio al di sotto di quelladella media dei valori, in qualunque pun-to vogliamo, ma comunque la funzionesi rialza di nuovo in qualche altro punto.

Resta la possibilità che esista qualchealtro valutatore con un rischio uniforme-mente inferiore a quello della media deivalori. Nel 1950 Colin R. Blyth, Erich L.Lehmann e Joseph L. Hodges, Jr., han-no dimostrato che un tale valutatore nonesiste. In altre parole, la media dei valori

è ammissibile, per lo meno se è appli-cata a un insieme di osservazioni al finedi valutare una media sconosciuta.

Il teorema di Stein riguarda la valuta-zione di diverse medie sconosciute. Nonè necessario assumere che fra queste me-die esista una qualche relazione: posso-no riferirsi all'abilità nella battuta cosìcome alla percentuale delle automobiliimportate. D'altra parte, le medie si as-sume siano fra loro indipendenti. Nelloscegliere i valutatori per queste medie èconveniente impiegare una funzione dirischio definita come la somma dei valo-ri attesi degli errori quadratici di valuta-zione per tutte le medie individuali.

per ciascuna delle varie medie la scelta

di un valutatore cade in primo luo-go, ovviamente, sulla media dei dati chea tale media si riferiscono. Tutta la teo-ria statistica nel suo sviluppo da Gaussin poi, fino alla teoria delle decisioni,sostiene che la media dei dati è un valu-tatore ammissibile, quando esiste esatta-mente una media, 0, da valutare. Steinha dimostrato nel 1975 che la mediadei dati è ammissibile anche per valutaredue medie. Il paradosso di Stein è sem-plicemente la dimostrazione del fatto che,se il nume() delle medie è superiore adue, la valutazione di ciascuna di esseattraverso la media dei dati è un proce-dimento inammissibile. Quali che siano ivalori delle medie vere, esistono regole divalutazione con un minor rischio totale.

Nel 1955 Stein era in grado di dimo-strare quest'enunciato solo nei casi in cui

92 93

I o c,o

>4 <I

h-a;cci oti

Il I

•>< t I9

é10 11 12

(MEDIA DEI DATI)= 9.6 =1O,5

DISTRIBUZIONEIMPROBABILE

DISTRIBUZIONEPIU PROBABILE

= 6,5DISTRIBUZIONEMOLTO IMPROBABILE

6 7 8

Un problema tipico in statistica è quello di dedurre, da un insieme didati, la media vera e la deviazione standard della distribuzione. Anchesapendo che la distribuzione è normale e che la deviazione standard èuguale a 1, in linea di principio la media potrebbe avere qualunquevalore. Certi valori, tuttavia, sono più probabili di altri. I cinque

punti (x) in figura potrebbero essere descritti da una distribuzionenormale con media pari a 6,5 solo se tutti e cinque avessero unadev iazione doppia almeno di quella standard. Si dimostra che è mol-to più probabile che i dati siano generati da una distribuzione conmedia uguale alla media dei dati, denotata da :V. Allora la media è 9,6.

il numero delle medie (numero che indi-cheremo con k) era molto alto. Nell'arti-colo scritto nel 1961 in collaborazionecon James, Stein ha esteso il risultato atutti i valori di k maggiori di 2: non solo,ma ne ha presentato anche una dimo-strazione di carattere costruttivo. Stein eJames, infatti, non solo hanno dimostra-to che debbono sempre esistere valutato-ri superiori alla media dei dati, ma sonoriusciti anche a dare un esempio di unvalutatore di tal fatta.

Il valutatore di James-Stein è già statodefinito nella nostra precedente ricercasulle medie di battuta. Esso è dato dal-l'equazione z=Y+c(y—y), dove y è lamedia dei valori di un singolo insieme didati, y è la grande media delle medie deivalori e c è un «fattore di contrazione».Benché esistano molte altre espressioniper il valutatore di James-Stein, le diffe-renze sono solo di dettaglio; poiché tuttehanno in comune il fattore di contrazio-ne c, proprio in questo fattore sta la pe-culiarità del valutatore di James-Stein.

Nel problema delle medie di battuta,era trattato come una costante, ma inrealtà esso è determinato dalle medie deivalori dei dati osservativi, e pertanto nonè una costante. Il fattore di contrazioneè dato dall'equazione

c = 1 —ECY—Y)2

Qui k è ancora il numero delle mediesconosciute, a2 è il quadrato della devia-zione standard, e E (y—y)2 è la sommadelle deviazioni quadrate delle medie deivalori individuali y dalla grande media y.

Esploriamo brevemente il significatodi quest'equazione piuttosto sconcertan-te. Con k e o' fissati, troviamo che ilfattore di contrazione c diventa più pic-colo (influenzando così maggiormente lemedie predette), quanto minore è il valo-re dell'espressione I(y—y) 2 . Inversamen-te, c aumenta, avvicinandosi all'unità, eminore è di conseguenza la contrazione.quanto più cresce il valore dell'espressio-ne I(y—y)2.

Che cosa significa quest'equazione, intermini di comportamento del valutato-re? In effetti la procedura di James-Steinipotizza preliminarmente che tutte le me-die inosservabili siano vicine alla grandemedia 55. Se i dati confortano questa

supposizione, nel senso che le medie deivalori dei dati osservate sono a loro vol-ta non troppo lontane da y, allora le va-lutazioni sono ulteriormente contratte eavvicinate alla grande media. Se l'ipotesiè contraddetta dai dati, allora la contra-zione non è molto forte. Queste modifi-cazioni del fattore di contrazione si de-terminano attraverso l'effetto che la di-stribuzione delle medie dei valori intornoalla grande media y ha sull'equazioneche determina c. Il numero delle medievalutate influenza anch'esso il fattore dicontrazione, attraverso il termine ( k-3)che compare nella stessa equazione. Se lemedie sono molte, l'equazione fa sì cheil fattore di contrazione sia più drastico,dal momento che, allora, è meno proba-bile che le variazioni osservate rappre-sentino delle fluttuazioni casuali.

Calcolato c in questo modo, la funzio-ne di rischio per il valutatore è minore diquella per le medie dei dati indipenden-temente da quali possano essere i valoridelle medie La riduzione del rischiopuò essere sostanziale, in particolare al-lorché il numero delle medie è superiorea cinque o sei. La funzione di rischionon è costante per tutti i valori dellemedie vere 17, come per le medie dei datiosservate. Il rischio del valutatore di Ja-mes-Stein è minimo quando tutte le me-die vere sono uguali. Quanto più si al-lontanano l'uno dall'altro i valori dellemedie vere, tanto più cresce il rischio delvalutatore, avvicinandosi a quello dellemedie dei valori osservate, ma senza maieguagliarlo. Il valutatore di James-Steinfunziona sostanzialmente meglio dellemedie dei valori solo se le medie verehanno valori vicini, e così l'ipotesi chesta alla base di questa tecnica è con-fermata. Quello che è sorprendente è cheil valutatore funziona sempre meglio (allimite pochissimo meglio) indipendente-mente dagli effettivi valori delle medievere.

L'espressione da noi usata per il valu-tatore di James-Stein riferisce tutte lemedie dei valori osservate alla grandemedia y. Questa procedura non è l'unicapossibile; esistono infatti altre espressio-ni per il valutatore che fanno del tutto ameno di y. Ciò che non si può evitare èuna qualche ipotesi iniziale, di un qual-che punto d'origine, più o meno arbitra-

rio, per il valutatore. Le medie osserva-te, si noterà, non dipendono da una scel-ta d'origine. Prima che Stein scoprisse ilsuo metodo, si pensava che tali valutato-ri «invarianti» dovessero essere preferitia quelli le cui predizioni variano a ognicambiamento d'origine. La teoria dell'in-varianza, cui Stein ha offerto alcuni fra iprincipali contributi, è stata fortementescossa dal controesempio di James-Stein.Dal punto di vista matematico, questo èl'aspetto più sconvolgente del teorema diStein. In effetti, se il paradosso non èstato scoperto prima, ciò è dovuto ingran parte al radicato pregiudizio secon-do cui il problema della valutazione, es-sendo formulato senza alcun riferimentoad alcuna origine particolare, doveva es-sere risolto in maniera analoga.

Le applicazioni del metodo di Stein ten-dono a coinvolgere grandi insiemi di

dati, con molti parametri incogniti. Unesempio può illustrare alcune delle diffi-coltà insite in tali problemi, così come lepotenzialità pratiche del metodo stesso.L'esempio è un'analisi della distribuzio-ne della toxoplasmosi in un paese dell'A-merica centrale, El Salvador.

La toxoplasmosi è una malattia delsangue endemica in molte zone dell'A-merica Centrale e in altre regioni tropica-li. A El Salvador furono sottoposte atest medico, per accertare la presenzadella toxoplasmosi, circa 5000 persone di36 città diverse. È conveniente esprimereil tasso di incidenza di ciascuna città inrapporto al tasso nazionale (cioè, allagrande media y). Un tasso dello 0,05, adesempio, indica una percentuale di casidi malattia superiore del 5 per cento allamedia nazionale. I tassi misurati hannouna distribuzione approssimativamentenormale. Sono conosciute le deviazionistandard di queste distribuzioni, ma so-no diverse da città a città, e sono in rap-porto inverso con la grandezza del cam-pione di popolazione sottoposto a esamein quella data città. È compito dello sta-tistico valutare, dall'incidenza osservatay, la media vera 1.7 della distribuzione,per ciascuna città.

La forma appropriata a questo casodel valutatore di James-Stein è z =cy. Lasemplificazione, introdotta da noi, è resapossibile dal modo prescelto per espri-

(k — 3)o23)o2

94

120-2

MEDIE DEI VALORI OSSERVATE10o2

VALUTATORIDI JAMES-STEIN

40-2

20-2

0 o 100.2 200.2 30u2 400.2 500-2

DEVIAZIONE QUADRATICA TOTALE DELLE MEDIE DALLA LORO MEDIA DEI VALORI

8a2

HONDURAS

GUATEMALA

• ALEGRíA-0,294

GHALATENANGO• -0,112

• TONACATEPEQUE -0,083

SAN VIGENTE• 0,079

• SAN PEDRONONUALGO 0,093

AGAJUTLA0,004

PANCHIMALCO-0,028

LA LIBERTAD0,128

AGUILARES• 0,035

GUAZAPA•-0,034

APOPA -0,169•

SENSUNTEPEQUE• -0,055

• ILOBASCO-0,185

NAHUIZALCO 0,152 •

SONSONATE •-0,100

ARMENIA• 0,063 •

-0,016 •SAN JULIAN /19

IZALCO-0,138

JAYAQUE0,113

0,052

SANTA ANASAN PABLO

SUCHITOTO

•, -0,324TACACHICO

QUEZALTEPEQUE -0,098

0,139 •AH UA•CcHA29PCSAN JUAN OPICO

-.

-0,040s

NEJAPA -0.098•GIUDAD ARCE 0

-0,156 -------.

SAN SALVADOR •0,024 •

SOYAPANGO •COJUTEPEQUE 0,024

0,0270,214

•SANTATECLA

.1,SAN FRANCISCO GOTERA

• -0,100

•ZACATECOLUCA

0.014

OCEANO PACIFICO

• SAN MIGUEL-0,397

• USULUTAn N-0,665

LA PALMA •-0,296

sarà minore per i valutatori di James--Stein che per le percentuali osservate.

1 valutatori di James-Stein sono vero-similmente da preferirsi anche nel casoin cui si voglia determinare l'ordinamen-to per grandezza delle medie vere. Sottoquesto profilo è da notare che la città

con la più alta incidenza manifesta (sullabase dei tassi misurati y) figura dodicesi-ma nell'elenco calcolato sulla base deivalutatori di James-Stein. La valutazioneè stata ridotta drasticamente, e questoperché in quella città era stato esaminatoun campione di popolazione molto pic-

colo. L'informazione fornita da quei da-ti potrebbe essere utile solo se fosserostanziati fondi per la costruzione di unsolo ospedale.

Supponiamo che un epidemiologo vo-glia indagare la correlazione fra la veraincidenza in ciascuna città e caratteristi-

L'incidenza della toxoplasmosi (una malattia del sangue) è stata misu-rata in 36 città dello stato di El Salvador. L'incidenza misurata inogni città può essere considerata come un valutatore dell'incidenzavera, entità inosservabile, e ha una distribuzione normale la cui devia-zione standard è determinata dalla grandezza del campione considera-

-0,7 -0,6 - 0,5 - 0,4 - 0,3DEVIAZIONE 0,3STANDARD

to nella data città. I tassi misurati sono espressi in termini delladeviazione dell'incidenza nazionale (la media, cioè, dei valori dei tassiosservati in tutte le città). Zero, quindi, significa esattamente il tassonazionale, mentre una città che abbia un'incidenza misurata di -0,04ha un tasso osservato inferiore del 4 per cento a quello del paese.

MEDIE OSSERVATE-0,2 -0,1

0,1

0,2

0,3

0,4

A,2 4di VIZ I FA VA I% VA VA I V/iM1/4 IVA 77~~17Z~A

I ‘‘ r

•n••-- 0,6 -- 0,5 -- 0,4 -- 0,3 0,2 - 0,1 0,1

VALUTATORI DI JAMES-STEIN

-0,7 0,2

0,3 04

La contrazione dei tassi osservati della toxoplasmosi per ottenere uninsieme di valutatori di James-Stein altera sostanzialmente la distribu-zione della malattia. Il fattore di contrazione non è lo stesso per tuttele città, ma dipende dalla deviazione standard del tasso misurato nellaparticolare città. Se la deviazione standard è grande, allora la misura èbasata su un campione di piccole dimensioni e quindi soggetta a

grandi fluttuazioni casuali; tale misura, pertanto, è compressa più del-le altre. Fra i dati relativi a El Salvador le osservazioni agli estremitendono a essere correlate alle deviazioni standard più grandi, confer-mando l'inaffidabilità di queste misure. Si dimostra che, rispetto aitassi osservati, i valutatori di James-Stein hanno un errore quadraticototale minore, e forniscono una classificazione migliore delle città.

tOI(...)(I,E

MEDIANA

MEDIADEI VALORI(x)

METADELLA MEDIADEI VALORI(M)

ASSE DELLE J

o

Vari valutatori di una singola media «vera», 19, possono essere messi a confronto attraverso unafunzione di rischio. Il rischio si definisce come valore atteso dell'errore quadratici) dellavalutazione, considerato come funzione della media 0. La media dei valori dei dati, x, è unvalutatore con funzione di rischio costante: qualunque sia la media vera, l'errore quadraticoatteso è sempre lo stesso. La mediana dei dati presenta anch'essa un rischio costante, ma unifor-memente più grande (di un fattore 1,57) di quello della media dei valori. La metà della mediadei valori (V/2) è un valutatore il cui rischio dipende dal valore effettivo della media, ed è mini-mo quando la media è vicina allo zero, ma cresce rapidamente quando la media si allontana dazero. Per la alutazione di una singola media non esiste un valutatore che abbia una funzione dirischio che sia ovunque minore della funzione di rischio relativa alla media dei valori

La funzione totale di rischio per i alutatori di James-Stein è in ogni punto minore dellafunzione totale di rischio per le medie individuali dei valori osservate, purché il numero dellemedie da stimare sia maggiore di due. Nell'esempio della t igura le medie sconosciute sono 10. IIrischio è minimo quando tutte le medie vere sono raggruppate attorno a un unico punto. Quan-do invece le medie si allontanano l'una dall'altra, il rischio per i valutatori di James-Stein aumen-ta, avvicinandosi a quello delle medie dei valori osservate, ma senza arrivare mai a eguagliarlo.

mere le osservazioni y. Queste sono in-fatti definite in modo tale che la grandemedia y sia zero, e che, di conseguenza,tutti i termini contenenti la 9 possano es-sere eliminati dall'equazione. D'altraparte, la procedura di valutazione è resaqui più complicata dal fatto che il fatto-re di contrazione c è diverso per ciascunacittà, e la variazione è in rapporto inver-so rispetto alla deviazione standard di yper la data città. C'è una semplice ragio-ne intuitiva per questa dipendenza delfattore di contrazione dalla deviazionestandard. Un alto valore della deviazionestandard implica un alto grado di casua-lità o di incertezza in una misura. Sel'incidenza calcolata è particolarmentegrande, può essere attribuita più ragio-nevolmente a fluttuazioni casuali entrola distribuzione normale che non ha unvalore davvero grande della media verail. È corretto, quindi, ridurre questo va-lore, applicando un piccolo fattore dicontrazione.

Questa stessa argomentazione può es-ser resa ancora più convincente ritornan-do per un momento al baseball. FrankO'Connor giocò per il Filadelfia nel 1893,ed ebbe occasione, durante la sua carrie-ra nella prima divisione, di battere duevolte, entrambe con successo. La suamedia di battuta osservata è pertanto 1.Con la regola di James-Stein per i 18giocatori considerati in precedenza, l'ef-fettiva abilità nella battuta di O'Connorè valutata a 0,265 + 0,212(1-0,265) == 0,421 (senza calcolare gli effetti deinuovi dati sulla grande media e sul fatto-re di contrazione). È ancora una stimaun po' folle, anche se meno folle di 1.Una media perfetta dopo due battutenon è del tutto incompatibile con unvalore reale nell'intervallo fra 0,242 e0,294, entro cui si trovano anche le valu-tazioni per gli altri giocatori, li fattore dicontrazione c applicato alla media diO'Connor dovrebbe pertanto essere piùsevero, al fine di compensare il piccolonumero di dati disponibili relativamentealle sue prestazioni.

Per le osservazioni relative alla distri-buzione della toxoplasmosi a El Salva-dor, i fattori di contrazione sono per lamaggior parte molto piccoli, fra 0,6 e0,9, ma ce n'è qualcuno nell'intervallofra 0,1 e 0,3. Quale insieme preferire, ivalutatori di James-Stein o i tassi d'inci-denza osservati? La scelta dipende inlarga misura dai fini per cui vogliamousare queste cifre.

Se il Ministero della Sanità di El Sal-vador intende costruire ospedali civiciper coloro che sono affetti da toxopla-smosi, i valutatori di James-Stein proba-bilmente gli offrono la guida più affida-bile. E questo perché il valore attesodell'errore quadrato totale è più piccolonel caso dei valutatori di James-Stein: difatto, più piccolo di circa 3 volte. L'ele-mento importante, in questo calcolo, è ilfatto che l'errore atteso è sommato pertutte le città. Qualche particolare ospe-dale potrà essere di dimensioni erronee,o potrà trovarsi nel posto sbagliato, mala somma di tutte queste inadeguatezze

96 97

che come il livello delle precipitazioni, latemperatura, l'altezza sul mare o la den-sità della popolazione. Ancora una voltai valutatori di James-Stein sono da pre-ferirsi: un calcolo approssimativo dimo-stra che fornirebbero una migliore ap-prossimazione all'incirca nel 70 per cen-to dei casi.

C'è un caso in cui l'incidenza effetti-vamente misurata può funzionare megliodei valutatori di James-Stein: quando siconsidera una sola città, isolamente. Co-me già abbiamo visto, il metodo di Ja-mes-Stein fornisce stime migliori per ungran numero di città, e riduce l'erroretotale di valutazione, per la somma ditutte le città. Non si può dimostrare,tuttavia, che il metodo di Stein sia supe-riore per ogni particolare città presa sin-golarmente: di fatto, le predizioni otte-nute col metodo James-Stein possonoessere sostanzialmente sbagliate.

V7 aiutare la vera media con il metodo

V di Stein, per una città presa singo-larmente, può condurre a errori seri,quando questa media ha un valore atipi-co. La razionalità del metodo sta nel ri-durre il rischio complessivo assumendo

che le medie vere siano più vicine le unealle altre di quanto non siano i dati os-servati. Questa assunzione può degrada-re la valutazione di una media veramenteatipica. Vediamo, ora, perché le auto-mobili d'importazione non dovevano es-sere incluse negli stessi calcoli riguardan-ti i 18 giocatori di baseball: c'è infattiuna sostanziale probabilità che il casodelle automobili sia atipico.

Supponiamo di ignorare questa proba-bilità, e consideriamo insieme tutti i di-ciannove problemi: possiamo allora cal-colare l'errore quadratico totale atteso,come funzione della vera percentuale del-le automobili importate. Si ha che ilrischio, tanto per i giocatori di baseballquanto per le automobili, si riduce solose la percentuale delle automobili impor-tate si trova nello stesso intervallo in cuisono le medie di battuta; altrimenti il ri-schio di errore, per ambedue i tipi diproblema, aumenta.

Il problema di stabilire se una partico-lare media sia «tipica» o meno è delicatoed è difficile comprenderne pienamentele implicazioni. Tornando al problemadella toxoplasmosi a El Salvador, con-centriamo la nostra attenzione sulla città

di Alegría, cui corrisponde il quint'ulti-mo (in ordine di grandezza) valore diincidenza della malattia: —0,249. Me-gría è una delle quattro città che si tro-vano a est del Rio Lempa incluse nellaricerca: a tutte e quattro corrispondonomisure negative. E plausibile supporreche non si tratti di una semplice coinci-denza, e che la toxoplasmosi sia effetti-vamente meno diffusa a est del Lempa.Un estimatore di James-Stein, determi-nato da informazioni prese su tutto ilterritorio del paese, non potrebbe per-tanto essere ottimale per queste città.Abbiamo sviluppato alcune tecniche pertenere in considerazione anche informa-zioni esterne di questo tipo, ma sonosorrette da una teoria che resta ancorarozza ed elementare.

Un tifoso di baseball che sia anche unacuto osservatore può sapere che, comel'abilità nella battuta del singolo gioca-tore può essere rappresentata da una cur-va gaussiana, così anche le vere abilità ditutti i giocatori della prima divisione han-no una distribuzione approssimativamen-te normale. Questa distribuzione ha unvalore medio di 0,27 e una deviazionestandard di 0,015. Disponendo di questa

4 —

PROBLEMADELLE AUTOMOBILI IMPORTATE

3

2PROBLEMADELLE MED1EDI BATTUTA •"*"..

o IIo

0,1 0,2 0,265 0,3 0.4 0,5 0,6

0,7 0,8 0,9

TASSO REALE DI AUTOMOBILI DI IMPORTAZIONE

Problemi privi di relazioni fra loro possono essere considerati insiemee analizzati con il metodo di Stein. ma solo a rischio di aumentarel'errore. Alle diciotto medie di battuta precedentemente calcolate, adesempio, si può aggiungere un diciannovesimo numero che rappresen-ta il tasso delle automobili di importazione osservato a Chicago. Sipossono quindi calcolare nuovi valutatori di James-Stein, tanto per igiocatori di baseball quanto per le automobili, basandosi sulla grande

media di questi diciannove numeri. Non c'è nulla nel teorema di Steinche proibisca un simile procedimento, ma la sua illogicità ha at-tirato molte critiche ben giustificate. Di fatto, l'inclusione di dati prividi relazioni coi precedenti può ridurre la funzione di rischio solo seil tasso di automobili di importazione è vicino alla media delle me-die di battuta (0,265); altrimenti l'errore atteso della valutazione,tanto per le automobili quanto per i giocatori di baseball, aumenta.

98


Recommended