+ All Categories
Home > Documents > anvar a 1 o 2 criteri di classificazionecentroflc.entecra.it/attachments/booksas/cap_4.pdf · gli...

anvar a 1 o 2 criteri di classificazionecentroflc.entecra.it/attachments/booksas/cap_4.pdf · gli...

Date post: 17-Feb-2019
Category:
Upload: doanduong
View: 216 times
Download: 0 times
Share this document with a friend
30
Nota sull’Analisi .....(2 a ed.) Analisi dell varianza a uno e due criteri di classificazione 29 4 Analisi della varianza a uno e due criteri di classificazione I tipi di analisi della varianza (AV) che consideriamo in questo e nel successivo capitolo differiscono in funzione del numero e della modalità di campionamento dei criteri di classificazione o fattori, della modalità di associazione fra i fattori stessi e del numero di unità sperimentali costituenti ciascun campione. I criteri di classificazione, uno (AV-1), due (AV-2) o più, sono distinti sulla base delle modalità di campionamento in fissi e casuali. L'ipotesi nulla nel caso di un fattore F fisso si riferisce ad un numero k determinato di sue varianti o livelli tutti oggetto di campionamento, ed è: H 0 : μ 1 = μ 2 = ... = μ i = ... = μ k mentre nel caso di un fattore F casuale tale ipotesi nulla si riferisce ad un numero indeterminato e assunto pressochè infinito di sue varianti solo in parte sottoposte a campionamento, ed è: H 0 : s s F 2 = 0 . La combinazione di due o più criteri di classificazione dà luogo a modelli di analisi che definiremo fissi (comprendenti solo criteri fissi), casuali (solo criteri casuali) o misti (criteri dei due tipi). A seconda delle modalità di associazione tra i criteri di classificazione designeremo poi come modello di analisi "incrociato" (traduzione dei termini inglese "crossed" e francese "croisé", noto in italiano per lo più come "fattoriale") quello in cui tutti i fattori si trovano sullo stesso livello, appunto incrociati tra loro; tutte le interazioni fra i vari fattori sono allora possibili. Indicheremo invece come modello "gerarchico" il caso in cui i fattori si trovino tutti su livelli diversi, senza quindi interazioni tra i fattori stessi. Definiremo col termine di modello "parzialmente gerarchico" tutte le situazioni intermedie, in cui solo certe interazioni sono ipotizzabili. Infine,distingueremo i casi in cui il numero di unità sperimentali del campione a disposizione per ciascun oggetto sia pari all'unità (n=1) o superiore (n>1), comportando il secondo caso la presenza di una variabilità residuale o residuo, nonchè i casi in cui tali unità sperimentali siano in numero costante per oggetto oppure variabile, ed infine il caso di sottocampionamento. Condizioni di applicazione per l'analisi della varianza sono l'uguaglianza delle varianze e la normalità delle distribuzioni delle popolazioni statistiche. Inoltre, i campioni per popolazione devono essere casuali ed indipendenti fra loro.
Transcript

Nota sull’Analisi .....(2a ed.)

Analisi dell varianza a uno e due criteri di classificazione 29

4 Analisi della varianza a uno e duecriteri di classificazione

I tipi di analisi della varianza (AV) che consideriamo in questo e nel successivo capitolodifferiscono in funzione del numero e della modalità di campionamento dei criteri diclassificazione o fattori, della modalità di associazione fra i fattori stessi e del numero di unitàsperimentali costituenti ciascun campione.

I criteri di classificazione, uno (AV-1), due (AV-2) o più, sono distinti sulla base delle modalitàdi campionamento in fissi e casuali. L'ipotesi nulla nel caso di un fattore F fisso si riferisce adun numero k determinato di sue varianti o livelli tutti oggetto di campionamento, ed è:

H0 : µ1 = µ2 = ... = µi = ... = µk

mentre nel caso di un fattore F casuale tale ipotesi nulla si riferisce ad un numero indeterminatoe assunto pressochè infinito di sue varianti solo in parte sottoposte a campionamento, ed è:

H0 : σσF2

= 0 .

La combinazione di due o più criteri di classificazione dà luogo a modelli di analisi chedefiniremo fissi (comprendenti solo criteri fissi), casuali (solo criteri casuali) o misti (criteri deidue tipi).

A seconda delle modalità di associazione tra i criteri di classificazione designeremo poi comemodello di analisi "incrociato" (traduzione dei termini inglese "crossed" e francese "croisé",noto in italiano per lo più come "fattoriale") quello in cui tutti i fattori si trovano sullo stessolivello, appunto incrociati tra loro; tutte le interazioni fra i vari fattori sono allora possibili.Indicheremo invece come modello "gerarchico" il caso in cui i fattori si trovino tutti su livellidiversi, senza quindi interazioni tra i fattori stessi. Definiremo col termine di modello"parzialmente gerarchico" tutte le situazioni intermedie, in cui solo certe interazioni sonoipotizzabili.

Infine,distingueremo i casi in cui il numero di unità sperimentali del campione a disposizioneper ciascun oggetto sia pari all'unità (n=1) o superiore (n>1), comportando il secondo caso lapresenza di una variabilità residuale o residuo, nonchè i casi in cui tali unità sperimentali sianoin numero costante per oggetto oppure variabile, ed infine il caso di sottocampionamento.

Condizioni di applicazione per l'analisi della varianza sono l'uguaglianza delle varianze e lanormalità delle distribuzioni delle popolazioni statistiche. Inoltre, i campioni per popolazionedevono essere casuali ed indipendenti fra loro.

Nota sull’Analisi .....(2a ed.)

Analisi dell varianza a uno e due criteri di classificazione 30

Come per il test t di Student, le prime due condizioni divengono meno importanti - anche sespesso non trascurabili - nel caso di unità sperimentali in numero costante per oggetto, mentrela loro verifica è indispensabile se il loro numero è variabile.Tale verifica è spesso resa difficile dal ridotto numero di unità sperimentali a disposizione percampione. Anche prescindendo dalla eventuale presenza di fattori accessori (tipo il blocco) edeseguendo i test statistici sui gruppi di unità sperimentali identificati dai trattamenti, nonsempre si raggiunge quel numero minimo di unità (4 o 5) che sarebbe necessario perl'esecuzione dei test. In questi casi, si può rendere necessaria una decisione in base a criteri piùgenerali: un esempio del genere, con riferimento alla condizione di normalità delle popolazioni,è presentato in 4.3, mentre uno schema generale della casistica di questo tipo è dato di seguito.

Verifica delle condizioni di normalità e di uguaglianza delle varianze in base alle relazioni framedia (m) e varianza (σ2), espressi su scala logaritmica, dei gruppi identificati dai trattamentied eventuale scelta di una trasformazione di variabile:

log σ2 log σ2 log σ2

° ° °

° ° ° ° ° ° ° ° ° ° ° b ≈ 1 ° b ≈ 2 ° b ≈ 0

log m log m log m

log σ2 = log σ2 = log m + log k 2 log m + log k

σ2 = k m σ2 = k m2

trasf. radice quadrata trasf. logaritmica nessuna trasf.

per rientrare nelle per rientrare nelle condizioni di normalità condizioni di normalità o di

uguaglianza delle varianze

Abbiamo già incontrato in 3.1, nell'ambito della PROC UNIVARIATE, una applicazione deltest di normalità di Shapiro-Wilks. In tale test, l’ipotesi di normalità viene verificata perciascuna popolazione statistica separatamente, ed una decisione viene assunta sulla base dellarisposta mostrata dalla maggioranza delle popolazioni. Una applicazione del test di uguaglianzadelle varianze di Bartlett è invece data in 4.2. Tale test non è direttamente eseguibile attraversouna procedura SAS bensì attraverso un insieme di istruzioni che ne permettono l'esecuzione eche possono essere memorizzate nel loro insieme in un file .SAS separato e richiamabileattraverso il comando INC all'interno di un qualunque programma SAS in corso di redazione.Si riassumono di seguito le modalità per l’esecuzione sia del test di Bartlett che del test di

Nota sull’Analisi .....(2a ed.)

Analisi dell varianza a uno e due criteri di classificazione 31

Shapiro-Wilks in corrispondenza di AV comprendenti un diverso numero di fattori Fi e diversidisegni sperimentali:

Esecuzione del test di Bartlett (verifica omogeneità delle varianze):

si indica nelle istruzioni BY delle PROC SORT e PROC MEANS iniziali i fattori la cuicombinazione identifica le popolazioni statistiche, e nella istruzione VAR della PROC MEANSla variabile di risposta.

PROC SORT; BY . . . ;PROC MEANS VAR N NOPRINT; BY . . . ; VAR . . . ; OUTPUT OUT=FILEOUT VAR=VAR N=NUM;*;DATA _NULL_; SET FILEOUT END=EOF; LOGVAR=LOG(VAR); N= NUM - 1; SLOGVAR+LOGVAR*N; TOTN+N; NVAR=N*VAR; SNVAR+NVAR; A+1; SFRACT+1/N; IF EOF THEN DO; M = TOTN * LOG(SNVAR/TOTN) - SLOGVAR; C = 1 + (1 / (3*(A-1))) * (SFRACT - 1/TOTN); CHIQU = M / C; PROBCHI = PROBCHI (CHIQU,(A-1)); ALPHA = 1 - PROBCHI; RCHIQU = ROUND(CHIQU,.001); RALPHA = ROUND(ALPHA,.001); FILE PRINT; PUT ' '; PUT 'test di Bartlett: chi quadrato =' RCHIQU ' alpha=' RALPHA;END;RUN;

Esecuzione del test di Shapiro-Wilks (verifica normalità):

si indica nella istruzione BY delle PROC SORT e PROC UNIVARIATE i fattori la cuicombinazione identifica le popolazioni statistiche, e nella istruzione VAR della PROCUNIVARIATE la variabile di risposta.

PROC SORT; BY . . . ;PROC UNIVARIATE NORMAL; BY . . . ; VAR . . . ;

Nota sull’Analisi .....(2a ed.)

Analisi dell varianza a uno e due criteri di classificazione 32

Fattore/i da indicare nelle istruzioni BY del programma per il test di Bartlett e della PROCUNIVARIATE in alcuni tipi di AV:

AV-1 Fattore F1, disegno completamente randomizzato F1

AV-2 F1 ed F2 incrociati, disegno complet. random. F1 F2

AV-2 F2 in dipendenza gerarchica di F1, disegno complet. random. F2 (su varianti di F1)

AV-2 F1 in blocco randomizzato F1

AV-3 F1, F2, F3 incrociati, disegno complet. random. F1 F2 F3

AV-3 Fattoriale con F1, F2 incrociati in blocco randomizzato F1 F2

Nel paragrafo 4.2 viene anche richiesta la stampa delle varianze delle popolazioni statisticheper la successiva esecuzione manuale del test di uguaglianza delle varianze di Hartley. Questotest, di facilissima esecuzione e le cui tavole statistiche sono riportate in Appendice II, èapplicabile nei soli casi di unità sperimentali in numero costante per campione. Inoltre, essendomeno potente del test di Bartlett, i suoi risultati vanno considerati con cautela quando ilnumero di unità sperimentali per trattamento è molto ridotto (4 o 5).Una soluzione alla mancanza delle condizioni di normalità o di uguaglianza delle varianze èrappresentata da una trasformazione dei dati oppure, nel caso che ciò non fosse sufficiente esoprattutto nell'ipotesi di unità sperimentali in numero non costante, dall'uso di un test nonparametrico.

Eseguita l'analisi della varianza, i confronti tra le medie delle singole varianti di un certocriterio di classificazione fisso si possono eseguire attraverso uno dei vari test di confrontimultipli, alcuni dei quali sono esaminati in 4.3, oppure in certi casi col metodo dei contrasti,che è specificamente esemplificato in 5.11 per fattori costituiti da varianti (qualitative) ed in 5.6per fattori costituiti da livelli (quantitativi) .

Le procedure SAS utilizzate per l'analisi della varianza nei paragrafi che seguono sono laPROC ANOVA e la PROC GLM. L'uso della prima è indicato per esperimenti con numero diunità sperimentali per oggetto costante ed in assenza di valori mancanti, oppure quando nonviene richiesta l'esecuzione di contrasti lineari. La PROC GLM, più esigente della precedente infatto di memoria centrale disponibile per l'esecuzione del programma, è invece indicata in tuttigli altri casi. Essa consente il calcolo della devianza di tipo III, stimata con un processoassimilabile a quello usato in regressione multipla per la stima della devianza delle variabilidipendenti inserite nel modello lineare. Tale devianza è quella di validità più generale perl'analisi di esperimenti non bilanciati o con dati mancanti, cioè esperimenti con numero variabiledi unità sperimentali per oggetto, mentre quella di tipo I, la sola ottenibile con la PROCANOVA, è inadeguata in questi casi. L’uso della PROC GLM per tali casi è esemplificato nelparagrafo 4.1.

Le principali istruzioni ed il loro uso sono identici nelle PROC ANOVA e GLM. Esse sonoschematizzate di seguito, insieme ad alcune istruzioni disponibili solo nella PROC GLM e chesono precedute da un asterisco nello schema.

Nota sull’Analisi .....(2a ed.)

Analisi dell varianza a uno e due criteri di classificazione 33

PROC ANOVA (o PROC GLM) DATA = ...; scelta della PROC, indicazione deldata file se non è "attivo"

CLASS ... ... ; elenco dei criteri di classificazione

MODEL Y = ... ... ... ; indicazione del modello lineare

TEST H = ... E = ... ; test F dell’effetto in H= , da eseguire se il suo errore riportato in E= è diverso da quello del modello lineare

MEANS ... ; calcolo medie e deviazioni standard per il fattore indicato

MEANS ... / ... E = ... ; esegue confronti multipli tra medie per il fattore indicato attraverso il test indicato dopo lo slash (vedi paragrafo 4.3), utilizzando l’errore in E=

BY ... ... ; esegue AV separate per sottogruppi

REPEATED ... ; analisi di osservazioni ripetute nel tempo (vedi paragrafo 5.9)

* CONTRAST ... ... / E = ...; esegue contrasti in base ai coefficienti indicati (vedi paragrafi 5.6 e 5.11), utilizzando l’errore in E=

* LSMEANS ... ... / E = ...; stampa medie stimate col metodo dei minimi quadrati, usando E=

* RANDOM ... ... / TEST; indicazione degli effetti casuali del modello, e richiesta dei test F con errori stimati in base alle componenti attese della varianza

Tutti gli esempi presentati in questo capitolo si riferiscono a delle analisi della varianza a duecriteri di classificazione (AV-2); tuttavia, in 4.2 vengono eseguite delle AV-1 come passiintermedi dell'analisi dei dati.

Anticipando il contenuto dei paragrafi successivi, si riassume di seguito le istruzioni SASessenziali per ottenere l’esecuzione dei test F di interesse nel caso di esperimenti con duefattori (denominati A e B).

fattori in fattori incrociati dipendenza gerarchica (B subordinato ad A) modello fisso modello misto (B casuale)

A A A B B B A x B A x B Residuo Residuo Residuo

CLASS A B; CLASS A B; CLASS A B; MODEL Y = A B A*B; MODEL Y = A B A*B; MODEL Y = A B(A); TEST H=A E=A*B; TEST H=A E=B(A);

Nota sull’Analisi .....(2a ed.)

Analisi dell varianza a uno e due criteri di classificazione 34

4.1 Due fattori incrociati

Tre tipi di sonde pedologiche sono messe a confronto in due suoli di caratteristichecontrastanti per evidenziare eventuali differenze tra i campioni di suolo ottenibili tramiteciascuna di esse per quanto riguarda il loro contenuto in anidride fosforica.I due criteri di classificazione "sonda" e "suolo" sono due fattori entrambi fissi ed incrociati fraloro, in un piano sperimentale coincidente con un fattoriale 2 x 3 completamenterandomizzato.Nell'ambito di tale situazione, consideriamo dapprima il caso in cui le unità sperimentali peroggetto, cioè i prelievi per tipo di sonda e di suolo, siano in numero costante di 4; in unsecondo tempo, supponiamo il verificarsi di alcuni valori mancanti per cui il numero di unitàsperimentali diviene variabile. Il programma che segue comprende così in realtà due programmicon altrettanti separati steps di input di dati.Assumiamo in entrambe le AV già verificate le condizioni sulla normalità e l'uguaglianza dellevarianze delle popolazioni statistiche.Il caso di due fattori incrociati di cui uno sia casuale, dando così origine ad un modello misto diAV, è brevemente considerato nello schema riportato in fondo all’introduzione al capitolo 4.

PROGRAMMA SAS

Il primo programma, dopo l’input dei dati, include anche la PROC TABULATE, utile perottenere tabelle di vario tipo ed utilizzata in questo caso per tabulare i valori medi pertrattamento della variabile di risposta "fosforo". Nella PROC TABULATE si pone in CLASSla/le variabili categoriche ed in VAR la/le variabili di risposta interessate dalla tabulazione. InTABLE, una virgola separa le variabili categoriche le cui varianti vanno ordinate sulle righe daquelle con varianti sulle colonne. Nella stessa istruzione, quando due o più variabili sonoraggruppate insieme sulle righe o le colonne, un asterisco ha l'effetto di incrociarle secondo lagerarchia indicata dalla loro posizione mentre uno spazio bianco le tiene separate secondo lastessa gerarchia; delle parentesi determinano infine le precedenze fra le operazioni. Sempre inTABLE, la variabile di risposta è posta a destra della virgola e risulta incrociata sia con la/leeventuali variabili categoriche, che la precedono, sia con la/le statistiche richieste nella tabella,che la seguono. Nel caso che siano richieste più statistiche per variabile di risposta, esse sonotutte racchiuse in una parentesi e divise da spazi bianchi. Allo stesso modo, se sono più d'una levariabili di risposta di cui si richiede una certa statistica tali variabili sono tutte comprese in unaparentesi e divise da spazi bianchi.Sia la PROC ANOVA, adatta nel primo programma con unità sperimentali in numero costante,che la PROC GLM, appropriata nel programma successivo con unità in numero variabile,hanno la stessa struttura. Si indica in CLASS le variabili che identificano i criteri diclassificazione considerati nell'AV. Nell'istruzione MODEL si pone da un lato la variabile dirisposta da analizzare e dall'altro, dopo il segno di uguaglianza, tutti gli effetti legati allevariabili categoriche ed alle loro possibili interazioni. Anche se l'ordine di tali effetti èfacoltativo, è buona norma ordinarli in modo tale da riprodurre poi sull'output la relativatabella di AV. Ciò che resta fuori da MODEL è la variabilità residua o più in generale iltermine di errore d'ordine più basso, che comparirà nell'output come errore del modello lineareindicato.La PROC GLM esegue per default il calcolo delle devianze di tipo I e III. E’ possibilerichiedere anche il calcolo delle devianze di tipo II o IV con un'opzione, nell'ambito

Nota sull’Analisi .....(2a ed.)

Analisi dell varianza a uno e due criteri di classificazione 35

dell'istruzione MODEL, che specifica tutte le devianze a cui si è interessati. Nell'esempio sirichiede oltre al calcolo della devianza di tipo III anche quello della devianza di tipo II, essendostata quest'ultima quella considerata nel riferimento bibliografico. L'eventuale aggiuntadell'istruzione LSMEANS indicante gli effetti "suolo", "sonda" e "suolo*sonda" separati dauno spazio avrebbe poi permesso la stima delle medie delle varianti di tali effetti secondo ilmetodo dei minimi quadrati in un caso come questo in cui il numero di unità sperimentali peroggetto non è costante. L'istruzione MODEL rappresenta il cuore delle procedure di analisidella varianza, della covarianza e della regressione; è raccomandabile una sua comprensioneapprofondita da acquisire sul manuale SAS delle procedure statistiche.

** 4.1 DUE FATTORI INCROCIATI -* UNITA' SPERIMENTALI IN NUMERO COSTANTE* DAGNELIE (1975) - PAG. 175*;DATA esempio1; INPUT suolo $ sonda fosforo @@; CARDS; A 1 43 B 1 40 A 1 45 B 1 40 A 1 46 B 1 40 A 1 53 B 1 43 A 2 41 B 2 35 A 2 42 B 2 37 A 2 43 B 2 40 A 2 44 B 2 40 A 3 42 B 3 37 A 3 44 B 3 39 A 3 46 B 3 40 A 3 48 B 3 40 ;PROC TABULATE; CLASS suolo sonda; VAR fosforo; TABLE suolo,sonda*fosforo*(MEAN); TITLE '4.1 Due fattori incrociati -'; TITLE2 'unità sperimentali in numero costante'; TITLE3 'tabella 1';PROC ANOVA; CLASS suolo sonda; MODEL fosforo = suolo sonda suolo*sonda; TITLE3;RUN;** 4.1 AV-2, DUE FATTORI INCROCIATI -* UNITA' SPERIMENTALI IN NUMERO VARIABILE* DAGNELIE (1975) - PAG. 196*;DATA esempio2; INPUT suolo $ sonda fosforo @@; CARDS; A 1 43 B 1 40 A 1 45 B 1 40 A 1 46 B 1 40 A 1 53 B 1 43 A 2 41 B 2 35

Nota sull’Analisi .....(2a ed.)

Analisi dell varianza a uno e due criteri di classificazione 36

A 2 42 B 2 37 B 2 40 A 2 44 B 2 40 A 3 42 B 3 37 A 3 44 B 3 39 A 3 46 B 3 40 B 3 40 ;PROC GLM; CLASS suolo sonda; MODEL fosforo = suolo sonda suolo*sonda / SS2 SS3; TITLE2 'unità sperimentali in numero variabile';RUN;

OUTPUT SAS

Gli output delle AV ottenibili con le due procedure sono in buona parte analoghi. Dopo ilprospetto recapitolativo iniziale, il primo test F Ê verifica la validità del modello lineareindicato riferendosi all'ipotesi nulla che tutti i parametri degli effetti indicati nel modello nondifferiscano da zero. Il termine di errore di questo test, al quale si riferiscono le successivestime della deviazione standard Ì e del coeff. di variabilità Ë, è come detto quello d'ordine piùbasso, in questo caso il residuo, e può essere aggiunto alla lista degli effetti che segue acompletare la tavola di AV. Esso costituisce nella stessa lista il termine d'errore per il test F ditutti gli effetti del modello, per ognuno dei quali rappresenta in questo caso l'erroresperimentale adeguato.La PROC GLM riporta due tavole di AV, ciascuna riferentesi al calcolo di una delle somme deiquadrati richiesta.In entrambe le analisi le sonde differiscono mediamente in modo significativo per contenuto infosforo dei rispettivi campioni di terreno Î. Differiscono come atteso anche i suoli Í, mentrel'interazione fra i due fattori non risulta significativa Ï.Il riferimento bibliografico differisce leggermente nei risultati in seguito ad alcune operazioni diarrotondamento delle cifre eseguite nel corso dei calcoli.

4.1 due fattori incrociati - unità sperimentali in numero costante tabella 1

---------------------------------------------------------- | | SONDA | | |--------------------------------------| | | 1 | 2 | 3 | | |------------+------------+------------| | | FOSFORO | FOSFORO | FOSFORO | | |------------+------------+------------| | | MEAN | MEAN | MEAN | |-----------------+------------+------------+------------| |SUOLO | | | | |-----------------| | | | |A | 46.75| 42.50| 45.00| |-----------------+------------+------------+------------| |B | 40.75| 38.00| 39.00| ----------------------------------------------------------

Nota sull’Analisi .....(2a ed.)

Analisi dell varianza a uno e due criteri di classificazione 37

4.1 due fattori incrociati - unità sperimentali in numero costante

Analysis of Variance Procedure Class Level Information

Class Levels Values

SUOLO 2 A B

SONDA 3 1 2 3

Number of observations in data set = 24

Dependent Variable: FOSFORO Sum of MeanSource DF Squares Square F Value Pr > F

Model 5 233.5000000 46.70000 7.47 0.0006 Ê

Error 18 112.5000000 6.2500000

Corrected Total 23 346.0000000

R-Square C.V. Root MSE FOSFORO Mean

0.674855 5.952381 Ë 2.500000 Ì 42.0000000

Source DF Anova SS Mean Square F Value Pr > FSUOLO 1 181.5000000 181.5000000 29.04 0.0001 ÍSONDA 2 49.0000000 24.5000000 3.92 0.0386 ÎSUOLO*SONDA 2 3.0000000 1.5000000 0.24 0.7891 Ï

Nota sull’Analisi .....(2a ed.)

Analisi dell varianza a uno e due criteri di classificazione 38

4.1 due fattori incrociati - unità sperimentali in numero variabile

General Linear Models Procedure Class Level Information

Class Levels Values

SUOLO 2 A B

SONDA 3 1 2 3

Number of observations in data set = 22

Dependent Variable: FOSFORO Sum of MeanSource DF Squares Square F Value Pr > F

Model 5 206.6060606 41.3212121 6.60 0.0016 Ê

Error 16 100.1666667 6.2604167

Corrected Total 21 306.7727273

R-Square C.V. Root MSE FOSFORO Mean

0.673482 6.002815 Ë 2.502082 Ì 41.6818182

Source DF Type II SS Mean Square F Value Pr > F

SUOLO 1 144.4210526 144.4210526 23.07 0.0002SONDA 2 47.8567669 23.9283835 3.82 0.0440SUOLO*SONDA 2 2.6265664 1.3132832 0.21 0.8130

Source DF Type III SS Mean Square F Value Pr > F

SUOLO 1 141.0666667 141.0666667 22.53 0.0002 ÍSONDA 2 49.0776942 24.5388471 3.92 0.0412 ÎSUOLO*SONDA 2 2.6265664 1.3132832 0.21 0.8130 Ï

Nota sull’Analisi .....(2a ed.)

Analisi dell varianza a uno e due criteri di classificazione 39

4.2 Due fattori in dipendenza gerarchica

Si vuole studiare le differenze in produzione di sostanza secca fra due tipi di prati permanentifitosociologicamente distinti. Partendo da un campione di tre prati scelti a caso nell'ambito diciascun tipo di prato permanente, designati col termine di praterie, si vuole inoltre verificarel'ipotesi nulla di uguaglianza della produzione di tutti i prati appartenenti ad un determinatotipo di prato. La produzione è stata determinata in ciascun prato su 5 parcelle di due metriquadrati scelte a caso.Il criterio di classificazione "tipo" di prato permanente è gerarchicamente superiore rispetto alcriterio "prateria". Il primo criterio è fisso mentre il secondo, relativo ad un campionamento adue fasi, è casuale. Il conseguente modello di AV-2 è gerarchico misto, con unità sperimentaliper oggetto in numero costante di 5.Il test del fattore "tipo" nell'ambito di una AV-2 combinata è eseguibile solo se, sulla base di untest sulle varianze, non si possa respingere l'ipotesi nulla di uguaglianza degli errorisperimentali di ciascuna AV-1 che verifica separatamente il fattore "prateria" nell'ambito diciascun "tipo" di prato permanente. Si esegue quindi dapprima due separate AV-1, per poieseguire successivamente la AV-2 combinata.Si vuole anche verificare la condizione di uguaglianza delle varianze tra le varianti del fattore"prateria" preliminarmente all'esecuzione di ciascuna delle AV-1. Si richiede dapprima latabulazione dei valori delle varianze dei trattamenti, oltre alle loro medie, per poter eseguiremanualmente per ciascuno dei due gruppi di prati il test di Hartley. L'esecuzione del test diBartlett separatamente per ognuno dei gruppi viene invece richiesta in seguito attraverso unaserie di istruzioni secondo le modalità già descitte nell’introduzione al capitolo 4 per questospecifico caso analitico. Assumiamo già soddisfatta l'ipotesi di normalità delle popolazionistatistiche ai due livelli di parcella e di prato ai quali è stato eseguito il campionamento.

PROGRAMMA SAS

La stampa di media e varianza per oggetto per la variabile di risposta è richiesta tramite laPROC TABULATE secondo le modalità già indicate in 4.1.Come indicato dalle righe di commento al programma, il test di Bartlett viene applicato duevolte, la prima sul file di dati file10 contenente le sole osservazioni appartenenti ai prati del tipo1 e la seconda su file20 contenenti le osservazioni dei prati del tipo 2. Questi due file sonocreati ogni volta con uno step di DATA in cui le istruzioni SET ed IF indicano rispettivamenteil data file di partenza e la/le condizioni per l'inserimento di una osservazione nel nuovo file.Le AV-1 possono essere richieste in successione nell'ambito della stessa PROC ANOVAtramite l'istruzione BY, richiedente un'analisi separata per ciascuna variante della variabilecategorica indicata. L'uso di tale istruzione va preceduto dalla PROC SORT, che in questocaso richiama tramite l'opzione DATA= il file di dati file1 interessato dall'AV che non era più"attivo". Sia l'istruzione CLASS, che la MODEL a destra del segno di uguaglianza, riportanol'unico criterio di classificazione presente in queste analisi.Segue la AV-2 ancora eseguita con la PROC ANOVA. In CLASS si pone i due criteri diclassificazione. L'istruzione MODEL si caratterizza per il modo di indicare il fattore che nelmodello gerarchico è subordinato: il suo nome va legato a quello del fattore che lo contiene,che lo segue racchiuso in parentesi.Nel caso di modelli gerarchici più complessi, i fattori appartenenti ai livelli inferiori dellagerachia sono indicati in MODEL facendoli seguire da tutti i fattori che li contengono inclusi inun'unica parentesi e separati da uno spazio bianco, indipendentemente dai rapporti intercorrentitra questi fattori. Considerando ad esempio una AV-3 comprendente i fattori A, B e C, la

Nota sull’Analisi .....(2a ed.)

Analisi dell varianza a uno e due criteri di classificazione 40

notazione C(B A) si utilizzerà sia nel caso di un modello completamente gerarchico, in cui C èracchiuso in B che è racchiuso a sua volta in A, sia nel caso di un modello parzialmentegerarchico in cui A e B, incrociati fra loro, racchiudono C. Naturalmente, sarà un'altraporzione della stessa istruzione MODEL a specificare il tipo di rapporto fra A e B.A differenza dell'AV-2 in 4.1, stavolta il termine di errore del modello lineare non è quellocorretto per il test F di tutti gli effetti presenti in MODEL. Tramite l'istruzione TEST sirichiede di adottare come errore sperimentale dell'effetto in H= l'effetto riportato in E= .

** 4.2 DUE FATTORI IN DIPENDENZA GERARCHICA* DAGNELIE (1975) - PAGG. 57, 135, 205*;DATA file1; INPUT tipo prateria ssecca @@; CARDS; 1 1 20.6 1 2 15.9 1 3 19.2 2 1 29.1 2 2 15.7 2 3 24.3 1 1 29.9 1 2 26.3 1 3 18.5 2 1 32.7 2 2 18.2 2 3 21.7 1 1 19.8 1 2 19.8 1 3 21.4 2 1 34.5 2 2 26.9 2 3 23.7 1 1 29.5 1 2 22.5 1 3 13.3 2 1 39.2 2 2 32.5 2 3 28.9 1 1 27.0 1 2 20.9 1 3 18.3 2 1 43.4 2 2 31.1 2 3 22.4 ;** tabulazione valori medi per tipo e prateria*;PROC TABULATE; TITLE '4.2 due fattori in dipendenza gerarchica'; CLASS tipo prateria; VAR ssecca; TABLE tipo*prateria,ssecca*(MEAN VAR);** test di Bartlett per tipo = 1*;DATA file10; SET file1; IF tipo=1;PROC SORT; BY prateria;PROC MEANS VAR N NOPRINT; BY prateria; VAR ssecca; OUTPUT OUT=FILEOUT VAR=VAR N=NUM;DATA _NULL_;SET FILEOUT END=EOF; LOGVAR=LOG(VAR); N= NUM - 1; SLOGVAR+LOGVAR*N; TOTN+N; NVAR=N*VAR; SNVAR+NVAR; A+1; SFRACT+1/N; IF EOF THEN DO; M = TOTN * LOG(SNVAR/TOTN) - SLOGVAR; C = 1 + (1 / (3*(A-1))) * (SFRACT - 1/TOTN);

Nota sull’Analisi .....(2a ed.)

Analisi dell varianza a uno e due criteri di classificazione 41

CHIQU = M / C; PROBCHI = PROBCHI (CHIQU,(A-1)); ALPHA = 1 - PROBCHI; RCHIQU = ROUND(CHIQU,.001); RALPHA = ROUND(ALPHA,.001); FILE PRINT; PUT ' '; PUT ' test di Bartlett: chi quadrato =' RCHIQU ' alpha=' RALPHA;END;RUN;** test di Bartlett per tipo = 2*;DATA file20; SET file1; IF tipo=2;PROC SORT; BY prateria;PROC MEANS VAR N NOPRINT; BY prateria; VAR ssecca; OUTPUT OUT=FILEOUT VAR=VAR N=NUM;*;DATA _NULL_; SET FILEOUT END=EOF; LOGVAR=LOG(VAR); N= NUM - 1; SLOGVAR+LOGVAR*N; TOTN+N; NVAR=N*VAR; SNVAR+NVAR; A+1; SFRACT+1/N; IF EOF THEN DO; M = TOTN * LOG(SNVAR/TOTN) - SLOGVAR; C = 1 + (1 / (3*(A-1))) * (SFRACT - 1/TOTN); CHIQU = M / C; PROBCHI = PROBCHI (CHIQU,(A-1)); ALPHA = 1 - PROBCHI; RCHIQU = ROUND(CHIQU,.001); RALPHA = ROUND(ALPHA,.001); FILE PRINT; PUT ' '; PUT ' test di Bartlett: chi quadrato =' RCHIQU ' alpha=' RALPHA;END;RUN;** AV-1 per singolo tipo*;PROC SORT DATA=file1; BY tipo;PROC ANOVA; TITLE2 'AV-1 per singolo tipo'; BY tipo; CLASS prateria; MODEL ssecca = prateria;** AV-2 finale*;PROC ANOVA;

Nota sull’Analisi .....(2a ed.)

Analisi dell varianza a uno e due criteri di classificazione 42

TITLE2 'AV-2 finale'; CLASS tipo prateria; MODEL ssecca = tipo prateria(tipo); TEST H=tipo E=prateria(tipo);RUN;

OUTPUT SAS

I valori del test di Bartlett Ê non consentono nel caso di entrambi i tipi di prato di respingerel'ipotesi nulla di uguaglianza delle varianze delle varianti del fattore "prateria". Risultatianaloghi si otterrebbero eseguendo manualmente il test di Hartley a partire dai valori dellevarianze riportati in tabella (H osservato di 2.66 e 7.21, H0.95 = 15.5, vedi Appendice II).Le due AV-1 forniscono indicazioni analoghe: l'ipotesi nulla di uguaglianza delle produzionidell'insieme dei prati appartenenti ad un certo tipo di prato permanente può in entrambi i casiessere respinta con un livello di P ≤ 0.05 Ì. Gli errori sperimentali delle due analisi Ë sonodello stesso ordine di grandezza, come viene confermato dall'esecuzione manuale del test Fbilaterale (F osservato = 2.07, F0.975 = 3.30), ciò che consente l'esecuzione dell'analisisuccessiva. Nella AV-2 finale il test F del fattore "tipo" non permette di respingere l'ipotesinulla di uguaglianza delle produzioni dei due tipi di prato Ï, mentre il fattore "prateria" risultastavolta significativo al livello di probabilità P ≤ 0.01 Î. Il primo test F riportato nell'outputper il fattore "tipo" Í viene eseguito di routine utilizzando l'errore sperimentale del modellolineare e non è quindi il test corretto per questo fattore.

4.2 due fattori in dipendenza gerarchica

--------------------------------------------- | | SSECCA | | |-------------------------| | | MEAN | VAR | |-----------------+------------+------------| |TIPO |PRATERIA| | | |--------+--------| | | |1 |1 | 25.36| 23.50| | |--------+------------+------------| | |2 | 21.08| 14.44| | |--------+------------+------------| | |3 | 18.14| 8.83| |--------+--------+------------+------------| |2 |1 | 35.78| 31.38| | |--------+------------+------------| | |2 | 24.88| 57.43| | |--------+------------+------------| | |3 | 24.20| 7.96| ---------------------------------------------

test di Bartlett: chi quadrato =0.845 alpha=0.656 Ê

test di Bartlett: chi quadrato =3.06 alpha=0.217 Ê

Nota sull’Analisi .....(2a ed.)

Analisi dell varianza a uno e due criteri di classificazione 43

AV-1 per singolo tipo

---------------------------------- TIPO=1 -----------------------------------

Analysis of Variance Procedure Class Level Information

Class Levels Values

PRATERIA 3 1 2 3

Number of observations in by group = 15

Dependent Variable: SSECCA Sum of MeanSource DF Squares Square F Value Pr > F

Model 2 131.8173333 65.9086667 4.23 0.0408

Error 12 187.1120000 15.5926667 Ë

Corrected Total 14 318.9293333

R-Square C.V. Root MSE SSECCA Mean

0.413312 18.34355 3.948755 21.5266667

Source DF Anova SS Mean Square F Value Pr > F

PRATERIA 2 131.8173333 65.9086667 4.23 0.0408 Ì

---------------------------------- TIPO=2 -----------------------------------

Analysis of Variance Procedure Class Level Information

Class Levels Values

PRATERIA 3 1 2 3

Number of observations in by group = 15

Dependent Variable: SSECCA Sum of MeanSource DF Squares Square F Value Pr > F

Model 2 422.2813333 211.1406667 6.55 0.0120

Error 12 387.0760000 32.2563333 Ë

Corrected Total 14 809.3573333

R-Square C.V. Root MSE SSECCA Mean

0.521749 20.07824 5.679466 28.2866667

Source DF Anova SS Mean Square F Value Pr > F

PRATERIA 2 422.2813333 211.1406667 6.55 0.0120 Ì

Nota sull’Analisi .....(2a ed.)

Analisi dell varianza a uno e due criteri di classificazione 44

AV-2 finale

Analysis of Variance Procedure Class Level Information

Class Levels Values

TIPO 2 1 2

PRATERIA 3 1 2 3

Number of observations in data set = 30

Dependent Variable: SSECCA Sum of MeanSource DF Squares Square F Value Pr > F

Model 5 896.8306667 179.3661333 7.50 0.0002

Error 24 574.1880000 23.9245000

Corrected Total 29 1471.0186667

R-Square C.V. Root MSE SSECCA Mean

0.609666 19.63839 4.891268 24.9066667

Source DF Anova SS Mean Square F Value Pr > F

TIPO 1 342.7320000 342.7320000 14.33 0.0009 ÍPRATERIA(TIPO) 4 554.0986667 138.5246667 5.79 0.0021 Î

Tests of Hypotheses using the Anova MS for PRATERIA(TIPO) as an error term

Source DF Anova SS Mean Square F Value Pr > F

TIPO 1 342.7320000 342.7320000 2.47 0.1908 Ï

Nota sull’Analisi .....(2a ed.)

Analisi dell varianza a uno e due criteri di classificazione 45

4.3 Blocco randomizzato

Sono messi a confronto 9 trattamenti erbicidi applicati ad una coltura di porro. La variabile dirisposta è rappresentata dal numero di piante infestanti presenti per parcella. Ci sono 4ripetizioni per trattamento, ripartite in altrettanti blocchi randomizzati.Il criterio di classificazione fisso "trattamento" e quello casuale "blocco" sono incrociati fraloro, in un modello misto di AV-2. Una sola unità sperimentale è quindi disponibile peroggetto.Si richiede l'analisi della varianza e l'esecuzione di due test per i confronti multipli fra le medie,il test di Newman e Keuls e quello di Dunnett. Il secondo test è appropriato per la verifica didifferenze fra un trattamento che funge da controllo, in questo caso il trattamento 1, e ciascunodegli altri trattamenti. La scelta del test di Newman e Keuls invece di alcuni altri testsaltrettanto noti come quelli di Duncan e Tukey è giustificata dal miglior equilibrio fra il rischiodi errore di prima specie α (rifiuto dell'ipotesi nulla quando essa è vera) ed il rischio di errore diseconda specie β (accettazione dell'ipotesi nulla quando essa è falsa) che tale test puògarantire. Un altro test frequentemente utilizzato è il test t multiplo di Bonferroni, indicato perl’esecuzione di confronti multipli fra trattamenti caratterizzati da un numero di unitàsperimentali variabile.Preliminarmente, si considera l'opportunità di una trasformazione della variabile di risposta. Lanatura di tale variabile, discreta del tipo "conteggio", lascia prevedere una distribuzione dellepopolazioni statistiche secondo la curva di Poisson e quindi l'esigenza di una trasformazioneradice quadrata per rientrare nelle condizioni di normalità per l'applicazione dell'AV. Laverifica di quanto detto non è però facile: accertata l'assenza di sensibili differenze fra i blocchie considerando quindi le unità sperimentali dei trattamenti come se fossero indipendenti fraloro, il test di normalità di Shapiro-Wilks sulle 4 unità sperimentali disponibili per trattamento ècomunque poco affidabile per il numero troppo ridotto di tali unità. In generale, una confermaalla necessità di eseguire una trasformazione di variabile può essere costituita dallarappresentazione su due assi cartesiani dei logaritmi delle varianze dei trattamenti in funzionedei logaritmi delle medie. Un allineamento dei punti nel senso di una retta ed un coefficienteangolare di tale retta intorno al valore 1 indicherebbe l'opportunità di eseguire unatrasformazione radice quadrata, mentre la stessa cosa con un coefficiente angolare vicino a 2suggerirebbe una trasformazione logaritmica (vedi introduzione al capitolo 4). Il calcolo delcoefficiente di correlazione fra i logaritmi delle varianze e quelli delle medie può da un latoconfermare la necessità di eseguire una trasformazione e dall'altro permettere di verificare lavalidità della trasformazione scelta.

PROGRAMMA SAS

Il programma si presenta in questo caso relativamente complesso, prevedendo un certo numerodi steps di DATA. Possiamo dividerlo in 3 parti: scelta della trasformazione dei dati,esecuzione della trasformazione e suo controllo, AV e confronti multipli fra le medie. Chi fosseinteressato solo alla terza di tali parti può visionare direttamente quest'ultima, tenendo presenteche l'AV viene eseguita sulla variabile di risposta "ninfestr" contenuta in file2 ed originatasidalla trasformazione radice quadrata della variabile originale "ninfes".L'input dei dati comprende le variabili "tratt" (= trattamento), "blocco" e "ninfes" (= n°infestanti / parcella).Nella prima parte, si richiede dapprima con la PROC MEANS i valori medi per blocco dellavariabile di risposta. Poi, attraverso un'altra PROC MEANS si richiede il calcolo delle medie edelle varianze per trattamento e la conservazione di tali valori in file10, che conterrà così le

Nota sull’Analisi .....(2a ed.)

Analisi dell varianza a uno e due criteri di classificazione 46

variabili "media" e "varianza" oltre naturalmente a "tratt". Per esprimere media e varianza deitrattamenti sotto forma logaritmica si richiede la loro trasformazione nell'ambito del nuovo filedi nome file11, contenente l'intera matrice di dati di file10 richiamato con l'istruzione SET piùle nuove variabili "logmed" e "logvar".La correlazione fra i logaritmi delle varianze e quelli delle medie si esegue con la PROCCORR. L'opzione NOSIMPLE sopprime la stampa di una serie di statistiche per le variabilioggetto della procedura. L'istruzione VAR indica le variabili da inserire nella matrice dicorrelazione, in questo caso solo due.Il grafico dei logaritmi delle varianze in funzione di quelli delle medie è richiesto con la PROCPLOT. L'opzione VTOH= indica il rapporto di scala approssimativo tra le grandezze sull'asseverticale e quelle sull'asse orizzontale. L'istruzione PLOT riporta, divise da un asterisco, levariabili da porre rispettivamente sull'asse delle ordinate e su quello delle ascisse.La regressione lineare semplice di "logvar" su "logmed" può essere richiesta tramite la PROCGLM già utilizzata per l'esecuzione dell'analisi della varianza, in cui l'istruzione CLASS è peròin questo caso assente. L'istruzione MODEL indica il modello lineare ipotizzato.La trasformazione radice quadrata della variabile di risposta avviene nell'ambito di file2contenente i dati di file1 più la nuova variabile "ninfestr".Il controllo della validità della trasformazione viene eseguito secondo modalità analoghe aquelle utilizzate per la scelta della trasformazione.

Considerata soddisfacente tale trasformazione, l'AV-2 viene eseguita con la PROC ANOVAindicando con DATA= il file di dati file2 interessato dall'AV e non "attivo" in questo momento.In CLASS si riportano i due criteri di classificazione. In MODEL il modello lineare indicatoper la variabile di risposta comprende i due criteri di classificazione mentre esclude la lorointerazione. Quest'ultima costituisce infatti l'errore del modello, ovvero il suo termine d'errorepiù basso. Inoltre tale effetto rappresenta il corretto termine d'errore per il test F dell'effettotrattamento, rendendo superflua rispetto all'esempio in 4.2 la presenza dell'istruzione TEST.

Infine, l'istruzione MEANS consente l'esecuzione di confronti multipli fra le medie dellevarianti del/degli effetti indicati dall'istruzione stessa. Le opzioni che seguono specificanonell'ordine il test richiesto ed il livello di significatività prescelto per l'esecuzione del test. Nelcaso che nessuna opzione venga indicata, l'istruzione MEANS esegue semplicemente il calcolodella media e della deviazione standard di ciascuna variante dell'effetto indicato.

Si riassume di seguito le istruzioni necessarie per l’esecuzione dei principali test di confrontomultiplo fra trattamenti:

Test Istruzione

Newman e Keuls SNK

Dunnett DUNNETT

Bonferroni BON

Duncan DUNCAN

Tukey TUKEY

Nel caso del test di Dunnett, occorre indicare racchiuso tra apici e parentesi il nome deltrattamento da considerare come controllo.

Nota sull’Analisi .....(2a ed.)

Analisi dell varianza a uno e due criteri di classificazione 47

** 4.3 BLOCCO RANDOMIZZATO* DAGNELIE (1975) - PAGG. 366, 369*;DATA file1; INPUT tratt blocco ninfes @@; CARDS; 1 1 40 1 2 48 1 3 16 1 4 18 2 1 8 2 2 7 2 3 18 2 4 26 3 1 5 3 2 11 3 3 25 3 4 7 4 1 13 4 2 9 4 3 36 4 4 37 5 1 6 5 2 16 5 3 10 5 4 0 6 1 3 6 2 6 6 3 20 6 4 18 7 1 26 7 2 20 7 3 6 7 4 21 8 1 6 8 2 20 8 3 7 8 4 10 9 1 2 9 2 3 9 3 12 9 4 0 ;** scelta della trasformazione dei dati*;PROC SORT; BY blocco;PROC MEANS MEAN; BY blocco; VAR ninfes; TITLE '4.3 blocco randomizzato'; TITLE2 'valori medi per blocco';PROC SORT; BY tratt;PROC MEANS MEAN VAR NOPRINT; BY tratt; VAR ninfes; OUTPUT OUT=file10 MEAN=media VAR=varianza;DATA file11; SET file10; logmed = LOG(media); logvar = LOG(varianza);PROC CORR NOSIMPLE; TITLE2 'correlazione log(varianza) - log(media), dati non trasformati'; VAR logvar logmed;PROC PLOT VTOH=1; TITLE2 'grafico di log(varianza) su log(media), dati non trasformati'; PLOT logvar*logmed;PROC GLM; TITLE2 'regressione di log(varianza) su log(media), dati non trasformati'; MODEL logvar = logmed;** esecuzione della trasformazione e suo controllo*;DATA file2; SET file1; ninfestr = SQRT(0.5 + ninfes);PROC MEANS MEAN VAR NOPRINT; BY tratt; VAR ninfestr;OUTPUT OUT=file20 MEAN=media VAR=varianza;

Nota sull’Analisi .....(2a ed.)

Analisi dell varianza a uno e due criteri di classificazione 48

DATA file21; SET file20; logmed = LOG(media); logvar = LOG(varianza);PROC CORR NOSIMPLE; TITLE2 'correlazione log(varianza) - log(media), dati trasformati'; VAR logvar logmed;PROC PLOT VTOH=1; TITLE2 'grafico di log(varianza) su log(media), dati trasformati'; PLOT logvar*logmed;PROC GLM; TITLE2 'regressione di log(varianza) su log(media), dati trasformati'; MODEL logvar = logmed;** analisi della varianza e confronti multipli fra trattamenti*;PROC ANOVA DATA=file2; TITLE2 'analisi della varianza e confronti multipli fra trattamenti'; CLASS tratt blocco; MODEL ninfestr = tratt blocco; MEANS tratt / SNK ALPHA=0.05; MEANS tratt / DUNNETT ('1') ALPHA=0.05;RUN;

OUTPUT SAS

Verificata l'assenza di sensibili differenze fra le medie dei blocchi, il valore del coefficiente dicorrelazione (significativo al livello di P ≤ 0.001) Ê indica l'esistenza di una relazione moltostretta fra i logaritmi delle varianze e quelli delle medie. Il successivo diagramma di dispersionesuggerisce una relazione lineare con un coeff. angolare della retta vicino all'unità. Ciò vieneconfermato dall'analisi della regressione: senza addentrarci nel commento del relativo output, iltest del coefficiente di regressione (parametro "logmed") eseguito sia tramite il test t cheattraverso l'AV permette di considerare tale coefficente diverso da zero per un livello di P ≤0.001, stimandolo circa pari a 1.14 Ë. La successiva trasformazione radice quadrata, la piùadeguata per il caso in esame, migliora sensibilmente la situazione, risultando la correlazionefra i logaritmi delle varianze e quelli delle medie non più significativa Ì.La AV eseguita sui dati trasformati da un lato non consente, anche se di poco, di respingerel'ipotesi nulla di non differenza da zero dei parametri dell'insieme degli effetti del modellolineare Í, mentre dall'altro indica come significativo al livello di P ≤ 0.05 l'effetto trattamentoÎ. Dando un peso maggiore alla seconda assunzione, i soli trattamenti 1 e 9 risultano differentisecondo il test di Newman e Keuls, mentre la M.D.S. del test di Dunnett è inferiore alladifferenza tra le medie anche per il confronto fra i trattamenti 1 e 5 per il livello di P prescelto.Ciò non deve sorprendere, dal momento che i due test differiscono nelle loro ipotesi dipartenza.L'esempio bibliografico differisce molto leggermente nei risultati della AV a causa dellatrasformazione radice quadrata del tipo meno classico impiegata.Lo stesso esempio viene utilizzato in 8.2 per l'esecuzione del test di Friedman sui dati originalinon trasformati.

4.3 Blocco randomizzato

Nota sull’Analisi .....(2a ed.)

Analisi dell varianza a uno e due criteri di classificazione 49

valori medi per blocco

Analysis Variable : NINFES

---------------------------------- BLOCCO=1 ---------------------------------

N Obs Mean ------------------- 9 12.1111111 -------------------

---------------------------------- BLOCCO=2 ---------------------------------

N Obs Mean ------------------- 9 15.5555556 -------------------

---------------------------------- BLOCCO=3 ---------------------------------

N Obs Mean ------------------- 9 16.6666667 -------------------

---------------------------------- BLOCCO=4 ---------------------------------

N Obs Mean ------------------- 9 15.2222222 -------------------

correlazione log(varianza) - log(media), dati non trasformati

CORRELATION ANALYSIS

2 'VAR' Variables: LOGVAR LOGMED

Pearson Correlation Coefficients / Prob > |R| under Ho: Rho=0 / N = 9

LOGVAR LOGMED

LOGVAR 1.00000 0.92051 Ê 0.0 0.0004

LOGMED 0.92051 1.00000 0.0004 0.0

Nota sull’Analisi .....(2a ed.)

Analisi dell varianza a uno e due criteri di classificazione 50

grafico di log(varianza) su log(media), dati non trasformati Plot of LOGVAR*LOGMED. Legend: A = 1 obs, B = 2 obs, etc.

LOGVAR | | 6.0 + | | | | | 5.5 + A | A | | | | 5.0 + | | | | | 4.5 + | A A | A | A | | 4.0 + | | A | A | | 3.5 + | | A | | 3.0 + | --+-----+-----+-----+-----+-----+-----+-----+-----+-----+-----+-----+- 1.4 1.6 1.8 2.0 2.2 2.4 2.6 2.8 3.0 3.2 3.4 3.6

LOGMED

Nota sull’Analisi .....(2a ed.)

Analisi dell varianza a uno e due criteri di classificazione 51

regressione di log(varianza) su log(media), dati non trasformati

General Linear Models Procedure

Number of observations in data set = 9

Dependent Variable: LOGVAR Sum of MeanSource DF Squares Square F Value Pr > F

Model 1 3.57799774 3.57799774 38.85 0.0004

Error 7 0.64461403 0.09208772

Corrected Total 8 4.22261178

R-Square C.V. Root MSE LOGVAR Mean

0.847342 6.972952 0.303460 4.35195308

Source DF Type I SS Mean Square F Value Pr > F

LOGMED 1 3.57799774 3.57799774 38.85 0.0004

Source DF Type III SS Mean Square F Value Pr > F

LOGMED 1 3.57799774 3.57799774 38.85 0.0004

T for H0: Pr > |T| Std Error ofParameter Estimate Parameter=0 Estimate

INTERCEPT 1.438106260 3.01 0.0198 0.47828227LOGMED 1.138678885 Ë 6.23 0.0004 0.18267625

correlazione log(varianza) - log(media), dati trasformati

CORRELATION ANALYSIS

2 'VAR' Variables: LOGVAR LOGMED

Pearson Correlation Coefficients / Prob > |R| under Ho: Rho=0 / N = 9

LOGVAR LOGMED

LOGVAR 1.00000 0.31391 Ì 0.0 0.4107

LOGMED 0.31391 1.00000 0.4107 0.0

Nota sull’Analisi .....(2a ed.)

Analisi dell varianza a uno e due criteri di classificazione 52

grafico di log(varianza) su log(media), dati trasformati Plot of LOGVAR*LOGMED. Legend: A = 1 obs, B = 2 obs, etc.

1.0 + LOGVAR | | | A | | | 0.8 + | | A | A | | | 0.6 + | | A | | | | 0.4 + | | A A | | A | A | 0.2 + | | | | | | 0.0 + | | | | | | -0.2 + | A | | | | | -0.4 + ---+-------+-------+-------+-------+-------+-------+-- 0.6 0.8 1.0 1.2 1.4 1.6 1.8 LOGMED

Nota sull’Analisi .....(2a ed.)

Analisi dell varianza a uno e due criteri di classificazione 53

regressione di log(varianza) su log(media), dati trasformati

General Linear Models Procedure

Number of observations in data set = 9

Dependent Variable: LOGVAR Sum of MeanSource DF Squares Square F Value Pr > F

Model 1 0.09161791 0.09161791 0.77 0.4107

Error 7 0.83811549 0.11973078

Corrected Total 8 0.92973341

R-Square C.V. Root MSE LOGVAR Mean

0.098542 79.36190 0.346021 0.43600439

Source DF Type I SS Mean Square F Value Pr > F

LOGMED 1 0.09161791 0.09161791 0.77 0.4107

Source DF Type III SS Mean Square F Value Pr > F

LOGMED 1 0.09161791 0.09161791 0.77 0.4107

T for H0: Pr > |T| Std Error ofParameter Estimate Parameter=0 Estimate

INTERCEPT 0.0052525312 0.01 0.9920 0.50575248LOGMED 0.3450388216 0.87 0.4107 0.39443976

analisi della varianza e confronti multipli fra trattamenti

Analysis of Variance Procedure Class Level Information

Class Levels Values

TRATT 9 1 2 3 4 5 6 7 8 9

BLOCCO 4 1 2 3 4

Number of observations in data set = 36

Nota sull’Analisi .....(2a ed.)

Analisi dell varianza a uno e due criteri di classificazione 54

Dependent Variable: NINFESTR Sum of MeanSource DF Squares Square F Value Pr > F

Model 11 38.86391587 3.53308326 2.07 0.0656 Í

Error 24 40.90089149 1.70420381

Corrected Total 35 79.76480735

R-Square C.V. Root MSE NINFESTR Mean

0.487231 35.96790 1.305452 3.62949029

Source DF Anova SS Mean Square F Value Pr > F

TRATT 8 35.91267876 4.48908484 2.63 0.0316 ÎBLOCCO 3 2.95123711 0.98374570 0.58 0.6356

Student-Newman-Keuls test for variable: NINFESTR

NOTE: This test controls the type I experimentwise error rate under the complete null hypothesis but not under partial null hypotheses.

Alpha= 0.05 df= 24 MSE= 1.704204

Number of Means 2 3 4 5 Critical Range 1.9052696 2.3052129 2.5464709 2.7195484

Number of Means 6 7 8 9 Critical Range 2.8541499 2.9642322 3.0571701 3.137574

Means with the same letter are not significantly different.

SNK Grouping Mean N TRATT

A 5.423 4 1 A B A 4.730 4 4 B A B A 4.215 4 7 B A B A 3.776 4 2 B A B A 3.381 4 3 B A B A 3.312 4 6 B A B A 3.264 4 8 B A B A 2.640 4 5 B B 1.924 4 9

Nota sull’Analisi .....(2a ed.)

Analisi dell varianza a uno e due criteri di classificazione 55

Dunnett's T tests for variable: NINFESTR

NOTE: This tests controls the type I experimentwise error for comparisons of all treatments against a control.

Alpha= 0.05 Confidence= 0.95 df= 24 MSE= 1.704204 Critical Value of Dunnett's T= 2.860 Minimum Significant Difference= 2.6402

Comparisons significant at the 0.05 level are indicated by '***'.

Simultaneous Simultaneous Lower Difference Upper TRATT Confidence Between Confidence Comparison Limit Means Limit

4 - 1 -3.333 -0.692 1.948 7 - 1 -3.848 -1.207 1.433 2 - 1 -4.287 -1.647 0.993 3 - 1 -4.682 -2.042 0.599 6 - 1 -4.751 -2.111 0.530 8 - 1 -4.799 -2.159 0.481 5 - 1 -5.423 -2.783 -0.143 *** 9 - 1 -6.139 -3.499 -0.859 ***

Nota sull’Analisi .....(2a ed.)

Analisi dell varianza a uno e due criteri di classificazione 56

4.4 Blocco randomizzato con sottocampionamento

Nove trattamenti implicanti diverse forme e modalità di somministrazione di urea su unacoltura di riso sono confrontati in un blocco randomizzato con 4 ripetizioni. La variabile dirisposta è rappresentata dal n° culmi di accestimento ed è misurata in 4 punti scelti a caso inciascuna parcella.L'unica differenza con la situazione sperimentale in 4.3 è costituita dal fatto che il numero diosservazioni per unità sperimentale (parcella) è in questo caso superiore all'unità, fermorestando che il numero di unità sperimentali per oggetto resta uno. L'errore di campionamentoche si introduce nell'analisi mantenendo i valori delle singole osservazioni per unitàsperimentale separati invece che mediati non và confuso con la variabilità residuale, che in unesperimento del genere sarebbe invece presente se almeno parte dei trattamenti fosseroreplicati più di una volta nell'ambito di ciascun blocco.Assumiamo verificate le condizioni sulla normalità e l'uguaglianza delle varianze dellepopolazioni statistiche.

PROGRAMMA SAS

L'input dei dati avviene stavolta tramite un file esterno richiamato con l'istruzione INFILE. Lastampa della parte iniziale di tale file precede il programma. L'istruzione INPUT identifica lecolonne di dati del file esterno con le variabili "tratt" (= trattamento), "blocco" e "nculmi" (= n°culmi / osservazione).Si vuole dapprima ottenere la stampa di una tabella riportante il numero totale di culmi perunità sperimentale. Ciò viene richiesto con la PROC FREQ (si potrebbe usare allo scopo anchela PROC TABULATE). L'istruzione WEIGHT indica la variabile di risposta discreta dasommare progressivamente per ciascuna osservazione appartenente ad una certa combinazionedelle due variabili categoriche riportate in TABLES in un ordine che definisce il tipo ditabulazione incrociata. Le opzioni in TABLES limitano la stampa alle sole frequenze assolute.La PROC ANOVA differisce da quella in 4.3 per la presenza in MODEL dell'interazione"trattamento x blocco" e la consequente presenza dell'istruzione TEST indicante tale effettocome termine d'errore adeguato per il test F del fattore "trattamento". Ciò avviene perchèstavolta è presente un errore d'ordine più basso, quello di campionamento, la cui variabilità vadistinta da quella dell'effetto "trattamento x blocco".

1 1 30 1 1 23 1 1 27 1 1 22 1 2 22 . . . . . . 9 4 49

** 4.4 BLOCCO RANDOMIZZATO CON SOTTOCAMPIONAMENTO* GOMEZ & GOMEZ (1984) - PAG. 243*;DATA esempio; INFILE 'av244.DAT';

Nota sull’Analisi .....(2a ed.)

Analisi dell varianza a uno e due criteri di classificazione 57

INPUT tratt blocco nculmi;PROC FREQ; TITLE '4.4 blocco randomizzato con sottocampionamento'; TITLE2 'valori totali per unità sperimentale'; TABLES tratt*blocco / NOPERCENT NOROW NOCOL; WEIGHT nculmi;PROC ANOVA; TITLE2 'analisi della varianza'; CLASS tratt blocco; MODEL nculmi = tratt blocco tratt*blocco; TEST H=tratt E=tratt*blocco;RUN;

OUTPUT SAS

La tabella di AV riportata può essere come sempre completata aggiungendovi l'errore delmodello, qui errore di campionamento. L'ipotesi nulla di uguaglianza dell'effetto dei trattamentisulla variabile di risposta può essere respinta con un livello di probabilità P ≤ 0.001 Ê.

4.4 Blocco randomizzato con sottocampionamento valori totali per unità sperimentale

TABLE OF TRATT BY BLOCCO

TRATT BLOCCO

Frequency| 1| 2| 3| 4| Total ---------+--------+--------+--------+--------+ 1 | 102 | 105 | 114 | 145 | 466 ---------+--------+--------+--------+--------+ 2 | 169 | 205 | 252 | 193 | 819 ---------+--------+--------+--------+--------+ 3 | 206 | 203 | 210 | 243 | 862 ---------+--------+--------+--------+--------+ 4 | 224 | 260 | 281 | 204 | 969 ---------+--------+--------+--------+--------+ 5 | 222 | 224 | 203 | 218 | 867 ---------+--------+--------+--------+--------+ 6 | 224 | 210 | 231 | 220 | 885 ---------+--------+--------+--------+--------+ 7 | 222 | 220 | 248 | 288 | 978 ---------+--------+--------+--------+--------+ 8 | 227 | 228 | 248 | 281 | 984 ---------+--------+--------+--------+--------+ 9 | 263 | 193 | 239 | 198 | 893 ---------+--------+--------+--------+--------+ Total 1859 1848 2026 1990 7723

Nota sull’Analisi .....(2a ed.)

Analisi dell varianza a uno e due criteri di classificazione 58

4.4 Blocco randomizzato con sottocampionamento analisi della varianza

Analysis of Variance Procedure Class Level Information

Class Levels Values

TRATT 9 1 2 3 4 5 6 7 8 9

BLOCCO 4 1 2 3 4

Number of observations in data set = 144

Analysis of Variance Procedure

Dependent Variable: NCULMI Sum of MeanSource DF Squares Square F Value Pr > F

Model 35 17055.24306 487.29266 6.37 0.0001

Error 108 8268.25000 76.55787

Corrected Total 143 25323.49306

R-Square C.V. Root MSE NCULMI Mean

0.673495 16.31441 8.749735 53.6319444

Source DF Anova SS Mean Square F Value Pr > F

TRATT 8 12489.55556 1561.19444 20.39 0.0001BLOCCO 3 682.74306 227.58102 2.97 0.0350TRATT*BLOCCO 24 3882.94444 161.78935 2.11 0.0049

Tests of Hypotheses using the Anova MS for TRATT*BLOCCO as an error term

Source DF Anova SS Mean Square F Value Pr > F

TRATT 8 12489.55556 1561.19444 9.65 0.0001 Ê


Recommended