Lerrore sperimentale e la sua valutazione nelle determinazioni analitiche Ogni misura presenta una...

transcript

L’errore sperimentale e la sua valutazione nelle determinazioni analitiche

Ogni misura presenta una qualche incertezza, chiamata errore sperimentale

Media aritmetica: è rappresentata dal numero ottenuto dividendo la somma di una serie di valori numerici per il numero totale delle misure effettuate

x =i=1

Mediana: è il valore centrale di un set di dati che sono stati ordinati in ordine numerico

Media geometrica:

(x1 x2 x3….. xi). . .

La media geometrica si usa al posto di quella aritmetica nei casi in cui le quantità variano esponenzialmente (emissioni radioattive, conc. plasmatiche metaboliti)

Errore sistematico o errore determinato: è un errore ricorrente (riproducibile) che può essere rivelato e corretto (strumentazione non tarata, errori di metodo, errore personali) ACCURATEZZA: indica la vicinanza della misura al valore vero (accettato)

Errore casuale: deriva dall’effetto prodotto da una serie di variabili incontrollate (e talvolta incontrollabili: variazioni temperatura e tensione elettrica, vibrazioni) PRECISIONE: descrive la riproducibilità delle misurazioni

Errore grossolano: si presenta occasionalmente, è spesso elevato e fa sì che un singolo dato si discosti da tutti gli altri dati di una serie di misure replicate

Errore sistematico

• L’errore sistematico viene rivelato utilizzando opportuni std. di riferimento (analita a concentrazione nota) e calcolando l’accuratezza• L’accuratezza di una misura è il grado di accordo tra essa e il valore vero e viene espressa dall’errore (assoluto o relativo)

Errore assoluto = valore osservato – valore vero

valore osservato – valore veroErrore relativo =

valore verox100

Errore casuale o indeterminato

L’errore casuale ha pari probabilità di essere positivo o negativo (dispersione dei dati più o meno simmetrica intorno al valore medio) e non può essere corretto.

Distribuzione dei risultati sperimentali

Nella maggior parte degli esperimenti analitici quantitativi la distribuzione dei dati replicati è simile a quella di una curva gaussiana e questo perché la deviazione dalla media è conseguente all’errore casuale

Il trattamento statistico dell’errore casuale

Popolazione: è l’insieme di tutte le misure

Campione: sottoinsieme della popolazione selezionato per l’analisi e rappresentativo della popolazione stessa

e-(x - µ)2 /22

Curva normale di errore di una popolazione

µ = media della popolazione = deviazione standard della popolazione

(xi - µ)2

La deviazione std. di un campione

• La media di un campione è indicata con x e la d.s con s

s =i=1

(xi - x)2

N-1(N-1)= gradi di libertà

• La varianza = s2

• deviazione std. relativa = s / x

• Coefficiente di variazione (CV%) = (s / x) 100

Intervalli di fiducia

• In analisi farmaceutica solitamente non si determina la media e d.s. di una popolazione

bensì di un campione rappresentativo

• E’ tuttavia possibile con l’analisi statistica determinare un intervallo di fiducia attorno ad

x nel quale si prevede di determinare il valore medio µ con una certa probabilità (dal

• L’intervallo di fiducia per una media x è quindi l’intervallo entro il quale ci si aspetta di

trovare, con una certa probabilità, la media µ della popolazione (le linee di confine sono

chiamati i limiti di fiducia)

Trovare l’intervallo di fiducia quando è nota o quando s è una buona stima di

Intervallo di fiducia = z

Trovare l’intervallo di fiducia quando non è nota

Intervallo di fiducia = x t s

Esempio di calcolo degli intervalli di fiducia

Si considerino i seguenti risultati relativi al contenuto di alcol etilico in un campione di sangue: 0.084%, 0.089%, 0.079%.

Calcolare l’intervallo di fiducia per la media al 95% assumendo che a) dalle esperienze precedenti acquisite su un centinaio di campioni, si sa che la

deviazione std. del metodo s= 0.005% è una buona stima di b) I tre risultati ottenuti rappresentano il solo modo per valutare le precisione del metodo

Caso A

Intervallo di fiducia (95%) = z

x 1.96 0.005

0.084= = 0.084 0.006%

0.078 0.09

Caso B

Intervallo di fiducia (95%) = t s

x 4.303 0.005

0.084= = 0.084 0.012%

s = 0.005%

0.072 0.096

Confronto di medie utilizzando la t di Student

• Il test t viene utilizzato per confrontare due seri di misure al fine di decidere se sono o

non sono significativamente differenti tra loro

• Il test si basa sull’ipotesi nulla che postula che le due serie di misure siano uguali

H0 : µ = µ0

• per convenzione, si rifiuta l’ipotesi nulla quando la probabilità che la differenza tra le due

serie di misure sia casuale è inferiore al 5% (p<0.05)

Confronto tra le media sperimentale ed il valore noto:

tcalcolata = x – valore noto

Se tcalcolata > ttabulata (al 95%) la differenza è significativa

Esempio di confronto di una serie di misure con un valore noto

Si consideri un nuovo metodo analitico che viene applicato ad uno std. di riferimento

(valore noto= 3.19%). I valori ottenuti sono i seguenti: 3.29%, 3.22%, 3.30%, 3.23%

(x = 3.26; s= 0.04). Il metodo è accurato? (il risultato è in accordo con il valore noto?)

tcalcolata = 3.26 – 3.19

0.044 = 3.41

Poiché tcalcolata (3.41) > ttabulata (3.182) il risultato ottenuto è differente da quello noto. La possibilità di commettere un errore nel trarre questa conclusione è minore del 5%

Confronto di misure ripetute (test t non accoppiato)

Si considerino una serie di dati che consistono di n1 e n2 misure (aventi la media x1 e x2)

tcalcolata =x1 – x2

scomune

n1 + n2

scomune =s1

2(n1 -1)+ s22(n2-1)

n1+ n2 -2

massa gas isolati aria: x1= 2.31011 g; s1= 0.000143 (n1=7)

massa gas per via chimica: x2= 2.29947 g; s2= 0.000138 (n1=8)

scomune= 0.00102tcalcolata= 20.2

Poiché tcalcolata > ttabulata (95%, ttabulata compresa tra 2.228 e 2.131) la è significativa

n.b gradi di libertà = (n1+n2) -1

Confronto di singole differenze (test t accoppiato)

Questo è il caso in cui si utilizzano due metodi differenti per effettuare singole misure sugli stessi campioni

tcalcolata= d

N sd =i=1

(di - d)2

sd = 0.122

tcalcolata = 0.060

0.1226 = 1.20

Dato che tcalcolata<ttabulata (2.571 per un livello di f. al 95% e 5 gradi di libertà) i due metodi non sono significativamente diversi tra loro

d è la differenza media tra le due serie di dati e n è il numero di coppie di dati

Il Test F per il confronto delle deviazioni std.

• Il test t permette di confrontare le medie e quindi di rilevare l’errore sistemico

• Se si vuole confrontare la precisione si devono confrontare le deviazioni std. con il test F

Fcalcolata= s1

• Si pone la d.s. maggiore al numeratore in modo che F1

•Se Fcalcolata > Ftabulata allora la è significativa

Il Test Q per i dati sospetti (outliers)

• talvolta data una serie di misure, un dato risulta non essere consistente con gli altri a causa di un errore grossolano• si può usare il test Q per decidere di mantenere o scartare il dato sospetto

Qcalcolata =divario

intervallo

Intervallo: la differenza tra valori estremiDivario: la differenza fra il valore sospetto e quello più vicino

Se Qcalcolata>Qtabulata il dato sospetto andrebbe eliminato

12.47 12.48 12.53 12.56 12.67

Intervallo = 0.2

divario = 0.11Qcalcolata: 0.11/0.2 = 0.55Poiché Qcalcolata<Qtabulata il dato deve essere mantenuto

Esempio

Analisi della varianza (ANOVA)

• L’analisi della varianza permette di confrontare più di due medie di campioni•Si considerino 4 serie di dati e le 4 medie delle popolazione µ1, µ2, µ3, µ4

L’ipotesi nulla di ANOVA : H0: µ1= µ2 = µ3 = µ4L’ipotesi alternativa: almeno due medio tra loro

Alcuni esempi di applicazione ANOVA:- vi è differenza nei risultati ottenuti da 5 analisti nella determinazione del Ca2+ ?- quattro composizioni di solventi hanno influenza sulla reazione?- I risultati delle determinazioni di Manganese sono usando tre metodi analitici?- Ci sono differenze nella fluorescenza di uno ione complesso a 6 valori di pH?

Il fattore è la variabile indipendente la risposta è la variabile dipendente

• Quando sono coinvolti più di un fattore si utilizza ANOVA a due vie (es. effetto della temperatura e pH sulla velocità di reazione)

•Il principio dell’ANOVA è di confrontare la variazione tra i diversi livelli (i valori del fattore) rispetto alla variazione all’interno di ciascun gruppo

• L’ipotesi nulla è vera quando le variazioni tra le medie dei gruppi è simile alla variazione all’interno dei gruppi• L’ipotesi nulla è falsa quando la variazione tra le medie dei gruppi è > rispetto alle variazione tra i singoli gruppi

In primo luogo si deve stimare la variazione tra i gruppi e all’interno del singolo gruppo nel seguente modo

1. Si calcola il valore medio complessivo

Nx1( )=

Nx2( ) Ni

Nxi( )+ + …..

Il valore può anche essere determinato sommando tutti i dati e dividendo per N

2. La variazione tra i gruppi si determina calcolando la somma dei quadrati dovuti al fattore

SQF = N1( )2 + N2( )2 + ……..Ni ( )2x1 - x2 - xi -x x x

Quadrato della media dei livelli del fattore QMF= =

I = numero dei fattori

3. La variazione all’interno dei gruppi viene determinata calcolando la somma dei quadrati dell’errore

SQE = (N1-1)s12 + (N2-1)s2

2 …. (Ni-1)si2

Errore del quadrato della media EQM= =SQE

F = EQM

L’ipotesi nulla è scartata quando Fcalcolato > Ftabulato

N= numero analisi; n= numero di fattori

Applicazioni analisi ANOVA

N. Prova Analista 1 Analista 2 Analista 3 Analista 4 Analista 5

1 10.3 9.5 12.1 9.6 11.6

2 9.8 8.6 13.0 8.3 12.5

3 11.4 8.9 12.4 8.2 11.4

Media 10.5 9 12.5 8.7 11.833

Dev. Std. 0.818535 0.458258 0.458258 0.781025 0.585947

Ad un livello del 95%, le medie sono diverse?

x = 10.507 mmoli Ca2+

SQF= 33.80267 (5-1= 4 gradi di libertà); QMF= 33.80267/4= 8.450667

SQE= 4.086667 (15-5= 10 gradi di libertà); EQM= 4.086667 = 0.408667

Fcalcolato= 8.450667 / 0.408667 = 20.68

Dato che Fcalcolato>Ftabulato (livello di fiducia al 95%)Scartiamo H0 quindi esiste un differenza significativa

Tra quali gruppi esiste una differenza significativa?: Post-test

Bonferroni, Tukey: compara tutte le colonneDunnett: compara tutte le colonne vs il controllo

Foglio di lavoro

Cella attiva

L’uso di fogli di calcolo in analisi chimica

Le celle possono contenere testo, numeri o formule

In Excel le formule iniziano con il segno =

Alcune funzioni statistiche preimpostate

Uso di $ per variabili statiche

Valore accettato = 122.6Il metodo è accurato?

Esperimento di Rayleigh(Es. di test non accoppiato)

Esperimento di RayleighRISULTATO TEST T

Un test accoppiato : è appropriato qualora esista un naturale appaiamento tra le osservazioni dei campioni, quale il caso di una duplice verifica di un gruppo campione o prima e dopo un esperimento. È necessario che i due intervalli di input contengano lo stesso numero di dati.

Un test non accoppiato: quando non esiste un appaiamento tra le due serie di misure. Le misure posso anche avere una numerosità differente

Test a una o due code:Date due serie di misure le cui medie sono X1 e X2, si scegli il test auna coda quando l’ipotesi alternativa è x1 > x2 (oppure x1< x2).

Il test a una coda si utilizza quando misure precedenti, limiti fisici o il buon senso indica che se esiste una differenza questa può andare in una sola direzione.

Il test a due code si utilizza quando la differenza può andare in entrambe le direzioni e quindi x1 x2

Lerrore sperimentale e la sua valutazione nelle determinazioni analitiche Ogni misura presenta una...

Documents