Post on 10-Aug-2020
transcript
Corso di Statistica Industriale
Corsi di Laurea Specialistica in
Ingegneria Gestionale e Ingegneria Meccanica
Docente: Ilia Negri
Statistica Industriale Lez. 1
Orario del corso:
Martedı: dalle 14.00 alle 16.00
Venerdı: dalle 10.30 alle 12.30
Ricevimento:
Dopo la Lezione
e-mail: ilia.negri@unibg.it2
Statistica Industriale Lez. 1
Programma del corso:
L1 Presentazione del corso - Il modello lineare sempliceE1 Presentazione dell’ambiente RL2 Il modello lineare - verifica d’ipotesi e intervalli di confidenzaE2 I dati in R - prime funzioni statisticaL3 Il modello lineare con piu variabili. Selezione del modelloE3 Applicazioni. Procedure stepwise forward e backward in RL4 Analisi della varianza.E4 Esperimenti ad un fattore. ApplicazioniL5 Modelli lineari generalizzatiE5 Applicazioni: modelli logit.L6 Controllo della qualita - generalita. Carte di controllo per variabiliE6 Presentazione libreria qcc in RL7 ARL e curva operativa caratteristica.E7 Applicazioni ed esempi.L8 Carte di controllo per attributiE8 Applicazioni ed esempiL9 Carte di controllo CUSUM ed EWMAE9 Applicazioni ed esempiL10 Controllo statistico multivariatoE10 Carta Chi quadrato e T quadratoL11 Disegno degli esperimenti: piani fattoriali completi a due livelli.L12 Modello della risposta sperimentale e analisi dell’esperimento.L13 Sperimentazione sotto il vincolo di budgetE11 Applicazioni ed esempi
3
Statistica Industriale Lez. 1
Esame e altro...
• L’esame consiste in una prova scritta con 3 esercizi. Durante il corso
verranno date delle esercitazioni e dei temi da discutere. Per chi ha avuto
a che fare con un processo di produzione. (Tirocinio, tesi, o altri motivi)
recuperare i dati delle variabili con cui ha lavorato.
Tutte le informazioni e il materiale del corso lo trovate alla pagina
http://www.unibg.it/Pers/?Ilia.Negri
L’esame puo essere diviso in due parti. La prima parte si svolge sulla prima
parte del corso ed e valida fino a settembre 2006.
4
Statistica Industriale Lez. 1
Libri di Testo:
• Montgomery-Runger-Faris Hubele: Statistica per ingegneria, Egea.
• Montgomery: Controllo statistico della qualita, McGraw Hill.
Altre letture:
• Draper-Smith: Applied Regression Analisysis, Wiley.
• Mason-Young: Multivariate Statistical Process Control with IndustrialApplications, ASA SIAM.
• Venables-Ripley: Modern Applied Statistics with S-Plus, Springer.
• Iacus-Masarotto: Laboratorio di Statistica con R, McGraw Hill.
5
Statistica Industriale Lez. 1
Il modello lineare - Richiami
La piu semplice relazione tra due variabili e quella lineare
y = β0 + β1x
Se il legame tra le variabili non e deterministico per un fissato valore di x
ci saranno diversi valori di y.
Esempio Stiamo investigando come il tempo di rottura y di un utensile,
espresso in h, varia con la forza applicata x, misurata in kg/mm2. Se
applichiamo una forza x = 20 kg/mm2 il tempo di rottura dell’utensile e
una variabile aleatoria, che denotiamo con Y . Se osserviamo il tempo di
rottura pari a 45 h, allora diciamo che il valore osservato di Y associato a
x = 20kg/mm2 e y = 45 h.
6
Statistica Industriale Lez. 1
I modelli probabilistici - Richiami
Un modello probabilistico e una variabile casuale che descrive il fenomeno
che si sta studiando
Le variabili casuali si dividono in discrete e continue
Sono caratterizzate dai valori che assumono e dalla distribuzione di
probabilita
Esempio Variabile casuale discreta. X v.c. di Poisson.
Valori che assume: k = 0,1,2, . . .,
Distribuzione: P (X = k) = e−λλk
k!Esempio Variabile casuale continua. X v.c. Esponenziale
Valori che assume: x ≥ 0,
Distribuzione: f(x) = λe−λx, x ≥ 0. P (a ≤ X ≤ b) =∫ ba λe−λxdx.
7
Statistica Industriale Lez. 1
Grafici della distribuzione di Poisson per diversi valori del parametro λ
0 5 10 15 20
0.0
0.2
0.4
0.6
λ = 0.3
k
d
0 5 10 15 20
0.00
0.05
0.10
0.15
0.20
λ = 3
k
d
0 5 10 15 20
0.00
0.02
0.04
0.06
0.08
0.10
0.12
λ = 10
k
d8
Statistica Industriale Lez. 1
Grafici della distribuzione Esponenziale per diversi valori del parametro λ
0 2 4 6 8 10
0.0
0.1
0.2
0.3
0.4
0.5
λ = 0.5
x
f(x)
0 2 4 6 8 10
0.0
0.2
0.4
0.6
0.8
1.0
λ = 1
x
f(x)
0 2 4 6 8 10
01
23
45
λ = 5
x
f(x)
9
Statistica Industriale Lez. 1
Il modello lineare probabilistico
Per il modello deterministico y = β0 + β1x il valore di y dipende dal valore
di x.
La generalizzazione di questo modello al modello probabilistico assume che
la variabile Y e aleatoria e il suo valore atteso e una funzione lineare di x.
Per un fissato valore di x il valore di Y si discosta dal suo valore atteso per
una quantita aleatoria.
Il modello e:
Y = β0 + β1x + ε (1)
La quantita ε nel modello e una v.c. distribuita normalmente con valore
atteso E(ε) = 0 e varianza V ar(ε) = σ2. E il termine d’errore del modello
Senza ε ogni coppia osservata (x, y) cadrebbe sulla retta y = β0 + β1x che
e detta retta di regressione vera.
10
Statistica Industriale Lez. 1
Denotiamo con x1, x2, . . . , xn i valori della variabile indipendente, con Yi e
yi la v.c e il valore osservato associato a xi. Le coppie (x1, y1), . . . (xn, yn)
sono il risultato di n osservazioni indipendenti, sono i dati a disposizione.
Supponiamo di avere queste 11 osservazioni:
1 2 3 4 5 6 7 8 9 10 11x 15.00 16.00 17.00 18.00 19.00 20.00 21.00 22.00 23.00 24.00 25.00y 42.83 57.77 54.90 40.09 39.18 41.44 35.24 34.75 35.09 48.75 38.27
La prima cosa da fare e rappresentarli in un grafico a dispersione:
●
●
●
●
●
●
●●
●
●
●
16 18 20 22 24
3540
4550
55Osservazioni
x
y
11
Statistica Industriale Lez. 1
Per ogni x fissato la variabile Y e Gaussiana. La sua media e la sua varianza
si deducono dal modello lineare
E(Y |x) = E(β0 + β1x + ε) = β0 + β1x + E(ε) = β0 + β1x
V ar(Y |x) = V ar(β0 + β1x + ε) = V ar(β0 + β1x) + V ar(ε) = 0 + σ2 = σ2
Esempio.(Continua) Supponiamo che il legame tra la forza applicata e il
tempo di rottura sia dato dalla (1). Nel modello scelto, la media del tempo
di rottura varia linearmente con la forza applicata (come?). Per una forza
applicata pari a x kg/mm2 il tempo di rottura e una variabile Gaussiana
la cui media e β0 + β1x e la sua varianza e σ2. Al variare di x la media
di Y cambia mentre la varianza rimane costante. Si tratta di un modello
omoschedastico.
12
Statistica Industriale Lez. 1
Riportiamo la retta vera nel grafico a dispersione delle osservazioni
●
●
●
●
●
●
●●
●
●
●
16 18 20 22 24
3540
4550
55
Le osservazioni e la retta vera
x
y
y = 65 − 1.2x
La retta vera
●
●
●
●
●
●
●●
●
●
●
16 18 20 22 2435
4045
5055
Le distribuzioni di Y
x
y
13
Statistica Industriale Lez. 1
La densita Gaussiana per diversi valori dei parametri
−6 −4 −2 0 2 4 6
0.0
0.1
0.2
0.3
0.4
N(0, 1)
x
f(x)
−6 −4 −2 0 2 4 6
0.00
0.05
0.10
0.15
0.20
N(0, 2)
x
f(x)
−6 −4 −2 0 2 4 6
0.0
0.1
0.2
0.3
0.4
N(3, 1)
x
f(x)
−6 −4 −2 0 2 4 6
0.0
0.2
0.4
0.6
0.8
N(3, 0.5)
x
f(x)
14
Statistica Industriale Lez. 1
Esempio. (Continua). Supponiamo che il legame tra la forza applicata
x e il tempo di rottura y di un utensile sia descritto da una modello di
regressione lineare semplice e che la vera retta di regressione sia
y = 65− 1.2x, σ = 8.
Allora per ogni valore x della forza applicata il tempo di rottura e una v.c.
gaussiana con valore atteso 65− 1.2x e scarto quadratico medio σ = 8.
a) Calcolare la probabilita che il tempo di rottura sia superiore a 50 ore
quando x = 20 e quando x = 25.
b) Denotate con Y1 e Y2 rispettivamente il tempo di rottura quando x1 =
25 e x2 = 24 calcolare la probabilita che Y1 > Y2.
15
Statistica Industriale Lez. 1
La stima dei parametri del modello
Supponiamo che il legame tra le variabili x e y sia il modello di Regressione
Semplice dato da
Y = β0 + β1x + ε, E(ε) = 0, V ar(ε) = σ2
I valori di β0, β1 e σ2 sono i parametri del modello e non saranno mai noti
all’investigatore. Sono note invece le n osservazioni (x1, y1), . . . , (xn, yn)
sulle quali occorre basarsi per stimare i parametri e la vera retta di regres-
sione.
Ipotesi: ogni yi e un’osservazione della v.c. Yi = β0 + β1xi + εi, e gli n
errori ε1, . . . , εn sono n v.c. indipendenti e identicamente distribuite (i.i.d.)
Da questa ipotesi segue l’indipendenza delle v.c. Y1, . . . , Yn
16
Statistica Industriale Lez. 1
Secondo il modello i punti osservati si distribuiscono attorno alla vera rettadi regressione in modo aleatorio. Dobbiamo stimare la retta di regres-sione del modello. Nel grafico sono disegnati i punti e due possibili rettecandidate a essere la stima della vera retta di regressione
●
●
●
●
●
●
●●
●
●
●
16 18 20 22 24
3540
4550
55
Due possibili rette per il modello
x
y
y = 67 − 1.2x y = 91 − 2.25x
La nostra stima per la retta y = β0 + β1x sara quella che meglio si adatta(fit) ai punti osservati. Secondo il principio dei minimi quadrati (Gauss,1777-1855) la retta che meglio si adatta ai datti e quella per la quale ledistanze verticali dei punti dalla retta sono le piu piccole possibili.
17
Statistica Industriale Lez. 1
Il principio dei minimi quadrati
Se denotiamo con y = b0+ b1x la generica retta, la distanza verticale di un
punto da questa generica retta e yi− (b0 + b1xi). La somma delle distanze
al quadrato e data da
D(b0, b1) =n∑
i=1
(yi − (b0 + b1xi))2
Dobbiamo trovare il minimo rispetto a b0 e b1. Derivando e ponendo le
derivate uguali a zero otteniamo le equazioni normalinb0 + (∑
xi)b1 =∑
yi
(∑
xi)b0 + (∑
x2i )b1 =
∑xiyi
La soluzione di queste equazioni e data dab1 = β1 =
∑(xi−x)(yi−y)∑
(xi−x)2=
SxySxx
b0 = β0 =∑
yi−β1∑
xin
18
Statistica Industriale Lez. 1
Esempio 1 (Pavement Thickness Design for No-Fines Concrete ParkingLots, J. of Transportation Engr., 1995, 476-484). Si studia come lapercentuale di porosita (y) sia legata all’unita di peso x.
x y x2 xy y2
1 99.00 28.80 9801.00 2851.20 829.442 101.10 27.90 10221.21 2820.69 778.413 102.70 27.00 10547.29 2772.90 729.004 103.00 25.20 10609.00 2595.60 635.045 105.40 22.80 11109.16 2403.12 519.846 107.00 21.50 11449.00 2300.50 462.257 108.70 20.90 11815.69 2271.83 436.818 110.80 19.60 12276.64 2171.68 384.169 112.10 17.10 12566.41 1916.91 292.41
10 112.40 18.90 12633.76 2124.36 357.2111 113.60 16.00 12904.96 1817.60 256.0012 113.80 16.70 12950.44 1900.46 278.8913 115.10 13.00 13248.01 1496.30 169.0014 115.40 13.60 13317.16 1569.44 184.9615 120.00 10.80 14400.00 1296.00 116.64
Somme 1640.10 299.80 179849.73 32308.59 6430.06
19
Statistica Industriale Lez. 1
Quelle calcolate sono le quantita che servono per trovare le stime dei
parametri della retta. Infatti le formule date si possono riscrivere in questo
modo
β1 =Sxy
Sxx=
∑xiyi − (
∑xi)(
∑yi)/n∑
x2i − (
∑xi)2/n
, β0 = y − β1x
Sostituendo i valori trovati nella tabella otteniamo
β1 =32308.59− (1640.10)(299.80)/15
179849.73− (1640.10)2/15= −0.90473066 ≈ −0.905
β0 = 299.80/15− (−0.90473066)1640.10/15 = 118.909917 ≈ 118.91
Quindi per un aumento di 1 pcf di unita di peso ci si aspetta un cambia-
mento della porosita associato pari a −0.905% (cioe una diminuzione dello
0.905%). L’equazione della retta di regressione stimata risulta
y = 118.91− 0.905x
La retta stimata serve per stimare il valore medio di Y quando x = x∗ ovvero
la stima puntuale del valore di Y data una nuova osservazione x = x∗. Ad
esempio per x = 110 il valore medio della porisita stimata e y = 19.4%.
20
Statistica Industriale Lez. 1
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
100 105 110 115 120
1520
25
peso
poro
sita
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
100 105 110 115 120
1520
25peso
poro
sita
21
Statistica Industriale Lez. 1
La stima di σ2
Non dobbiamo dimenticare che tra i parametri del modello vi e anche lavarianza dell’errore ε. La stima di questa varianza si basa sui residui. Iresidui sono definiti come
ei = yi − yi, dove yi = β0 + β1xi
Si verifica che la somma dei residui e nulla. La stima della varianzadell’errore la si ottiene come
σ2 = s2 =
∑(yi − yi)
2
n− 2=
SSE
n− 2Il denominatore n − 2 e pari ai gradi di liberta associati alla stima deglierrori e e dovuto al fatto che per ottenere s2 due parametri devono esserestimati. Lo stimatore S2 lo si ottiene sostituendo a yi le v.c. Yi. Si puodimostrare che E(S2) = σ2.
Il calcolo di SSE puo essere effettuato senza calcolare tutti i residui. Valeinfatti la relazione
SSE =∑
y2i − β0
∑yi − β1
∑xiyi.
22
Statistica Industriale Lez. 1
La stima di σ2 per i dati dell’esempio la otteniamo da
x y y e e2
1 99.00 28.80 29.34 −0.54 0.292 101.10 27.90 27.44 0.46 0.213 102.70 27.00 25.99 1.01 1.014 103.00 25.20 25.72 −0.52 0.275 105.40 22.80 23.55 −0.75 0.566 107.00 21.50 22.10 −0.60 0.367 108.70 20.90 20.57 0.33 0.118 110.80 19.60 18.67 0.93 0.879 112.10 17.10 17.49 −0.39 0.15
10 112.40 18.90 17.22 1.68 2.8311 113.60 16.00 16.13 −0.13 0.0212 113.80 16.70 15.95 0.75 0.5613 115.10 13.00 14.78 −1.78 3.1514 115.40 13.60 14.50 −0.90 0.8215 120.00 10.80 10.34 0.46 0.21
Somme 1.640.10 299.80 299.80 4.707346e-13 11.44
SSE
n− 2=
6430.06− (118.91)(299.80)− (−0.905)(32308.59)
13=
11.44
13= 0.88.
23
Statistica Industriale Lez. 1
Il coefficiente di determinazione
Per valutare la bonta di adattamento del modello stimato ai dati si ricorread un indice che tiene conto della percentuale di variabilita di y che ilmodello riesce a spiegare. La variabilita totale di y e data dalla sommatotale dei quadrati
SST =∑
(yi − y)2 =∑
y2i − (
∑yi)
2/n
SSE puo essere interpretata come una misura di quanta variabilita di y ilmodello non riesce a spiegare. Poiche la retta dei minimi quadrati e quellaottenuta minimizzando la somma al quadrato degli errori si deduce cheSSE ≤ SST e l’uguaglianza vale solo se la retta di regressione e la rettay = y. L’indice
r2 = 1−SSE
SSTe detto coefficiente di determinazione
si interpreta come la proporzione di variabilita delle y osservate che e spie-gata dal modello.Esempio. (Continua) Abbiamo un r2 molto alto.
r2 = 1−SSE
SST= 1−
11.4388
6430.06− 299.802/15= 1−
11.44
438.06= 0.974
24
Statistica Industriale Lez. 1
Esercizio: per i dati nella tabella a pagina 11, calcolare la stima col metodo
dei minimi quadrati dei coefficienti della retta di regressione:
Y = β0 + β1x + ε.
Calcolare quindi la stima della varianza degli errori ε e il valore del coeffi-
ciente di determinazione. Commentare i risultati ottenuti.
25