Post on 22-Jan-2016
description
transcript
Analisi Cereali per la prima Analisi Cereali per la prima colazionecolazione
Elaborazione Dati Naturalistici 2007Giovanni - Chiara
• OggettoOggetto 77 tipi di cereali per la prima
colazione
7 marche differenti(mfr):
American Home Food Products (A)American Home Food Products (A)
General Mills (G)General Mills (G)
Kellog’s (K)Kellog’s (K)
Nabisco (N)Nabisco (N)
Post (P)Post (P)
Quaker Oast (Q)Quaker Oast (Q)
Ralston Purina (R)Ralston Purina (R)
10,4%
10,4%
11,7%
7,8%
29,9%
28,6%
1,3%
Category
PQR
AGKN
Distribuzione cereali per industrie di produzione (mfr)
• Variabili
tipo: freddi (c) o caldi (h) calorie: calorie per porzione
proteine: grammi di proteine
grassi: grammi di grassi sodio: milligrammi di sodio
fibre: grammi di fibre dietetiche
carboidrati: grammi di carboidrati complessi zuccheri: grammi di zuccheri potassio: milligrammi di potassio
vitamine: vitamine e minerali - 0, 25, o 100, indicanti la tipica percentuale raccomandata dell’FDA
scaffale: scaffale d’esposizione (1, 2 o 3, contando dal pavimento)
peso: peso in once per 1 porzione tazze: tazze per 1 porzione valutazione : una valutazione dei cereali
• Punti dell’Elaborazione dei Dati:
Analisi descrittiva delle variabili quantitative principali
Analisi della correlazione tra le variabili quantitative.
Ci sono correlazioni inattese?
Costruzione di un modello di regressione lineare multipla avente come variabile risposta il rating e come variabili esplicative le variabili nutrizionali
Ottenere un modello ridotto appropriato
Quali sono le variabili nutrizionali che sono più adatte a spiegare il gradimento dei prodotti?
L’analisi di regressione separatamente per i cereali caldi e freddi. Si ottengono le stesse conclusioni?
Analisi descrittiva delle variabili quantitative principali
Media St Dev Minimo Mediana
Massimo
Calorie 106,88 19,48 50,00 110,00 160,00
Proteine (g) 2,545 1,095 1,000 3,000 6,000
Grassi (g) 1,013 1,006 0,000 1,000 5,000
Sodio (mg) 159,68 83,83 0,000 180,00 320,00
Fibre (g) 2,152 2,383 0,000 2,000 14,000
Carboidrati (g) 14,803 3,907 5,000 14,500 23,000
Zuccheri (g) 7,026 4,379 0,000 7,000 15,000
Potassio (mg) 98,67 70,41 15,000 90,000 330,00
Vitamine 28,25 22,34 0,000 25,000 100,00
Rating 42,67 14,05 18,04 40,40 93,70
Media St Dev Minimo Mediana Massimo
Calorie 106,88 19,48 50,00 110,00 160,00
Proteine (g) 2,545 1,095 1,000 3,000 6,000
Grassi (g) 1,013 1,006 0,000 1,000 5,000
Sodio (mg) 159,68 83,83 0,000 180,00 320,00
Fibre (g) 2,152 2,383 0,000 2,000 14,000
Carboidrati (g) 14,803 3,907 5,000 14,500 23,000
Zuccheri (g) 7,026 4,379 0,000 7,000 15,000
Potassio (mg) 98,67 70,41 15,000 90,000 330,00
Vitamine 28,25 22,34 0,000 25,000 100,00
Rating 42,67 14,05 18,04 40,40 93,70
Nonostante si tratti di differenti produttori, i
grammi di proteine, grassi, fibre, carboidrati e zuccheri
si mantengono costanti nelle diverse confezioni.
Deviazione Standard
Proteine (g) 1,095
Grassi (g) 1,006
Fibre (g) 2,383
Carboidrati (g) 3,907
Zuccheri (g) 4,379
Al contrario la quantità (mg) di Sodio e Potassio ha un range piuttosto ampio, deducibile anche dall’analisi del minimo /massimo.
St Dev Minimo Massimo
Sodio (mg) 83,83 0,000 320,0
Potassio (mg)
70,41 15,00 330,0
Analisi della correlazione tra le variabili quantitative
Calorie
Proteine Grassi Sodio Fibre CarboidratiZuccher
iPotassi
o
Proteine
0,0190,869
Grassi 0,4990,000
0,2080,069
Sodio 0,3010,008
-0,0550,637
-0,0050,963
Fibre -0,2930,010
0,5000,000
0,0170,885
-0,0710,541
Carboidrati
0,2580,025
-0,0250,830
-0,3000,008
0,2980,009
-0,3800,001
Zuccheri 0,5670,000
-0,2920,011
0,3020,008
0,0590,613
-0,1390,232
-0,4710,000
Potassio -0,0720,539
0,5640,000
0,2000,085
-0,0430,716
0,9120,000
-0,3650,001
0,0010,990
Vitamine 0,2650,020
0,0070,950
-0,0310,788
0,3610,001
-0,0320,781
0,2190,057
0,0980,399
-0,0050,963
• Verde = Correlazione
lineare
• Giallo = Correlazione
diretta
• Rosso = Correlazione
inversa inattesa
• SCATTER PLOT o diagramma di dispersione bidimensionale delle variabili con correlazione lineare
Potassio (mg)
Fib
re (g)
350300250200150100500
14
12
10
8
6
4
2
0
Scatterplot of Fibre (g) vs Potassio (mg)
Proteine (g)642
14
12
10
8
6
4
2
0
642
350
300
250
200
150
100
50
0
Fibre (g) Potassio (mg)
Scatterplot Fibre (g); Potassio (mg) vs Proteine (g)
• SCATTER PLOT o diagrammi di
dispersione bidimensionale
delle variabili con correlazione
diretta
Calo
rie
4,83,62,41,20,0
175
150
125
100
75
50
1612840
Grassi (g) Zuccheri (g)
Scatterplot of Calorie vs Grassi (g); Zuccheri (g)
Carboidrati (g)
Zuccheri
(g)
252015105
16
14
12
10
8
6
4
2
0
Scatterplot Zuccheri (g) vs Carboidrati (g)
• SCATTER PLOT o diagrammi di dispersione bidimensionale delle variabili con correlazione inversa e
inattesa
rati
ng
1501251007550
90
60
30
5,54,53,52,51,5 4,83,62,41,20,0
151050 3001500 3001500
90
60
30
1680
90
60
30
Calorie Proteine (g) Grassi (g)
Fibre (g) Potassio (mg) Sodio(mg)
Zuccheri (g)
Scatterplot rating vs variabili nutrizionali
• SCATTER PLOT rating
CaloriCaloriee
ProteineProteine GrassiGrassi SodioSodio FibreFibre CarboidratiCarboidrati ZuccheriZuccheri PotassiPotassioo
Rating -0,6890,000
0,4710,000
-0,4090,000
-0,4010,000
0,5840,000
0,0890,446
-0,7640,000
0,4160,000
Q1 Mediana Q3
Calorie 100,00 110,00 110,00
Proteine (g) 2,000 3,000 3,000
Grassi (g) 0,0000 1,000 2,000
Sodio(mg) 127,50 180,00 215,00
Fibre (g) 0,500 2,000 3,000
Carboidrati (g) 12,000 14,500 17,000
Zuccheri (g) 3,000 7,000 11,000
Potassio (mg) 40,00 90,00 120,00
• Analisi dei valori anomali
I valori anomali hanno un forte peso sulla correlazione: per passare dal modello completo a quello ridotto è stata esclusa la variabilità.
Calo
rie
175
150
125
100
75
50
Boxplot Calorie
Pro
tein
e (
g)
6
5
4
3
2
1
Boxplot Proteine (g)
Gra
ssi (
g)
5
4
3
2
1
0
Boxplot Grassi (g)
Sodio
(m
g)
350
300
250
200
150
100
50
0
Boxplot Sodio (mg)
Fibre
(g)
14
12
10
8
6
4
2
0
Boxplot Fibre (g)
Carb
oid
rati (
g)
25
20
15
10
5
Boxplot Carboidrati (g)
Zucc
heri (
g)
16
14
12
10
8
6
4
2
0
Boxplot Zuccheri (g)
Pota
ssio
(m
g)
350
300
250
200
150
100
50
0
Boxplot Potassio (mg)
•Modello di regressione lineare multipla avente come variabile risposta il rating e come variabili esplicative le
variabili nutrizionali.
Problema di interpolazione dei dati
Stima
Previsione Y= a+ bnxn
Rating = 54,9 - 0,223 Calorie + 3,27 Proteine (g) - 1,69 Grassi (g) - 0,0545 Sodio(mg) + 3,44 Fibre (g) + 1,09 Carboidrati (g)
- 0,725 Zuccheri (g) - 0,0340 Potassio (mg) - 0,0512 Vitamine
[Sono stati utilizzati solo 74 visto che gli altri 3 contenevano valori mancanti.]
Il rating rappresenta la variabile risposta ottenuta come combinazione finita di variabili esplicative
L’equazione della retta di regressione è risultata :
Solitamente per i valori di P-value ≥ 0,05 (5%) si accetta l’ipotesi che il coefficiente relativo alla variabile sia nullo, e dunque non si ha influenza sulla variabile
risposta.
Tutte le variabili esplicative hanno presentato un
P = 0,000
P< 0,05
Tuttavia si è cercato di ottenere un modello ridotto che potesse indicare
quali variabili nutrizionali fossero più influenti sul rating..
E quindi fossero più adatte a spiegare il gradimento dei prodotti!
CaloriCaloriee
ProteinProteinee
GrassGrassii
SodioSodio FibreFibre CarboidratCarboidratii
ZuccherZuccherii
PotassioPotassio
Rating -0,6890,000
0,4710,000
-,4090,000
-0,4010,000
0,5840,000
0,0890,446
-0,7640,000
0,4160,000
Non tutte le variabili presentano un alto grado di correlazione con la variabile risposta
Posso pensare di cercare una correlazione lineare tra variabili con indice di Pearson = -1≤-0,5 o 0,5≥1
Eliminazione valori anomali :
L’equazione della retta di L’equazione della retta di regressione non cambiaregressione non cambia
1)- Eliminazione variabili con coefficiente minore: Potassio e Vitamine
Rating = 54,9 - 0,223 Calorie + 3,27 Proteine (g) - 1,69 Grassi (g) - 0,0545 Sodio(mg) + 3,44 Fibre (g) + 1,09 Carboidrati (g)
- 0,725 Zuccheri (g) - 0,0340 Potassio (mg) - 0,0512 VitamineL’equazione diventa:
Rating = 61,7 - 0,166 Calorie + 2,63 Proteine (g) - 2,84 Grassi (g) + 2,11 Fibre (g) + 0,049 Carboidrati (g) - 1,47 Zuccheri (g)
Predictor Coef SE Coef T PConstant 61,697 4,027 15,32 0,000Calorie -0,1664 0,1121 -1,48 0,142Proteine (g) 2,6313 0,7849 3,35 0,001Grassi (g) -2,845 1,150 -2,47 0,016Fibre (g) 2,1133 0,3086 6,85 0,000
Carboidrati (g) 0,0486 0,5011 0,10 0,923Zuccheri (g) -1,4739 0,4722 -3,12 0,003
2)- Eliminazione variabili con P-value > 0,05: Calorie e Carboidrati
L’equazione diventa:Rating = 49,9 + 1,65 Proteine (g) - 3,83 Grassi (g) + 2,61 Fibre (g)
- 1,88 Zuccheri (g)
Predictor Coef SE Coef T P Constant 49,854 2,080 23,96 0,000Proteine (g) 1,6528 0,6974 2,37 0,021Grassi (g) -3,8328 0,6434 -5,96 0,000Fibre (g) 2,6061 0,2855 9,13 0,000Zuccheri (g) -1,8795 0,1512 -12,43 0,000
3)- Eliminazione variabili con coefficiente più basso e P >0: Proteine
L’equazione diventa:
Rating = 53,7 - 3,35 Grassi (g) + 2,95 Fibre (g) - 2,00 Zuccheri (g)
con P = 0,000 per tutte le variabili.Modello ridotto appropriato
Fibre Zuccheri GrassiSono le variabili più adatte a
descrivere il rating
Tipo freddo (C)
Rating = 54,9 - 0,223 Calorie + 3,27 Proteine (g) - 1,69 Grassi (g)- 0,0545 Sodio (mg) + 3,44 Fibre (g) + 1,09 Carboidrati (g)- 0,725 Zuccheri (g) - 0,0340 Potassio (mg) - 0,0512 Vitamine
P = 0,000
Rating = 61,5 + 1,68 Proteine (g) - 4,17 Grassi (g) + 2,22 Fibre (g) - 0,629 Carboidrati (g) - 2,08 Zuccheri (g)
Carboidrati P = 0,001 Proteine P = 0,014 tutte le altre variabili P = 0,000
L’equazione di regressione èRating = 52,6 - 3,35 Grassi (g) + 3,05 Fibre (g) - 1,92 Zuccheri (g)
Tipo caldo (H)Not enough data in column.
The regression equation isRating = 84,15 - 6,853 Proteine (g) P = 0,149Rating = 63,59 - 6,853 Grassi (g) P = 0,149 Rating = 52,84 + 0,1462 Sodio (mg) P = 0,184Rating = 59,44 - 2,189 Fibre (g) P = 0,721Rating = 57,68 - 0,1132 Vitamine P = 0,851
Per le variabili Carboidrati, Zuccheri e Potassio non è stato possibile determinare la retta di regressione a causa dell’insufficienza dei dati.
•L’analisi di regressione separatamente per i cereali caldi e freddi.
Si ottengono le stesse conclusioni?
Almeno per i cereali freddi la situazione non cambia …
Cambiano i coefficienti, ma le variabili esplicative del rating rimangono le stesse
Zuccheri Fibre Grassi
.. Trovate le variabili esplicative del rating ..
Quale marca di cereali dovrebbe avere più successo sul mercato?
Nome
Zu
cch
eri
(g)
16
14
12
10
8
6
4
2
0
Valori Zuccheri (g)- Nome
Nome
Gra
ssi (g
)
5,5
5,0
4,5
4,0
3,5
3,0
2,5
2,0
1,5
1,0
0,5
0,0
Valori Grassi (g)-Nome
Nome
Fib
re (
g)
14
12
10
8
6
4
2
0
Valori Fibre (g)- Nome
Grassi Zero Fibre (g) Zuccheri Zero
4 4 (14) 4
7 1 (10) 21
10 3 (9) 55
16 53 (6) 56
17 10 (5) 64
18 28 (5) 65
21 29 (5) 66
22 59 (5) 12 (1)
24
26
27
29
31
34
38
51
54
55
56
61
62
63
64
65
66
68
69
“All Bran with Extra Fiber” (4) prodotto da Kellog’s
rati
ng
100
90
80
70
60
50
40
30
20
10
Whe
atie
s_H
oney
_Gol
dW
heat
ies
Whe
at_C
hex
Trix
Trip
les
Tot
al_W
hole
_Gra
inT
otal
_Rai
sin_
Bra
nT
otal
_Cor
n_Fl
akes
Stra
wbe
rry_
Frui
t_W
heat
sSp
ecia
l_K
Smac
ks
Shredded_Wheat_spoon_sizeShredded_Wheat_'n'Bran
Shre
dded
_Whe
atR
ice_
Kris
pies
Ric
e_C
hex
Rai
sin_
Squa
res
Rai
sin_
Nut
_Bra
nR
aisi
n_B
ranQ
uake
r_O
atm
eal
Qua
ker_
Oat
_Squ
ares
Puff
ed_W
heat
Puff
ed_R
ice
Prod
uct_
19Po
st_N
at,_
Rai
sin_
Bra
nO
atm
eal_
Rai
sin_
Cris
pN
utri-
grai
n_W
heat
Nut
ri-G
rain
_Alm
ond-
Rai
sin
Nut
&H
oney
_Cru
nch
Mul
ti-G
rain
_Che
erio
sM
uesl
ix_C
rispy
_Ble
ndM
uesl
i_R
aisi
ns,_
Peac
hes,
_&_P
ecan
sM
uesl
i_R
aisi
ns,_
Dat
es,_
&_A
lmon
dsM
aypo
Luck
y_C
harm
sLi
feK
ixJu
st_R
ight
_Fru
it_&
_Nut
Just
_Rig
ht_C
runc
hy__
Nug
gets
Hon
ey-c
omb
Hon
ey_N
ut_C
heer
ios
Hon
ey_G
raha
m_O
hsG
reat
_Gra
ins_
Peca
nGra
pe-N
uts
Gra
pe_N
uts_
Flak
esG
olde
n_G
raha
ms
Gol
den_
Cris
pFr
uity
_Peb
bles
Frui
tful
_Bra
nFr
uit_
&_F
ibre
_Dat
es,_
Wal
nuts
,_an
d_O
ats
Fros
ted_
Min
i-Whe
ats
Fros
ted_
Flak
esFr
oot_
Loop
sD
oubl
e_C
hex
Cris
py_W
heat
_&_R
aisi
nsC
rispi
xCre
am_o
f_W
heat
_(Q
uick
)C
rack
lin'_
Oat
_Bra
nC
ount
_Cho
cula
Cor
n_Po
psC
orn_
Flak
esC
orn_
Che
xC
ocoa
_Puf
fsC
lust
ers
Cin
nam
on_T
oast
_Cru
nch
Che
erio
sC
ap'n
'Cru
nch
Bra
n_Fl
akes
Bra
n_C
hex
Bas
ic_4
App
le_J
acks
App
le_C
inna
mon
_Che
erio
sA
lmon
d_D
elig
ht
All-Bran_with_Extra_FiberA
ll-B
ran
100%
_Nat
ural
_Bra
n10
0%_B
ran
Grafico confronto Rating
Shredded Wheat ‘n’ bran(64) Shredded Wheat spoon size(66)
Grassi 0
Fibre 3,0
Zuccheri
0
100% Bran (1) All-Bran (3)
Grassi 1 1
Fibre 10,0 9,0
Zuccheri
6 5