Post on 26-Jun-2015
transcript
Corso di Metodi
Rapporto sull’uso del cellulare in
Docente:
Prof. Amelia Giuseppina Nobile
Anno Accademico 2009
Università degli Studi di Salerno
Corso di Laurea Specialistica in Informatica
Metodi e Tecniche per l’analisi dei dati
Rapporto sull’uso del cellulare in
Italia
Studente:
Nobile Giovanni Cannizzaro
Matricola:0521/000857
Anno Accademico 2009-2010
Università degli Studi di Salerno
Corso di Laurea Specialistica in Informatica
’analisi dei dati
Rapporto sull’uso del cellulare in
Studente:
Giovanni Cannizzaro
Matricola:0521/000857
Rapporto sull’uso del cellulare in Italia MTAD
2
Sommario
Introduzione ...................................................................................................... 3
Fonti .................................................................................................................. 3
L’uso del cellulare.............................................................................................. 4
I motivi per cui si usa il cellulare ..................................................................... 8
Le funzioni più utilizzate ..................................................................................11
Analisi visuale ................................................................................................. 14
Analisi Descrittiva .......................................................................................... 21
Analisi delle variabili singolarmente .......................................................... 22
Correlazione tra le variabili ........................................................................... 37
Analisi Cluster ................................................................................................. 56
Metodi gerarchici ......................................................................................... 57
Metodi gerarchici agglomerativi in dettaglio ............................................. 59
Il metodo del legame singolo .................................................................... 59
Il metodo del legame completo ................................................................. 59
Il metodo del legame medio ...................................................................... 59
Il metodo del centroide ............................................................................. 60
Il metodo della mediana .......................................................................... 60
Metodi non gerarchici .................................................................................... 72
Conclusioni ..................................................................................................... 83
Rapporto sull’uso del cellulare in Italia MTAD
3
Introduzione
L’obiettivo di questa relazione è quello di fare un analisi statistica riguardante l’uso dei telefoni cellulari in Italia, nell’anno 2006, avendo a disposizione una mole importante di dati. Si cercherà di svolgere un’analisi in modo dettagliato e completo, cercando di cogliere gli aspetti più importanti e interpretare i dati ottenuti nel modo migliore possibile.
Fonti
I dati utilizzati per l'analisi, datati 206, sono stati pubblicati dall'ISTAT (Istituto Nazionale di Statistica).
Rapporto sull’uso del cellulare in Italia MTAD
4
L’uso del cellulare
Nel 2006 il 77,4% delle persone di 6 anni e più utilizza il telefono cellulare. Importanti sono le differenze di genere: l’81,2% degli uomini fa uso del cellulare contro il 73,9% delle donne ma queste differenze dipendono fortemente dall’età; tra i giovani fino ai 34 anni, infatti, la quota di donne che usa il cellulare è superiore a quella degli utilizzatori maschi ma, a partire dai 35 anni la situazione si capovolge e nelle età successive il divario diventa molto ampio (Prospetto 1). L’uso del cellulare è comunque molto influenzato dall’età. Le persone che lo usano sono, infatti, il 28,7% dai 6 ai 10 anni, raggiungono l’80,0& già dagli 11 ai 14 anni, per poi superare il 93% dai 15 ai 44 anni. La quota di utilizzatori decresce dopo i 45 anni ma si riduce significativamente solo tra gli ultrasessantacinquenni (Prospetto 1). L’uso del cellulare è molto diffuso su tutto il territorio nazionale, anche se si riscontrano comunque delle leggere differenze. La quota di utilizzatori è, infatti, dell’80,0% al Centro mentre al Sud è del 74,2 %. Considerando la frequenza con cui si usa il cellulare si evidenzia come tale mezzo di comunicazione sia entrato a far parte profondamente del vissuto quotidiano. Il 73,6% degli utilizzatori ricorrono al cellulare tutti i giorni, e il 20,3% almeno una volta a settimana. Solo il 6,0% degli utenti fa un uso saltuario del cellulare (una o più volte al mese o più raramente). L’utilizzo quotidiano del cellulare è diffuso soprattutto tra i giovani (oltre il 90% degli utilizzatori dai 17 ai 34 anni) e tra i dirigenti, imprenditori e liberi professionisti (91,2%) mentre un uso più saltuario è diffuso soprattutto tra gli anziani (Prospetto 1).
Rapporto sull’uso del cellulare in Italia MTAD
5
Prospetto 1 - Persone di 6 anni e più per uso del cellulare, frequenza con cui lo usano, sesso, classe di età e ripartizione geografica - Anno 2006 (per 100 persone di 6 anni e più con le stesse caratteristiche)
SESSO, CLASSI DI ETÀ E RIPARTIZIONI GEOGRAFICHE
Usa il cellulare Usa il cellulare Frequenza di utilizzo (a) No SI Tutti i
Giorni Una o più volte a
settimana
Qualche volta al mese
Qualche volta
all'anno
Sesso Maschi 16,0 81,2 76,2 18,4 3,8 1,6 Femmine 23,6 73,9 71,0 22,3 4,6 2,1 Totale 19,9 77,4 73,6 20,3 4,2 1,8 Classi di Età 6-10 66,3 28,7 26,2 43,1 21,0 9,6 11-14 17,0 80,0 70,1 23,0 5,0 1,9 15-17 2,8 93,1 89,3 9,7 0,9 0,1 18-19 2,8 94,4 94,4 5,0 0,4 0,2 20-24 1,9 95,1 94,5 5,0 0,4 - 25-34 2,4 95,1 89,6 9,6 0,6 0,3 35-44 3,9 93,4 81,7 16,2 1,6 0,5 45-54 7,7 89,8 73,7 21,7 3,3 1,3 55-59 16,2 81,6 64,1 27,8 6,3 1,8 60-64 22,8 74,8 53,9 33,4 9,3 3,4 65-74 39,6 58,5 39,7 42,2 11,9 6,2 75 e più 71,2 26,6 28,8 43,6 16,7 10,8 Totale 19,9 77,4 73,6 20,3 4,2 1,8 RIPARTIZIONI GEOGRAFICHE Italia Nord Occidentale 18,1 78,8 70,1 21,9 5,4 2,6 Italia Nord Orientale 21,3 76,8 69,6 22,7 5,1 2,5 Italia Centrale 17,6 80,0 73,1 21,0 4,5 1,4 Italia Meridionale 22,8 74,2 78,2 18,3 2,5 1,0 Italia Insulare 19,9 77,6 80,4 15,6 2,8 1,3 Italia 19,9 77,4 73,6 20,3 4,2 1,8
(a) per 100 persone di 6 anni e più che usano il cellulare
Rapporto sull’uso del cellulare in Italia MTAD
6
Grafico 1 (Uso per fascia d’età)
Grafico 2 (Frequenza d’uso per fascia d’età)
Rapporto sull’uso del cellulare in Italia MTAD
7
Grafico 3 (Uso del cellulare per Zona)
Grafico 4 (Frequenza d’uso per zona)
Rapporto sull’uso del cellulare in Italia MTAD
8
I motivi per cui si usa il cellulare Le esigenze familiari vengono al primo posto tra le motivazioni che spingono all’utilizzo del telefono cellulare. Infatti, il 75,2% degli utilizzatori usa il cellulare per essere più facilmente in contatto con i genitori e i familiari mentre il 42,2% lo usa per essere più facilmente in contatto con gli amici. Il cellulare viene utilizzato anche per sentirsi più sicuri poiché il 34,6% degli utilizzatori lo usa per far meglio fronte a eventuali imprevisti, contrattempi e urgenze e il 19,9% dichiara che avere il cellulare a disposizione li fa sentire più sicuri in caso di pericolo. Inoltre, il 29,9% ritiene che il telefono cellulare sia comodo perché evita di dover cercare un telefono pubblico quando occorre. Usare il cellulare per ragioni di lavoro è solo la quinta motivazione (30,0%) a conferma del fatto che il cellulare copre una gamma di esigenze comunicative molto ampia che va ben al di là della sola sfera lavorativa. Importante è anche la quota di persone che usano il cellulare per motivi di assistenza: il 7,1% dichiara di usare il cellulare perché ha genitori o parenti anziani o malati e l’1,5% perché ha bisogno personalmente di essere assistito (Prospetto 2). Ovviamente le motivazioni differiscono molto a seconda dell’età e del sesso. Ad esempio, le donne che usano il cellulare per ragioni di lavoro sono solo il 17,0% rispetto al 42,6% dei maschi e tali differenze si mantengono forti anche a parità di condizione professionale; infatti, tra gli occupati usano il cellulare per ragioni di lavoro il 64,5% dei maschi rispetto al 37,8% delle femmine. Al contrario, sono soprattutto le donne che usano il cellulare per sentirsi più sicure in caso di pericolo (25,1% rispetto al 14,9%) e per far meglio fronte a imprevisti, contrattempi e urgenze (36,4% rispetto al 32,9%). Infine, gli uomini lo usano più delle donne per essere più facilmente in contatto con gli amici (43,4% rispetto al 41,0% delle donne) mentre le donne lo usano più degli uomini per essere più facilmente in contatto con i genitori e i familiari (79,0% rispetto al 71,6% degli uomini). Tra i giovani dai 15 fino ai 24 anni l’uso del cellulare per essere più facilmente in contatto con gli amici è più importante dell’uso per contattare genitori o familiari. Inoltre, è molto elevata anche la quota di giovani che usano il cellulare per il piacere di parlare con chi vogliono in qualsiasi momento e in qualunque luogo. Per ragioni di lavoro e per far meglio fronte a imprevisti e contrattempi il cellulare è usato soprattutto dalle persone tra i 25 e i 54 anni. Gli ultrasessantacinquenni, invece, hanno la quota più elevata di persone che usano il cellulare perché si sentono più sicuri in caso di pericolo. I motivi per cui si usa il telefono cellulare sono influenzati anche dalla condizione professionale.
Rapporto sull’uso del cellulare in Italia MTAD
9
Prospetto 2 - Persone di 6 anni e più che usano il cellulare per motivo per cui lo usa, sesso, classe di età,ripartizione geografica - Anno 2006 (per 100 persone di 6 anni e più che usano il cellulare con le stesse caratteristiche) SESSO, CLASSI DI
ETÀ E RIPARTIZIONI GEOGRAFICHE
Ragioni di
lavoro
Per il piacere di par lare con chi voglio,
in qualsiasi momento
ed in
qualunque luogo
Per essere più
facilmente in
contatto con i
genitori, familiari
Per essere più
facilmente in
contatto con gli amici
Perché ho
genitori,parenti anziani, malati
Per poter essere più facilmente assistito (salute
Handicap)
Perché mi
sento più
sicuro/a in caso di
pericolo
Per far meglio fronte
a imprevisti, contrattempi,
urgenze
Perché è comodo non dover cercare un
telefono pubblico
Altro
Sesso Maschi 42,6 31,1 71,6 43,4 6,4 1,3 14,9 32,9 29,7 1,2 Femmine 17,0 33,5 79,0 41,0 8,0 1,7 25,1 36,4 30,1 1,3 Totale 30,0 32,3 75,2 42,2 7,1 1,5 19,9 34,6 29,9 1,3 Classi di Età 6-10 - 16,2 72,4 34,6 1,1 0,2 13,8 8,9 9,9 7,5 11-14 - 44,0 72,4 71,9 1,6 0,7 25,0 24,7 24,3 2,8 15-17 2,5 58,3 68,2 83,4 1,5 0,5 22,3 37,9 37,7 1,6 18-19 8,4 62,8 71,1 84,9 2,2 0,7 24,1 42,5 42,5 0,7 20-24 24,8 56,4 74,3 74,7 2,9 0,3 23,5 42,6 39,9 0,9 25-34 42,4 46,0 73,6 58,8 5,2 0,7 20,9 38,3 34,6 1,5 35-44 45,8 30,2 76,9 37,6 9,7 0,9 18,8 37,1 30,5 1,1 45-54 41,8 21,7 77,8 27,4 12,5 0,8 16,7 34,0 28,1 0,7 55-59 28,6 18,6 76,6 23,4 10,7 1,5 18,0 34,2 27,8 0,7 60-64 17,6 18,3 75,0 22,3 7,9 2,5 16,0 30,9 25,3 1,1 65-74 6,8 15,7 75,9 16,8 4,3 4,0 22,6 28,4 23,9 1,1 75 e più 1,6 11,0 74,4 13,0 2,3 11,1 26,1 25,3 16,2 0,8 Totale 30,0 32,3 75,2 42,2 7,1 1,5 19,9 34,6 29,9 1,3 RIPARTIZIONI GEOGRAFICHE
Italia Nord Occidentale
30,4 32,6 74,3 39,2 7,2 1,5 19,0 36,3 32,9 1,4
Italia Nord Orientale
32,5 31,9 72,5 42,5 6,6 1,3 19,1 38,3 32,9 1,7
Italia Centrale 31,7 33,6 75,7 42,8 7,0 2,0 19,9 34,7 29,1 1,2 Italia Meridionale
27,5 31,2 76,6 44,3 7,6 1,5 21,1 30,5 25,7 0,9
Italia Insulare 27,3 32,0 78,4 43,5 7,2 1,2 21,4 32,9 27,7 1,1 Italia 30,0 32,3 75,2 42,2 7,1 1,5 19,9 34,6 29,9 1,3
Rapporto sull’uso del cellulare in Italia MTAD
10
Grafico 5 (Motivi d’uso per età)
Grafico 6 (Motivi d’uso per zona)
Rapporto sull’uso del cellulare in Italia MTAD
11
Le funzioni più utilizzate Tra le numerose funzioni aggiuntive disponibili attualmente sul telefono cellulare quella maggiormente utilizzata resta l’invio e la ricezione di Sms che è utilizzata dal 36,7% delle persone che usano il cellulare. Al secondo posto troviamo l’utilizzo della rubrica telefonica (29,3%) seguita dall’utilizzo della fotocamera (18,0%). Il 17,3% dei fruitori del telefono cellulare utilizza l’agenda diario e la sveglia mentre l’invio di Mms è solo al quinto posto (13,6%). A seguire troviamo l’uso della calcolatrice (13,1%), il controllo dei consumi (12,8%) e l’uso di suonerie polifoniche e/o loghi (10,3%). Le funzioni più avanzate sono ancora utilizzate da un’esigua minoranza di utenti: l’accesso ad Internet tramite cellulare è usato dal 2,9 % degli utenti e ancora meno sono coloro i quali usano l’e-mail (2,2%), utilizzano software istallati dall’utente (1,3%) o usano il cellulare per acquisti o consultazioni di servizi finanziari (0,2%) (Prospetto 3). Le funzioni utilizzate sono influenzate principalmente dall’età. Il quadro cambia completamente se si considerano i giovani fruitori che sono utilizzatori onnivori di tutte le funzioni contenute nei cellulari. In particolare, per i bambini dai 6 ai 10 anni la funzione più utilizzata è giocare con i videogiochi (38,1%) seguita dall’invio e ricezione di Sms (29,6%) e dalla fotocamera (19,2%). Tra i ragazzi tra gli 11 e i 14 anni, invece, la funzione principale diventa l’invio e ricezione di Sms (70,1%), seguito dall’uso della rubrica telefonica (47,9%), dai videogiochi (47,8%) e dalla fotocamera (43,6%). Tra i 15-17enni oltre alle funzioni utilizzate dai più giovani assume rilevanza anche l’invio e ricezione di Mms (47,4%) e l’utilizzo di suonerie polifoniche e loghi (40,4%). Infine tra le persone dai 20 ai 24 anni diventano rilevanti anche funzioni pratiche come l’uso della rubrica telefonica (55,7%) e l’agenda diario e la sveglia (41,9%). L’utilizzo delle funzioni aggiuntive decresce rapidamente al crescere dell’età ed è tanto più raro quanto più la funzione è complessa. Ad esempio l’invio e ricezione di Sms che è utilizzata da oltre il 70% degli utenti fino ai 24 anni scende al 36,2% già tra le persone dai 35 ai 44 anni (Prospetto 3).
Rapporto sull’uso del cellulare in Italia MTAD
12
Prospetto 3 - Persone di 6 anni e più che usano il cellulare per classe di età e funzioni utilizzate - Anno 2006 (per100 persone di 6 anni e più che usano il cellulare con le stesse caratteristiche) FUNZIONI UTILIZZATE 6-10 11-14 15-17 18-19 20-24 25-34 35-44 45-54 55-59 60-64 65-74 75 e
più Totale
La segreteria telefonica
3,6 10,5 13,7 14,6 15,7 14,6 10,8 8,4 5,6 3,7 1,7 0,9 9,6
Il controllo dei consumi
6,0 20,7 23,9 26,6 27,4 19,5 12,2 7,5 5,9 4,8 2,3 0,8 12,8
La rubrica telefonica 17,7 47,9 59,9 62,9 55,7 42,5 29,3 19,3 14,2 8,9 5,0 3,0 29,3 Invio e ricezione di
SMS 29,6 70,1 80,0 78,8 71,8 52,8 36,2 22,7 15,1 10,2 5,3 1,9 36,7
Invio e ricezione di MMS
8,7 33,3 47,4 44,8 36,5 21,0 9,0 3,7 2,0 1,1 0,3 0,2 13,6
L’agenda-diario, promemoria, sveglia
15,0 37,6 40,4 35,1 25,6 14,2 5,7 1,8 1,4 0,7 0,2 0,2 10,3
Suonerie polifoniche, loghi
15,0 37,6 40,4 35,1 25,6 14,2 5,7 1,8 1,4 0,7 0,2 0,2 10,3
Inviare e ricevere email
0,7 3,6 4,6 6,5 4,1 3,6 2,5 1,2 0,6 0,1 0,4 - 2,2
Accesso ad Internet, WAP
1,7 7,5 9,5 9,9 6,0 4,5 2,3 1,0 0,3 0,1 0,1 0,1 2,9
Acquisti, consultazioni servizi finanziari e
0,2 0,4 0,2 0,4 0,2 0,3 0,2 0,1 0,1 - 0,1 - 0,2
Ascoltare musica, lettore MP3, radio
6,0 22,1 22,7 18,6 11,3 5,0 2,5 0,7 0,3 0,0 0,1 - 5,1
Fotocamera 19,2 43,6 56,6 53,1 43,4 26,5 13,5 6,5 3,6 2,6 1,0 0,1 18,0 Giocare con i videogiochi
38,1 47,8 37,3 31,8 19,6 8,6 4,3 1,0 0,5 0,0 0,1 - 9,0
Videofonia 2,8 10,5 11,3 9,9 7,8 4,9 2,4 0,9 0,4 03, 0,3 0,1 3,3 Capacità video 4,2 16,6 26,2 24,8 16,5 7,7 3,0 1,3 0,8 0,2 0,2 0,1 5,9 Connettività aggiuntiva
2,0 12,20 22,2 21,6 14,5 8,0 3,9 1,9 0,6 0,2 0,3 - 5,7
Utilizzare software installati dall’utente
0,5 2,7 4,5 5,9 2,8 1,8 1,0 0,4 0,1 0,1 - 0,0 1,3
Calcolatrice 10,4 33,0 38,9 35,0 31,1 19,5 10,7 5,1 2,9 1,5 0,5 - 13,1 Altro 0,5 1,1 0,9 0,9 0,8 0,8 0,3 0,1 0,3 0,1 0,2 0,6 0,5
Rapporto sull’uso del cellulare in Italia MTAD
13
Grafico 7 (Tipologie d’uso per età)
Rapporto sull’uso del cellulare in Italia MTAD
14
Analisi visuale
Dopo avere svolto una prima analisi, vogliamo eseguire un secondo procedimento, l’analisi visuale, con la quale andremo ad esaminare in maniera più dettagliata i dati riguardanti la “Frequenza d’uso” ed i “Motivi di utilizzo” per quanto riguarda le aree geografiche del nostro paese; ossia la zona Nord-Occidentale, Nord-Orientale, Centrale, Meridionale ed Insulare. Questa operazione viene svolta mediante l’utilizzo del software R, grazie al comando plot si è proceduto alla creazione dei grafici a bastoncino, tanti quante sono le variabili rappresentanti un particolare aspetto. Sull’asse delle ascisse vengono riportate le zone, mentre sull’asse delle ordinate vengono riportate le percentuali. Questi grafici ci consentiranno di capire meglio, per ogni tipo di frequenza e motivo di utilizzo, qual è la zona del nostro paese, maggiormente interessata.
Rapporto sull’uso del cellulare in Italia MTAD
15
Rapporto sull’uso del cellulare in Italia MTAD
16
Rapporto sull’uso del cellulare in Italia MTAD
17
Da un’analisi dei suddetti grafici sono state fatte le seguenti osservazioni:
� Gli utenti della zona Insulare, sono quelli che usano maggiormente il cellulare ogni giorno.
� Gli utenti della zona Nord-Orientale, sono quelli che usano maggiormente il cellulare, una o più volte a settimana.
� Gli utenti della zona Nord-Occidentale, sono quelli che usano maggiormente il qualche volta al mese.
� Gli utenti della zona Nord-Orientale, sono quelli che usano maggiormente il cellulare, qualche volta all’anno.
� Gli utenti della zona Nord-Orientale sono, quelli che usano maggiormente il cellulare per lavoro.
� Gli utenti della zona Centrale, sono quelli che usano maggiormente il cellulare per sentirsi liberi.
� Gli utenti della zona Insulare, sono quelli che usano maggiormente il cellulare per sentire i familiari.
� Gli utenti della zona Meridionale, sono quelli che usano maggiormente il cellulare per sentire gli amici.
� Gli utenti della zona Meridionale, sono quelli che usano maggiormente il cellulare per essere rintracciabili.
� Gli utenti della zona Centrale, sono quelli che usano maggiormente il cellulare per motivi di Salute.
� Gli utenti della zona Insulare, sono quelli che usano maggiormente il cellulare per sentirsi più sicuri.
� Gli utenti della zona Nord-Orientale, sono quelli che usano maggiormente il cellulare per eventuali imprevisti.
� Gli utenti della zona Nord (Orientale e Occidentale), sono quelli che usano maggiormente il cellulare per comodità.
� Gli utenti della zona Nord-Orientale, sono quelli che usano maggiormente il cellulare per altri motivi.
Rapporto sull’uso del cellulare in Italia MTAD
18
Grazie al comando pie() del programma R sono stati creati dei grafici a torta per evidenziare meglio quanto detto e rilevato dai precedenti grafici a bastoncino.
Rapporto sull’uso del cellulare in Italia MTAD
19
Rapporto sull’uso del cellulare in Italia MTAD
20
Rapporto sull’uso del cellulare in Italia MTAD
21
Analisi Descrittiva
La statistica descrittiva viene utilizzata per analizzare il comportamento dei fenomeni oggetti di studio. Ogni fenomeno viene descritto tramite categorie di dati (es. qualitativo). I dati vengono quindi usati per ricavare misure di sintesi che consentono di comprendere il comportamento del fenomeno in esame. I nostri dati contengono le percentuali riguardanti l’uso del cellulare nel nostro paese durante il 2006. Quella che verrà effettuata in seguito è un’analisi dettagliata dei dati in nostro possesso, per confermare scientificamente quanto osservato dalla precedente Analisi Visuale, grazie all’aiuto di indici di sintesi, detti anche statistiche, che sono utili a descrivere i dati numerici.
Gli indici di sintesi utilizzati sono i seguenti:
� media, mediana che sono indici di posizione poiché descrivono attorno a quali valori è centrato l’insieme dei dati.
� quartili che sono indici di posizione che si ottengono dividendo l’insieme dei dati ordinati in quattro parti uguali: il primo quartile Q1 è un valore tale che il 25% dei dati ordinati è minore o uguale di Q1,il secondo quartile Q2 è un valore tale che il 50% dei dati ordinati minore o uguale di Q2, Q2 coincide con la mediana,il terzo quartile Q3 è un valore tale che il 75% dei dati ordinati è minore o uguale a Q3.
� varianza e deviazione standard che sono indici di dispersione dei dati
poiché misurano la dispersione dei dati attorno alla media.
Media campionaria: è la quantità
Mediana campionaria: dati un insieme di dati di ampiezza n, lo si ordini dal minore al maggiore. Se n è dispari, si definisce mediana il valore che è in posizione (n+1)/2,mentre se n è pari la mediana è invece definita come la media aritmetica dei valori che occupano le posizioni n/2 e n/2+1.
Varianza campionaria: dati un insieme di dati numerici x1,x2…xn si definisce v.c. la quantità:
Rapporto sull’uso del cellulare in Italia MTAD
22
Deviazione standard campionaria: è la radice quadrata della varianza campionaria, ossia:
*Nota. Media e Media sono statistiche utili, come detto, per descrivere i valori centrali dei dati. La media utilizza tutti i dati ed è influenzata in modo sensibile da valori molto bassi o alti. La mediana dipende solo da uno dei due valori centrali della distribuzione e non risente dei dati estremi.
Analisi delle variabili singolarmente
Per ogni variabile, verrà quindi determinato, il Minimo dei valori del campione in esame, il primo Quartile, la Mediana, la Media, il terzo Quartile, e il Massimo dei valori del campione in esame. Prima sull’insieme dei dati non divisi, e successivamente considerando i dati delle zone suddivise in 5 gruppi (Nord-Occidentale, Nord-Orientale, Centrale, Meridionale ed Insulare). Verrà quindi calcolata la Varianza e la Deviazione Standard. Il ricavato verrà messo a confronto per trarre delle conclusioni rilevanti.
Si utilizzano le funzioni summary(v), var(v), sd(v) del linguaggio R, per ottenere quanto espresso sopra.
Analisi degli utenti che usano il cellulare ogni giorno
Min. 1st Qu. Median Mean 3rd Qu. Max.
69.60 70.10 73.10 74.28 78.20 80.40 Varianza: 23.397 Deviazione Standard: 4.837045
Rapporto sull’uso del cellulare in Italia MTAD
23
Grazie all’aiuto di un boxplot, vengono illustrate alcune caratteristiche della distribuzione dei dati: la centralità, la forma, la dispersione e la presenza di eventuali valori anomali, detti “outlier”(un valore distante dalle altre osservazioni disponibili). La centralità è espressa dalla mediana. La forma simmetrica o asimmetrica può essere dedotta esaminando le distanze del primo e del terzo quartile dalla linea mediana. La dispersione è dedotta esaminando le distanze del baffo superiore da Q3 e del baffo inferiore da Q1 (Quartili).
Rapporto sull’uso del cellulare in Italia MTAD
24
Analisi degli utenti che usano il cellulare una o più volte a settimana
Min. 1st Qu. Median Mean 3rd Qu. Max.
15.6 18.3 21.0 19.9 21.9 22.7 Varianza: 8.525 Deviazione Standard: 2.91976
Rapporto sull’uso del cellulare in Italia MTAD
25
Analisi degli utenti che usano il cellulare qualche volta al mese
Min. 1st Qu. Median Mean 3rd Qu. Max.
2.50 2.80 4.50 4.06 5.10 5.40 Varianza: 1.773 Deviazione Standard: 1.331540
Rapporto sull’uso del cellulare in Italia MTAD
26
Analisi degli utenti che usano il cellulare qualche volta all’anno
Min. 1st Qu. Median Mean 3rd Qu. Max.
1.00 1.30 1.40 1.76 2.50 2.60 Varianza: 0.543 Deviazione Standard: 0.7368853
Rapporto sull’uso del cellulare in Italia MTAD
27
Analisi degli utenti che usano il cellulare per Lavoro
Min. 1st Qu. Median Mean 3rd Qu. Max.
27.30 27.50 30.40 29.88 31.70 32.50 Varianza: 5.692 Deviazione Standard: 2.385791
Rapporto sull’uso del cellulare in Italia MTAD
28
Analisi degli utenti che usano il cellulare per sentirsi liberi
Min. 1st Qu. Median Mean 3rd Qu. Max.
31.20 31.90 32.00 32.26 32.60 33.60
Varianza: 0.808 Deviazione Standard: 0.8988882
Rapporto sull’uso del cellulare in Italia MTAD
29
Analisi degli utenti che usano il cellulare per sentire la famiglia
Min. 1st Qu. Median Mean 3rd Qu. Max.
72.5 74.3 75.7 75.5 76.6 78.4 Varianza: 5.025 Deviazione Standard: 2.241651
Rapporto sull’uso del cellulare in Italia MTAD
30
Analisi degli utenti che usano il cellulare per sentire gli amici
Min. 1st Qu. Median Mean 3rd Qu. Max.
39.20 42.50 42.80 42.46 43.50 44.30 Varianza: 3.803 Deviazione Standard: 1.950128
Rapporto sull’uso del cellulare in Italia MTAD
31
Analisi degli utenti che usano il cellulare per essere rintracciabili
Min. 1st Qu. Median Mean 3rd Qu. Max.
6.60 7.00 7.20 7.12 7.20 7.60 Varianza: 0.132 Deviazione Standard: 0.3633180
Rapporto sull’uso del cellulare in Italia MTAD
32
Analisi degli utenti che usano il cellulare per motivi di salute
Min. 1st Qu. Median Mean 3rd Qu. Max.
1.2 1.3 1.5 1.5 1.5 2.0 Varianza: 0.095 Deviazione Standard: 0.3082207
Rapporto sull’uso del cellulare in Italia MTAD
33
Analisi degli utenti che usano il cellulare per sicurezza
Min. 1st Qu. Median Mean 3rd Qu. Max.
19.0 19.1 19.9 20.1 21.1 21.4 Varianza: 1.235 Deviazione Standard: 1.111306
Rapporto sull’uso del cellulare in Italia MTAD
34
Analisi degli utenti che usano il cellulare per gli imprevisti
Min. 1st Qu. Median Mean 3rd Qu. Max.
30.50 32.90 34.70 34.54 36.30 38.30 Varianza: 9.068 Deviazione Standard: 3.011312
Rapporto sull’uso del cellulare in Italia MTAD
35
Analisi degli utenti che usano il cellulare per comodità
Min. 1st Qu. Median Mean 3rd Qu. Max.
25.70 27.70 29.10 29.66 32.90 32.90 Varianza: 10.208 Deviazione Standard: 3.194996
Rapporto sull’uso del cellulare in Italia MTAD
36
Analisi degli utenti che usano il cellulare per altri motivi
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.90 1.10 1.20 1.26 1.40 1.70 Varianza: 0.093 Deviazione Standard: 0.304959
Rapporto sull’uso del cellulare in Italia MTAD
37
Correlazione tra le variabili
Nelle pagine seguenti viene illustrata l’analisi della correlazione fra le variabili in esame, tale analisi ci porterà a dire qual è il legame che esiste (se esiste) fra coppie di due variabili prese in considerazione.
Per verificare la dipendenza fra due variabili X e Y si procede nel disegnare il diagramma
di dispersione o scatterplot. Sull’asse delle ascisse si pongono i dati relativi a una delle due variabili, su quello delle ordinate quelli relativi all’altra variabile e le singole osservazioni si rappresentano con punti o cerchietti. Lo scatterplot evidenzia se i punti sono sparsi senza regolarità oppure se esiste una qualche regolarità (variabili connesse mediante relazione lineare).
Per avere una misura quantitativa della correlazione tra le variabili è stata considerata la covarianza campionaria tra le due variabili X eY ,data dalla seguente formula:
Quando la Cxy > 0 si dice che le variabili sono correlate positivamente, se Cxy < 0 si dice che le variabili sono correlate negativamente, se Cxy = 0 le variabili non sono correlate.
Per avere una misura quantitativa della correlazione tra le variabili è stato anche considerato il coefficiente di correlazione campionario che è uguale al rapporto fra la covarianza di X e Y e il prodotto degli scarti quadratici medi di X e di Y, ossia:
Analogamente, quando la rxy > 0 si dice che le variabili sono correlate positivamente, se rxy < 0 si dice che le variabili sono correlate negativamente, se rxy = 0 le variabili non sono correlate.
Il coefficiente di correlazione campionario è compreso tra -1 e 1, tali valori vengono raggiunti quando tra X e Y vi è una relazione lineare (perfetta negativa o perfetta positiva)
Rapporto sull’uso del cellulare in Italia MTAD
38
e in tal caso i punti dello scatterplot giacciono tutti su di una retta. Nello scatterplot inoltre il segno di rxy indica la direzione della retta interpolante. È positivo se xi e yi tendono a essere grandi e piccoli insieme, nel qual caso la retta interpolante punta verso l’alto. È negativo invece se quando xi è grande e yi è piccolo e viceversa, nel qual caso la retta interpolante punta verso il basso.
(* xi e yi per i=1….n (valori di X e Y) (x e y negato,indicano medie campionarie) s=sqm).
In R le covarianze campionarie e le correlazioni campionarie fra una coppia di variabili numeriche prese in esame sono state ottenute immediatamente attraverso le seguenti funzioni:
covarianze: cov(X,Y)
correlazioni: cor(X,Y)
in R gli scatterplot sono stati ottenuti con le seguenti linee di codice di esempio:
plot (Var1,Var2, xlab=”NomeVar1”,ylab=”NomeVar2”)
abline(lm(Var2 ~ Var1)) //aggiunge allo scatterplot la linea interpolante stimata
Rapporto sull’uso del cellulare in Italia MTAD
39
Ecco riportati i risultati ottenuti
• Correlazione tra le variabili
TTIG e QVSETT
Covarianza:
-13.8375
Correlazione:
-0.979784
• Correlazione tra le variabili
TTIG e QVMESE
Covarianza:
-6.2035
Correlazione:
-0.9631686
• Correlazione tra le variabili
TTIG e QVANNO
Covarianza:
-3.086
Correlazione:
-0.8657967
Rapporto sull’uso del cellulare in Italia MTAD
40
• Correlazione tra le variabili
QVSETT e QVMESE
Covarianza:
3.4975
Correlazione:
0.8996139
• Correlazione tra le variabili
QVSETT e QVANNO
Covarianza:
1.6375
Correlazione:
0.7610868
• Correlazione tra le variabili
QVMESE e QVANNO
Covarianza:
0.8755
Correlazione:
0.8922815
Rapporto sull’uso del cellulare in Italia MTAD
41
• Correlazione tra le variabili
LAVORO e LIBERTA’
Covarianza:
1.2165
Correlazione:
0.5672493
• Correlazione tra le variabili
LAVORO e FAMIGLIA
Covarianza:
-4.555
Correlazione:
-0.8517025
• Correlazione tra le variabili
LAVORO e AMICIZIA
Covarianza:
-2.0085
Correlazione:
-0.4316942
Rapporto sull’uso del cellulare in Italia MTAD
42
• Correlazione tra le variabili
LAVORO e RINTRACCIABILITA’
Covarianza:
-0.722
Correlazione:
-0.8329478
• Correlazione tra le variabili
LAVORO e SALUTE
Covarianza:
0.29
Correlazione:
0.3943699
• Correlazione tra le variabili
LAVORO e SICUREZZA
Covarianza:
-2.3225
Correlazione:
-0.8759711
Rapporto sull’uso del cellulare in Italia MTAD
43
• Correlazione tra le variabili
LAVORO e IMPREVISTI
Covarianza:
6.226
Correlazione:
0.8666045
• Correlazione tra le variabili
LAVORO e COMODITA’
Covarianza:
5.909
Correlazione:
0.7751954
• Correlazione tra le variabili
LAVORO e ALTRO
Covarianza:
0.5965
Correlazione:
0.819854
Rapporto sull’uso del cellulare in Italia MTAD
44
• Correlazione tra le variabili
LIBERTA’ e FAMIGLIA
Covarianza:
-0.245
Correlazione:
-0.1215885
• Correlazione tra le variabili
LIBERTA’ e AMICIZIA
Covarianza:
-0.722
Correlazione:
-0.4118778
• Correlazione tra le variabili
LIBERTA’ e RINTRACCIABILITA’
Covarianza:
-0.119
Correlazione:
-0.3643798
Rapporto sull’uso del cellulare in Italia MTAD
45
• Correlazione tra le variabili
LIBERTA’ e SALUTE
Covarianza:
0.205
Correlazione:
0.7399227
• Correlazione tra le variabili
LIBERTA’ e SICUREZZA
Covarianza:
-0.42
Correlazione:
-0.4204459
• Correlazione tra le variabili
LIBERTA’ e IMPREVISTI
Covarianza:
1.042
Correlazione:
0.3849517
Rapporto sull’uso del cellulare in Italia MTAD
46
• Correlazione tra le variabili
LIBERTA’ e COMODITA’
Covarianza:
0.973
Correlazione:
0.3387949
• Correlazione tra le variabili
LIBERTA’ e ALTRO
Covarianza:
0.058
Correlazione:
0.2115830
• Correlazione tra le variabili
FAMIGLIA e AMICIZIA
Covarianza:
2.225
Correlazione:
0.5089778
Rapporto sull’uso del cellulare in Italia MTAD
47
• Correlazione tra le variabili
FAMIGLIA e RINTRACCIABILITA’
Covarianza:
0.55
Correlazione:
0.675317
• Correlazione tra le variabili
FAMIGLIA e SALUTE
Covarianza:
-0.0425
Correlazione:
-0.06151189
• Correlazione tra le variabili
FAMIGLIA e SICUREZZA
Covarianza:
2.2875
Correlazione:
0.9182472
Rapporto sull’uso del cellulare in Italia MTAD
48
• Correlazione tra le variabili
FAMIGLIA e IMPREVISTI
Covarianza:
-5.64
Correlazione:
-0.835517
• Correlazione tra le variabili
FAMIGLIA e COMODITA’
Covarianza:
-5.94
Correlazione:
-0.8293695
• Correlazione tra le variabili
FAMIGLIA e ALTRO
Covarianza:
-0.59
Correlazione:
-0.863063
Rapporto sull’uso del cellulare in Italia MTAD
49
• Correlazione tra le variabili
AMICIZIA e RINTRACCIABILITA’
Covarianza:
0.161
Correlazione:
0.2272353
• Correlazione tra le variabili
AMICIZIA e SALUTE
Covarianza:
-0.0375
Correlazione:
-0.06238875
• Correlazione tra le variabili
AMICIZIA e SICUREZZA
Covarianza:
1.6675
Correlazione:
0.7694302
Rapporto sull’uso del cellulare in Italia MTAD
50
• Correlazione tra le variabili
AMICIZIA e IMPREVISTI
Covarianza:
-3.668
Correlazione:
-0.6246121
• Correlazione tra le variabili
AMICIZIA e COMODITA’
Covarianza:
-4.987
Correlazione:
-0.8003978
• Correlazione tra le variabili
AMICIZIA e ALTRO
Covarianza:
-0.322
Correlazione:
-0.5414411
Rapporto sull’uso del cellulare in Italia MTAD
51
• Correlazione tra le variabili
RINTRACCIABILITA’ e SALUTE
Covarianza:
0.005
Correlazione:
0.04464998
• Correlazione tra le variabili
RINTRACCIABILITA’ e SICUREZZA
Covarianza:
0.26
Correlazione:
0.6439511
• Correlazione tra le variabili
RINTRACCIABILITA’ e IMPREVISTI
Covarianza:
-0.976
Correlazione:
-0.8920868
Rapporto sull’uso del cellulare in Italia MTAD
52
• Correlazione tra le variabili
RINTRACCIABILITA’ e COMODITA’
Covarianza:
-0.854
Correlazione:
-0.7356997
• Correlazione tra le variabili
RINTRACCIABILITA’ e ALTRO
Covarianza:
-0.099
Correlazione:
-0.8935251
• Correlazione tra le variabili
SALUTE e SICUREZZA
Covarianza:
-0.0725
Correlazione:
-0.2116619
Rapporto sull’uso del cellulare in Italia MTAD
53
• Correlazione tra le variabili
SALUTE e IMPREVISTI
Covarianza:
-0.045
Correlazione:
-0.04848361
• Correlazione tra le variabili
SALUTE e COMODITA’
Covarianza:
-0.085
Correlazione:
-0.0863151
• Correlazione tra le variabili
SALUTE e ALTRO
Covarianza:
-0.0175
Correlazione:
-0.1861807
Rapporto sull’uso del cellulare in Italia MTAD
54
• Correlazione tra le variabili
SICUREZZA e IMPREVISTI
Covarianza:
-2.975
Correlazione:
-0.8889918
• Correlazione tra le variabili
SICUREZZA e COMODITA’
Covarianza:
-3.3
Correlazione:
-0.929416
• Correlazione tra le variabili
SICUREZZA e ALTRO
Covarianza:
-0.2875
Correlazione:
-0.8483262
Rapporto sull’uso del cellulare in Italia MTAD
55
• Correlazione tra le variabili
IMPREVISTI e COMODITA’
Covarianza:
9.252
Correlazione:
0.9616334
• Correlazione tra le variabili
IMPREVISTI e ALTRO
Covarianza:
0.902
Correlazione:
0.9822212
• Correlazione tra le variabili
COMODITA’ e ALTRO
Covarianza:
0.913
Correlazione:
0.9370418
Rapporto sull’uso del cellulare in Italia MTAD
56
Analisi Cluster
Quella che verrà mostrata nelle pagine seguenti è l’analisi dei cluster. Si tratta di una metodologia che permette di raggruppare in sottoinsiemi, detti cluster, entità (unità) appartenenti a un insieme più ampio. I metodi attraverso cui ottenere tale analisi hanno lo scopo di ottenere raggruppamenti in base alla somiglianza, in modo che gli elementi di uno stesso gruppo siano tra loro il più possibile simili e gli elementi
appartenenti a gruppi distinti siano tra loro il più possibile diversi. Si vuole distribuire le osservazioni in gruppi, tale che il grado di associazione sia alto tra i membri dello stesso gruppo e basso tra i membri di gruppi diversi. Alta omogeneità all’interno dei gruppi e alta eterogeneità tra gruppi distinti.
Problema: individuare m cluster di unità I con I=(I1..I2..In) tali che Ii appartenga solo a un unico sottoinsieme.
Le unità assegnate allo stesso cluster sono dette simili, le unità che sono assegnate a differenti cluster sono dette dissimili.
La somiglianza viene definita tramite una misura di distanza tra due unità, con d>=0. Un criterio per risolvere il problema di clustering potrebbe essere quello di assegnare due unità (o individui) allo stesso cluster se la distanza tra due unità Xi e Yi è piccola, e a differenti cluster se la distanza è grande.
La misura di distanza più comune è la metrica euclidea, la quale però è molto influenzata dall’unità di misura in base alla quale è valutata ciascuna caratteristica osservabile posseduta da ogni unità in I (ci possono essere discordanze applicando un unità di misura anziché un’altra es. cm e metro). Per ovviare a ciò è opportuno standardizzare prima le misure, in maniera tale da poter effettuare un confronto tra le misure.
In R è possibile fare ciò attraverso la funzione scale (X, center=TRUE, scale=TRUE) dove X è una matrice numerica, center e scale a TRUE attuano la standardizzazione. Dopo lo scalamento si ottiene una matrice con dati standardizzati Z.
Es. Z<-scale(X)
D<-dist (Z, method=”euclidean”, diag=TRUE, upper=”TRUE”)
La funzione dist restituisce la matrice delle distanze D calcolata usando le misure di distanza (euclidea) tra le righe della matrice Z di dati.
Scelta la misura di distanza si procede alla scelta di un algoritmo di raggruppamento delle unità osservate. I metodi di raggruppamento praticabili si distinguono in metodi
gerarchici e i metodi non gerarchici.
Rapporto sull’uso del cellulare in Italia MTAD
57
Metodi gerarchici
I metodi gerarchici agglomerativi, quelli presi in considerazione nell’analisi, partono da una situazione in cui si hanno n cluster distinti ognuno contenente un solo individuo, per giungere attraverso le successive unioni di cluster a una situazione in cui si ha un solo cluster contenente tutti gli n individui. L’obiettivo dei metodi gerarchici è quello di ottenere una sequenza di partizioni che possono essere rappresentate graficamente mediante una struttura ad albero chiamata dendrogramma, nella quale sull’insieme delle ordinate sono riportati i livelli di distanza,mentre sull’asse delle ascisse sono riportati i singoli individui (o unità). A ogni livello di distanza corrisponde una partizione,mentre ad ogni partizione corrispondono infiniti livelli di distanza compresi tra quelli che individuano due successive unioni o divisioni.
Molti metodi di analisi gerarchica sono caratterizzati da una struttura comune che si riflette in un algoritmo generale esplicitato come segue:
• Passo 1: A partire dalla matrice X originaria dei dati o dalla matrice scalata, si considera la matrice delle distanze D (o di similarità S) tra gli elementi considerati come singoli cluster contenenti un solo elemento.
• Passo 2: Si individuare la coppia di cluster meno distanti (o più somiglianti) e si raggruppano in un unico cluster; si calcola la distanza (o similarità) di questo cluster originato dall’agglomerazione di tutti gli altri gruppi già esistenti.
• Passo 3: Si costruire una nuova matrice di distanza (o di similarità) che risulterà essere ridotta di una riga e di una colonna rispetto a quella che precedente.
• Passo 4: Si lavora sulla matrice ottenuta, rieseguendo i passi 2 e 3 fino a esaurire tutte le possibilità di raggruppamento. Si ottiene una matrice 2x2. Ciò richiede n-1 iterazioni.
• Passo 5: Si rappresenta graficamente il processo di agglomerazione con un dendrogramma (asse ordinate i livelli di distanza, ascisse riportano le unità).
L’analisi gerarchica agglomerativa si esegue in R con la funzione
hclust (d,method=”complete”)
d : è un oggetto creato tramite la funzione dist();
method : seleziona il metodo gerarchico agglomerativo scelto.
Infatti ogni metodo gerarchico agglomerativo si differenzia dagli altri per il modo in cui si individuano i due cluster meno distanti (o più somiglianti) e per il modo in cui si determina la distanza (o similarità) che intercorre tra il cluster ottenuto e i rimanenti.
Rapporto sull’uso del cellulare in Italia MTAD
58
In base alle considerazioni precedenti method può assumere le seguenti opzioni:
1. “single” che indica il metodo del legame singolo (o semplice). 2. “complete” che indica il metodo del legame completo (o composto). 3. “average” che indica il metodo del legame medio. 4. “centroid” che indica il metodo del centroide. 5. “median” che indica il metodo della mediana.
Per ottenere il dendrogramma si impiega la funzione
plot(z,labels=NULL,hang=0.1,main=”Dendrogramma”,sub=”NULL”,xlab=NULL)
z : è un oggetto (output) creato dalla funzione hclust();
labels: etichette;
hang: altezza alla quale le etichette vengono visualizzate sotto il dendrogramma;
main, sub, xlab :sono comandi grafici.
Rapporto sull’uso del cellulare in Italia MTAD
59
Metodi gerarchici agglomerativi in dettaglio
Il metodo del legame singolo
Tale metodo assume come distanza tra i gruppi G1 e G2, la minima distanza tra coppie di elementi appartenenti ciascuna al gruppo G1 ed al gruppo G2.
d(G1, G2)= min d(xi ,xj) ∀ xi є G1 e ∀ xj є G2
La caratteristica principale del metodo descritto è la monotonia: la tipologia dei gruppi non cambia per qualsiasi trasformazione di d(ij).
Inoltre esso conduce alla formazione di clusters concatenati a causa dell’assenza di nuclei intorno ai quali tali clusters si sviluppano.
Il metodo del legame completo
Tale metodo assume come distanza tra i gruppi G1 e G2, la massima distanza tra coppie di elementi appartenenti ciascuna al gruppo G1 ed al gruppo G2.
d(G1, G2)= max d(xi ,xj) ∀ xi є G1 e ∀ xj є G2
Esso tende a produrre cluster senza alcun effetto di concatenamento. Come il metodo del legame semplice, anche il metodo del legame composto è invariante rispetto a trasformazioni monotone della distanza.
Il metodo del legame medio
Tale metodo assume come distanza tra i gruppi G1 e G2, la distanza media tra coppie di elementi appartenenti ciascuna al gruppo G1 ed al gruppo G2. L’algoritmo quindi è simile a quello descritto precedentemente tranne che nella diversa definizione della distanza.
d(Gi, Gj) �
�� �� ∑ ∑ �� , ��� є ���� є ��
Rapporto sull’uso del cellulare in Italia MTAD
60
Il metodo del centroide
Anche in questo caso si utilizza un algoritmo a stadi simile a quello visto precedentemente. Partendo da una matrice di distanze D, ad ogni stadio si fondono i gruppi più vicini; in questo caso si assume come distanza tra i gruppi qulla tra i loro centroidi (centri di gravità). Se per esempio ad un certo punto si hanno due cluster Gi e Gj contenenti rispettivamente ni e nj osservazioni, la distanza tra Gi e Gj è definita come:
d(Gi,Gj)= d(�� , �� )
avendo posto
�� = �
�� ∑ ��� є ��
e �� = �
�� ∑ ��� є ��
In questo caso è come se ogni volta che si forma un gruppo esso fosse sostituito dal suo centroide.
Il metodo della mediana
È simile a quello del centroide, con la differenza che la procedura è indipendente dalla numerosità dei cluster. Infatti, quando due gruppi si aggregano, il nuovo centroide è calcolato con la semisomma dei due centroidi precedenti. Il metodo della mediana così come il metodo del legame singolo può dare origine alla formazione di una catena tra gli elementi.
Come aiuto alla rappresentazione grafica del dendrogramma, sono state utilizzate oltre ovviamente a plot, ulteriori funzioni:
axis(side=4,at=round(c(0,hls$height),1)) : es. hls rappresenta output di hclust
che permette di costruire l’asse delle altezze alla destra del grafico arrotondando i numeri alla prima cifra decimale.
rect.hclust ()
che permette di disegnare rettangoli attorno ai cluster individuati.
cutree (tree ,k=NULL, h=NULL)
che permette di ottenere una suddivisione in cluster in corrispondenza di un determinato livello di distanza, o in corrispondenza di un prefissato numero di cluster; tree è l’output di hclust, k è il numero di cluster, h è l’altezza (livello di distanza:punto in cui i cluster si agglomerano) alla quale il dendrogramma viene tagliato. L’output di cutree è un vettore
Rapporto sull’uso del cellulare in Italia MTAD
61
che contiene numeri associati ai cluster in cui sono state inserite le varie unità (o individui).
Esecuzione
La prova pratica di esecuzione consiste nel cercare di raggruppare in cluster le zone che hanno molte somiglianze tra loro, e si confronteranno i risultati ottenuti dall’applicazione dei differenti metodi gerarchici agglomerativi. Il confronto lo si effettua analizzando i risultati attraverso i vari dendrogrammi creati, ciascuno per ogni metodo gerarchico agglomerativo. Un aiuto nel confronto è dato dall’evidenziazione, nei grafici, attraverso rettangoli colorati, di un certo numero di gruppi.
Verrà mostrato per ogni metodo applicato, anche l’output della corrispondente funzione cutree, la quale conterrà i numeri interi positivi associati ai cluster in cui sono state inserite le varie unità (in pratica si vedrà in quali cluster sono state inserite le varie nazioni). Con tale output vengono mostrati i risultati numerici osservabili dai dendrogrammi.
Scelto k=3 come parametro per la funzione rect.hclust(), vengono evidenziati tre gruppi contenenti ciascuno un certo numero di zone.
Rapporto sull’uso del cellulare in Italia MTAD
62
Risultati del metodo gerarchico agglomerativo del legame singolo
(Frequenza d’uso)
Risultati numerici
Nord-Occ Nord-Or Centro Sud Isole 1 1 2 3 3
Rapporto sull’uso del cellulare in Italia MTAD
63
Risultati del metodo gerarchico agglomerativo del legame completo
(Frequenza d’uso)
Risultati numerici
Nord-Occ Nord-Or Centro Sud Isole 1 1 2 3 3
Rapporto sull’uso del cellulare in Italia MTAD
64
Risultati del metodo gerarchico agglomerativo del legame medio
(Frequenza d’uso)
Risultati numerici
Nord-Occ Nord-Or Centro Sud Isole 1 1 2 3 3
Rapporto sull’uso del cellulare in Italia MTAD
65
Risultati del metodo gerarchico agglomerativo del centroide
(Frequenza d’uso)
Risultati numerici
Nord-Occ Nord-Or Centro Sud Isole 1 1 2 3 3
Rapporto sull’uso del cellulare in Italia MTAD
66
Risultati del metodo gerarchico agglomerativo della mediana
(Frequenza d’uso)
Risultati numerici
Nord-Occ Nord-Or Centro Sud Isole 1 1 2 3 3
Rapporto sull’uso del cellulare in Italia MTAD
67
Risultati del metodo gerarchico agglomerativo del legame singolo
(Motivi d’uso)
Risultati numerici
Nord-Occ Nord-Or Centro Sud Isole 1 1 2 3 3
Rapporto sull’uso del cellulare in Italia MTAD
68
Risultati del metodo gerarchico agglomerativo del legame completo
(Motivi d’uso)
Risultati numerici
Nord-Occ Nord-Or Centro Sud Isole 1 1 2 3 3
Rapporto sull’uso del cellulare in Italia MTAD
69
Risultati del metodo gerarchico agglomerativo del legame medio
(Motivi d’uso)
Risultati numerici
Nord-Occ Nord-Or Centro Sud Isole 1 1 2 3 3
Rapporto sull’uso del cellulare in Italia MTAD
70
Risultati del metodo gerarchico agglomerativo del centroide
(Motivi d’uso)
Risultati numerici
Nord-Occ Nord-Or Centro Sud Isole 1 1 2 3 3
Rapporto sull’uso del cellulare in Italia MTAD
71
Risultati del metodo gerarchico agglomerativo della mediana
(Motivi d’uso)
Risultati numerici
Nord-Occ Nord-Or Centro Sud Isole 1 1 2 3 3
Rapporto sull’uso del cellulare in Italia MTAD
72
Metodi non gerarchici
L’obiettivo dei metodi non gerarchici è quello di ripartire le n unità, in k cluster, ottenendo un'unica partizione finale. Con tali tecniche è possibile riallocare gli individui già classificati ad un livello precedente dell’analisi. In alcuni metodi non gerarchici di clustering si assume che il numero di cluster in cui suddividere l’insieme delle n unità sia fissato a priori, in altri si determina nel corso dell’analisi.
Il metodo non gerarchico utilizzato nella nostra analisi è il metodo di k-means, che consiste nei passi descritti nel seguente algoritmo:
• Passo 1: Si fissa a priori il numero k di cluster, specificando k punti di riferimento iniziali (k vettori delle caratteristiche) [scegliendo gli elementi o prendendo la configurazione determinata con una tecnica gerarchica] che inducono una prima partizione.
• Passo 2: Si considerano gli n-k elementi restanti e si attribuisce a ciascuno di essi il cluster da cui ha distanza minore dal punto di riferimento.
• Passo 3: Si calcola il centroide di ognuno dei k gruppi ottenuti, essi saranno i punti di riferimento per i nuovi cluster.
• Passo 4: Si valuta la distanza di ogni vettore delle caratteristiche da ogni centroide, ottenuto al passo precedente. Se la distanza minima non è ottenuta in corrispondenza del centroide del gruppo di appartenenza, allora si sposta l’individuo presso il cluster che ha il centroide più vicino.
• Passo 5: Si ricalcolano i centroidi dei k gruppi ottenuti. • Passo 6: Si ripete il procedimento a partire dal passo 4 fino a che i centroidi non
subiscono altre modifiche rispetto all’iterazione precedente. Si procede così iterativamente a spostamenti successivi fino a raggiungere una configurazione stabile, ossia gli elementi all’interno di ogni cluster non cambiano al ripetersi del procedimento.
Per garantire la convergenza della procedura iterativa, come misura di distanza tra i vettori delle caratteristiche e i centroidi viene utilizzata la distanza euclidea.
Esecuzione
Si è presa la configurazione ottenuta con una tecnica gerarchica, si sono dati all’algoritmo i campi per l’esecuzione, si elimina la prima colonna della matrice dei centroidi ottenuta con la funzione aggregate(), usando tali centroidi si applica il metodo k-means, il quale effettua una serie di iterazioni di controllo, vengono poi visualizzati i risultati ottenuti, e infine vengono rappresentati graficamente i cluster generati tramite k-means. Questo procedimento viene ripetuto per ogni configurazione ottenuta durante l’analisi attraverso i metodi gerarchici del precedente paragrafo, configurazioni che rappresentano le partizioni iniziali da dare in input, per l’applicazione poi di k-means.
Rapporto sull’uso del cellulare in Italia MTAD
73
(Frequenza d’uso)
Risultati numerici
Nord-Occ Nord-Or Centro Sud Isole 1 1 2 3 3
Rapporto sull’uso del cellulare in Italia MTAD
74
(Frequenza d’uso)
Risultati numerici
Nord-Occ Nord-Or Centro Sud Isole 1 1 2 3 3
Rapporto sull’uso del cellulare in Italia MTAD
75
(Frequenza d’uso)
Risultati numerici
Nord-Occ Nord-Or Centro Sud Isole 1 1 2 3 3
Rapporto sull’uso del cellulare in Italia MTAD
76
(Frequenza d’uso)
Risultati numerici
Nord-Occ Nord-Or Centro Sud Isole 1 1 2 3 3
Rapporto sull’uso del cellulare in Italia MTAD
77
(Frequenza d’uso)
Risultati numerici
Nord-Occ Nord-Or Centro Sud Isole 1 1 2 3 3
Rapporto sull’uso del cellulare in Italia MTAD
78
(Motivi d’uso)
Risultati numerici
Nord-Occ Nord-Or Centro Sud Isole 1 1 2 3 3
Rapporto sull’uso del cellulare in Italia MTAD
79
(Motivi d’uso)
Risultati numerici
Nord-Occ Nord-Or Centro Sud Isole 1 1 2 3 3
Rapporto sull’uso del cellulare in Italia MTAD
80
(Motivi d’uso)
Risultati numerici
Nord-Occ Nord-Or Centro Sud Isole 1 1 2 3 3
Rapporto sull’uso del cellulare in Italia MTAD
81
(Motivi d’uso)
Risultati numerici
Nord-Occ Nord-Or Centro Sud Isole 1 1 2 3 3
Rapporto sull’uso del cellulare in Italia MTAD
82
(Motivi d’uso)
Risultati numerici
Nord-Occ Nord-Or Centro Sud Isole 1 1 2 3 3
Rapporto sull’uso del cellulare in Italia MTAD
83
Conclusioni
Da quanto si è potuto evincere dall’analisi dei risultati dei metodi gerarchici è possibile notare come la struttura dei gruppi è quasi la stessa, infatti, la funzione rect.hclust(), mette in evidenza 3 gruppi contenente ciascuno sempre le stesse zone. Da questa analisi vediamo che la divisione geografica è netta anche per quanto riguarda questo “Rapporto sull’uso del cellulare in Italia” con una netta differenza tra Nord, Centro, e Sud (isole comprese), i cluster creati rappresentano appunto questa suddivisione, il primo che raggruppa la zona Meridionale e Insulare, il secondo, la zona Centrale, ed il terzo la zona Nord-Occidentale e Nord-Orientale. E’ da notare che il cluster della zona Centrale è molto vicino a quello della zona Nord, anziché a quello della zona sud.
Da quanto si è potuto evincere dall’analisi dei risultati del metodo non gerarchico k-means, applicato per ogni configurazione gerarchica iniziale data in input come partizione iniziale, si ottengono gli stessi gruppi ottenuti nell’analisi gerarchica.
I metodi gerarchici non consentono di modificare la configurazione raggiunta, ovvero una volta che un individuo è stato attribuito ad un cluster permane al suo interno per sempre. Il metodo non gerarchico del k-means, applicato usando una configurazione gerarchica iniziale, lo si deve preferire, poiché con esso è possibile riallocare gli individui già classificati ad un livello precedente dell’analisi, fino a che si vengono a formare gruppi stabili (ossia gli elementi non cambiano più gruppo). Risulta utile quindi combinare i metodi gerarchici e non gerarchici per verificare la stabilità dei gruppi.