Date post: | 01-May-2015 |
Category: |
Documents |
Upload: | orso-serafini |
View: | 214 times |
Download: | 2 times |
Analisi dei gruppi – Cluster Analisi dei gruppi – Cluster AnalisysAnalisys
Con analisi dei gruppi si definiscono molte tecniche di analisi multivariata
Obiettivo di queste tecniche è assegnare i casi (le unità) di una matrice di dati ad un numero ristretto di gruppi, massimizzando l’omogeneità all’interno dei gruppi e massimizzando l’eterogeneità tra i gruppi
Ciò è possibile attraverso l’uso di variabili discriminanti o variabili criterio e attraverso l’individuazione del metodo per arrivare a questa classificazione in gruppi.
Analisi dei gruppi (adg)Analisi dei gruppi (adg)La scelta delle variabili criterio sulle quali operare la
classificazione è il momento cruciale dell’adg
Sta al ricercatore scegliere le variabili adatte: il ricercatore deve fare ricorso alla sua conoscenza del fenomeno in esame.
A livello computazionale e matematico i software applicano tutte le tecniche di analisi multivariata generando dei risultati. Sta al ricercatore valutare se i risultati sono buoni e se la tecnica applicata porta dei miglioramenti per l’interpretazione del fenomeno.
Analisi dei gruppi (adg)Analisi dei gruppi (adg)A livello computazionale esiste una difficoltà di calcolo:
applicare una adg su una matrice di 1000/2000 unità e 200/300 variabili risulta poco possibile.
Per questo solitamente si opera una riduzione sulle variabili e si applica la adg sui risultati dall’analisi delle componenti principali o sui risultati dell’analisi delle corrispondenze multiple.
Se l’acm ha operato una riduzione delle variabili (passando da m variabili a pochi fattori, di solito 3 o 4), l’adg opera una riduzione sulle unità passando da n unità a k gruppi
Si raggiunge così la massima economia di rappresentazione dei risultati
Fasi dell’adgFasi dell’adg1) Scelta delle variabili con le quali discriminare i casi (le
unità)
2) Costruzione di una matrice di distanza (quadrata e simmetrica) dove si riportano tutte le distanze tra i casi.
3) Scelta della tecnica per aggregare i casi
4) Interpretazione di risultati
Ci sono centinaia di tecniche di aggregazione e possono essere usate anche diversi tipi di distanza.
Nelle tecniche classiche, l’assegnazione delle unità ai gruppi è univoca o mutuamente esclusiva (una unità appartiene ad un solo gruppo) ed esaustiva (ogni unità deve essere assegnata ad un gruppo)
Nelle tecniche basate sulla logica fuzzy gli insiemi possono essere sfocati e le appartenenze possono essere multiple.
Famiglie di tecniche di adgFamiglie di tecniche di adgLe varie tecniche che si possono utilizzare si basano su:
1. Il coefficiente usato per calcolare la matrice di distanza
2. Il criterio per la costruzione dei gruppi
La distanza tra i casi è calcolata soltanto sulle variabili inserite nell’analisi. La più comune distanza utilizzata per le variabili quantitative è la distanza euclidea.
Generalizzando la distanza euclidea tra due casi (due unità) rispetto ad un numero m di variabili si calcola come radice quadrata della somma di tutte le differenze tra i valori dei due casi per ogni m variabile
Proprietà della distanzaProprietà della distanzaAltre distanze, che sono leggere variazioni della distanza
euclidea sono la distanza di Manhattan, la distanza di Mahalanobis, la distanza di Minkovski.
In ogni caso la distanza ha le seguenti proprietà:
1. La distanza di una unità da se stessa è nulla
2. La distanza tra due casi è speculare (la distanza tra a e b è uguale alla distanza tra b e a)
3. Tra le distanze vale la disuguaglianza triangolare
Tecniche di classificazioneTecniche di classificazioneUna volta decisa la distanza si deve decidere la tecnica di
clustering da applicare. Si hanno tecniche gerarchiche e tecniche non gerarchiche
Le tecniche gerarchiche procedono:per aggregazioni successive partendo da n unità (n gruppi
di partenza) fino ad arrivare ad un gruppo unico che contiene tutte le unità. Un gruppo formato non si può più sciogliere - tecniche gerarchiche aggregative
per scissioni successive partendo da un gruppo unico che contiene tutte le unità fino ad arrivare a n gruppi (ossia alle n unità della matrice di dati) - tecniche gerarchiche scissorie
Tecniche gerarchiche Tecniche gerarchiche aggregativeaggregative1. Si costruisce la matrice delle distanza
2. Si considerano all’inizio n gruppi = n unità
3. Si aggregano i gruppi che risultano più vicini e, dopo ogni aggregazione, si ricalcola la matrice delle distanze
4. Si reitera il processo fino a n-1 volte, ossia fino a formare un unico gruppo
La rappresentazione grafica di questi passaggi si chiama dendogramma
Sarà il ricercatore a scegliere la partizione di gruppi migliore
Criterio di aggregazioneCriterio di aggregazioneI criteri di aggregazione possono essere di vario tipo: Criterio del legame singolo: dalla matrice delle distanze si
individuano i gruppi più vicini che si fondono insieme a formare un nuovo gruppo. Successivamente si ricalcola la matrice delle distanze in modo che contenga anche le distanze dei gruppi rimasti dal nuovo gruppo. La distanza tra il gruppo formato e i gruppi sarà data dalla distanza minore tra le distanze dei gruppi che si sono aggregati.
Criterio del legame completo: dalla matrice delle distanze si individuano i gruppi più vicini che si fondono insieme a formare un gruppo. Successivamente si ricalcola la matrice delle distanze in modo che contenga anche le distanze dei gruppi rimasti dal nuovo gruppo. La distanza tra il gruppo e i gruppi sarà data dalla distanza maggiore tra le distanze dei gruppi che si sono aggregati.
Criterio di aggregazioneCriterio di aggregazioneI criteri di aggregazione possono essere di vario tipo: Criterio del legame medio: dalla matrice delle distanze si individuano
i gruppi più vicini che si fondono insieme a formare un gruppo. Successivamente si ricalcola la matrice delle distanze in modo che contenga anche le distanze dei gruppi rimasti dal nuovo gruppo. Per determinare la distanza tra i gruppi si calcola la media delle distanze tra tutte le coppie (considerate una sola volta) di casi che appartengono ai gruppi.
Es. gruppo formato da AB e gruppo formato da CD, la distanza sarà la media tra le distanze (A da C), (A da D), (B da C), (B da D).
Criterio di aggregazioneCriterio di aggregazione Criterio della media dentro i gruppi: unisce i gruppi facendo si che la
distanza media tra tutti i casi a due a due interni ad un gruppo sia la minore possibile.
Criterio della mediana: calcola la mediana all’interno di ogni gruppo; la distanza tra i gruppi è pari alla distanza tra le mediane dei gruppi
Criterio di Ward: ogni nuova aggregazione porta una aumento della varianza per ogni variabile. Si aggregano quindi i casi che minimizzano questo incremento di varianza.
Criterio del centroide: per ogni gruppo si calcola il centroide (baricentro) che è la media delle coordinate di tutti i casi che fanno parte del gruppo: si calcola la distanza tra i centroidi.
Vantaggi e svantaggi tecniche Vantaggi e svantaggi tecniche gerarchichegerarchiche
Danno una visione di insieme dei casi
Non richiedono una scelta a priori del numero di gruppi, posso scegliere in un secondo tempo il numero
Non possono trattare gran numero di casi
Non è possibile scindere i gruppi una volta che si sono formati
Tecniche di aggregazione non Tecniche di aggregazione non gerarchichegerarchiche
Le tecniche non gerarchiche, dette anche a partizioni ripetute, conducono direttamente da n casi a k gruppi, con k fissato a priori. Si possono usare tecniche migliorative di riallocazione delle unità.
Il ricercatore stabilisce a priori la partizione iniziale, imponendo i centri dei gruppi iniziali. Se la nuvola di punti unità presenta dei cluster naturali (cioè dei gruppi separati tra loro) è facile definire e indicare i gruppi di partenza. In caso contrario (solitamente il più frequente) si possono scegliere casualmente i centri di partenza. Se non esistono cluster naturali è meglio procedere con delle tecniche esplorative iniziali per vedere le relazioni tra i gruppi.
Tecniche di aggregazione non Tecniche di aggregazione non gerarchichegerarchiche
Le tecniche per spostare casi da un gruppo all’altro sono: Tecniche di aggregazione intorno a centri mobili (o k-medie): si calcolano
i centroidi dei gruppi e si spostano via via le unità che si trovano più vicine ad un centroide di un altro gruppo. Il procedimento di interrompe quando non ci sono più spostamenti.
Tecniche delle nuvole dinamiche: è simile al precedente soltanto che invece di definire il gruppo con un solo punto, ossia il centroide, si definisce il gruppo in base ad un nucleo centrale costituito da più casi e individuato a priori perché significativo del gruppo.
Tecniche che si basano sull’ottimizzazione di una funzione obiettivo: si realizzano gli spostamenti tra unità nei gruppi fino a quando si registra un miglioramento nella funzione obiettivo. Le funzioni obiettivo servono a costituire gruppi il più possibile omogenei al loro interno, ossia dove sia minima la varianza, mentre sia massima l’eterogeneità tra i gruppi e quindi la varianza tra i gruppi (la varianza totale del collettivo esaminato è data dalla varianza interna ai gruppi più la varianza esterna)
Vantaggi e svantaggi tecniche non Vantaggi e svantaggi tecniche non gerarchichegerarchiche
Possono trattare grandi matrici di dati
Bisogna determinare a priori il numero di gruppi
operativamenteoperativamenteQuando si ha una matrice di dati in cui le unità non sono gli
individui ma sono ad esempio, le regioni, i comuni, gli stati ecc. si parla di dati su unità ecologiche e si parla di tipologie macro. Il ricercatore ha in questo caso molte notizie in più che possono indirizzarlo nell’analisi
Quando si ha una matrice di dati in cui le unità sono gli individui si parla di tipologia micro.
La lettura micro e macro dei risultati è leggermente diversa
Lettura dei risultatiLettura dei risultatiPer ogni gruppo si individuano: a livello macro - le unità che
ne fanno parte; a livello micro – la % di individui nel gruppo
Si individuano per ogni gruppo le caratteristiche peculiari del gruppo attraverso le seguenti frequenze:
La percentuale Mod/Cla cioè la % che esprime il numero di casi che presentano la modalità all’interno del gruppo in riferimento al numero di casi nel gruppo;
La percentuale Cla/Mod cioè la % che esprime il numero di casi che presentano la modalità all’interno del gruppo in riferimento a quanti la presentano nel collettivo totale;
La percentuale Global cioè la % della modalità nel collettivo.