+ All Categories
Home > Documents > C.I. Analisi dei dati motori e sportivi Modulo: Metodi ... · C.I. Analisi dei dati motori e...

C.I. Analisi dei dati motori e sportivi Modulo: Metodi ... · C.I. Analisi dei dati motori e...

Date post: 15-Feb-2019
Category:
Upload: vuongnhu
View: 219 times
Download: 0 times
Share this document with a friend
85
C.I. Analisi dei dati motori e sportivi Modulo: Metodi epidemiologici (per Classe 33: Raccolta ed organizzazione dei dati) Anno Accademico 2009/2010 Corso di Laurea Triennale in Scienze Motorie Prof. Giovanni Capelli (Dr. Bruno Federico) Facoltà di Scienze Motorie Università di Cassino - [email protected]
Transcript

C.I. Analisi dei dati motori e sportivi

Modulo: Metodi epidemiologici

(per Classe 33: Raccolta ed organizzazione dei dati)

Anno Accademico 2009/2010

Corso di Laurea Triennale in Scienze Motorie

Prof. Giovanni Capelli (Dr. Bruno Federico)

Facoltà di Scienze Motorie

Università di Cassino - [email protected]

La raccolta dei dati con un questionario

Formato finale del questionario

• usare carta resistente

• usare un formato libro

• assegnare un numero codice ad ogni questionario

• assegnare ad ogni domanda un numeroprogressivo

• lasciare spazio sufficiente tra i quesiti

• non spezzare le domande tra due pagine

• usare caratteri di stampa diversi per le istruzioni,le domande e le relative risposte

• evidenziare con vari artifici le parti più importantidelle domande

Il formato grafico

• Nell’elaborazione di un questionario, vannoconsiderate le esigenze di due persone:

La persona che compilerà il questionario

Semplicità, chiarezza

La persona che elaborerà l’informazione raccolta

• La persona che compilerà il questionario hala precedenza

• Le stesse regole di semplicità e chiarezzavalgono per:

Interviste strutturate

Moduli per l’estrazione dei dati

Il formato grafico

• Lasciare spazio sufficiente tra i quesiti

• Non spezzare le domande tra due pagine

• Le domande vanno scritte in grassetto

• Le categorie di risposte vanno scritte concarattere normale

• Le istruzioni vanno scritte in corsivo

• Per le domande chiuse la risposta vienefornita ponendo un segno sul codicecorrispondente

• Per le domande aperte le risposte vannoinserite nello spazio previsto

Un esempio di questionario

Definizione delle risposte possibili

• Le risposte devono essere esaustive emutuamente esclusive

• In alcuni casi la domanda non può essererivolta

• In altri, la domanda è posta, ma la personanon risponde

• In altri ancora, la persona risponde “Nonso”

Variabili categoriche

• Evitare l’inserimento di testo

• È conveniente utilizzare dei codici numericiper le variabili categoriche

Questi codici vanno definiti primadell’inserimento dei dati

Variabili categoriche: risposte

Variabili categoriche: domande

Variabili categoriche: risposte

Variabili numeriche

• Evitare di raccogliere informazioniaggregate per le variabili numeriche

Per chi risponde è altrettanto agevole indicarel’età piuttosto che scegliere tra una serie diclassi d’età pre-definite

È ancora meglio raccogliere anno e mese dinascita, così saremo in grado di calcolareagevolmente l’età del rispondente a qualsiasidata

Variabili numeriche: risposte

Fattori che influenzano la formulazione di un questionario

1. Chi deve compilare il questionario

* Autocompilazione

* Intervistatori

2. Quanti argomenti “delicati” devono essere affrontati

* Argomenti complessi

* Argomenti imbarazzanti

* Argomenti che possono offendere

3. Quanti soggetti devono essere intervistati

4. Quante variabili devono essere indagate

* Lunghezza del questionario

1. Chi deve compilare il questionario

Autocompilazione

Il soggetto al quale viene consegnato ilquestionario potrà:

• Segnare caselle

• Cerchiare risposte

• Scrivere numeri o testo

Intervistatori

Agli intervistatori viene in genere richiesto di:

• Cerchiare risposte

• Scrivere numeri in apposite caselle

2. Il contenuto

Il soggetto che compila il questionario potrà:

• Seguire istruzioni semplici

• Saltare gli argomenti “difficili”

• Non completare il questionario

Ma gli intervistatori dovrebbero sempre:

• Seguire le istruzioni semplici

• Fare le domande “difficili”

• Compilare, se possibile, tutte le risposte

3. La numerosità del campione sul quale si esegue l’indagine

A. Su piccoli campioni (studi pilota, studi ad hoc) sipuò prendere in considerazione anche la raccoltadi dati che presentano problemi di codifica:

* Risposte testuali aperte

* Risposte multiple (es. “tutti i mestieri che hai fatto nella

vita”)

B. Su grandi campioni (studi di popolazione,questionari spediti per via postale) è necessario:

* Far scegliere tra più opzioni chiuse precodificate

* Inserire un codice “altro” per le eccezioni

* Ridurre al massimo i “salti condizionati”

(es. se Maschio vai alla domanda X, se Femmina vai alla

domanda Y)

* Ridurre al massimo il testo

Regole da seguire nel formulare domande individuali

• Utilizzare differenti caratteri per differenti sezioni di diversedomande

es. maiuscolo per la domanda, neretto per le risposte alternative,corsivo per le istruzioni

• Aggiungere specifiche istruzioni e suggerimenti (per gliintervistatori) a ciascuna domanda

• Usare il formato verticale per la risposta

• Pre-codificare tutte le domande a risposta chiusa

• Utilizzare sempre lo stesso numero di codice per particolaricategorie di risposte

• Individuare le risposte alle domande a risposta chiusacircondando il numero di codice o la risposta alternativa

• Riservare spazi o caselle per le domande a risposta aperta

• Considerare la fruibilità dei formati per l’input su calcolatore

ad es. spostare i codici di risposta contro il margine destro della pagina

Informazioni da inserire nel foglio introduttivo dei questionari

• Struttura della ricerca

• Nome dell’ intervistatore (o del direttore dello studio nellericerche che utilizzano questionari per posta)

• Argomento dello studio

• Sponsor

• Riservatezza

• Anonimato

• Scopo della ricerca

• Uso dei dati raccolti

• Tecnica di campionamento

• Lunghezza dello studio

• Partecipazione volontaria

• Dimensione del campione

• Richiesta di consenso

Verifica e fasi finali della messa a punto di un questionario

• Correggere la prima bozza del questionario

• Somministrare il questionario a un campione facilmente accessibile parenti amici, colleghi, voi stessi

• Fornire le istruzioni per l’uso e addestrare gli intervistatori medianteun test pilota Se ci sono dei problemi, vanno risolti in questa fase

• Testare il questionario su un campione di 20-50 personerappresentativo della popolazione a cui appartengono i soggetti daesaminare

• Raccogliere le osservazioni degli intervistatori e degli intervistati,possibilmente per iscritto

• Correggere le domande che mettono in difficoltà

• Ripetere il test e rivedere gli eventuali punti critici

• Elaborare corrette istruzioni e preparare gli intervistatori per l’avviodello studio Se emergono altri problemi effettuare un’ulteriore revisione.

• Seguire attentamente le prime fasi dello studio ed esser pronti aulteriori modifiche, se necessario

Struttura di un archivio dei dati

Concetti di base

• Unità statistica

Minima unità da cui si raccolgono i dati in unaindagine

Individuo

Famiglia

Regione

Squadra

Gara

• Variabile

Caratteristica che può assumere valori diversi nellediverse unità statistiche

Altezza dei bambini di una classe

Peso degli atleti

Età dei pazienti di una clinica

Concetti di base

• ModalitàValore assunto da una variabile in una

determinata unità statistica

Individuo Peso

Giorgio 80 kg

Mario 75 kg Modalità

Roberto 77 kg

Tipo di variabili

• Le variabili si possono distinguere in duegruppi

Variabili numeriche

Discrete: es. n° figli, n° volte/die

Continue: es. peso, altezza, …

Variabili categoriche

Binomiali: es. genere

Nominali: es. tipo di sport, etnia

Ordinali: gravità del sintomo, titolo di studio

Organizzazione dei dati

• I dati raccolti in uno studio devono essereorganizzati in maniera razionale

• Ogni riga rappresenta un’unità statistica

• È importante avere un codiceidentificativo univoco per ogniosservazione (variabile id)

Organizzazione dei dati

• Ogni colonna riporta i diversi valori di unavariabile

Uso di un codice identificativo

• Il codice identificativo è la “chiave” chepermette di collegare le informazioniraccolte con i dati personali dell’individuo

• È univoco, ovvero ne esiste solo uno perogni soggetto

• Il codice identificativo deve essere inseritosia sul modulo di raccolta dati (es. sullaprima pagina del questionario) chenell’archivio dei dati

Privacy

• Legge sulla privacy 196/2003

• I dati sanitari sono dati “sensibili”

• Bisogna adoperare delle precauzioni perevitare di diffondere queste informazioni

• È conveniente utilizzare un codiceidentificativo univoco, che non ha nessunsignificato al di fuori del progetto di lavoro

• Una volta assegnato il codice identificativo idati personali possono essere rimossi econservati separatamente

La legenda

• La legenda è il collegamento tra ilquestionario ed i dati inseriti nel computer

• Durante l’analisi dei dati le variabili vengonorichiamate per nome

Devono avere un nome breve

Se le variabili registrate sono poche è megliousare un nome che aiuti nel ricordare la variabile

Se le variabili registrate sono molte (es. unquestionario con centinaia di domande) è megliousare nomi che derivano dal numero delledomande nel questionario (q1, q2, q3, …)

La legenda

Etichette delle variabili

• Alcuni software statistici consentonol’impiego di etichette per le variabili

storage display value

variable name type format label variable label

------------------------------------------------------------------

idnum int %3.0f cod. identificativo

datanas long %d data di nascita

artodom byte %1.0f lbl arto dominante

Etichette dei valori

•Alcuni software statistici consentonol’impiego di etichette dei valori nelcaso di variabili categoriche

. tabulate artodom, nolabel

arto |

dominante | Freq. Percent Cum.

------------+-----------------------------------

1 | 305 84.49 84.49

2 | 47 13.02 97.51

3 | 9 2.49 100.00

------------+-----------------------------------

Total | 361 100.00

Etichette dei valori

• Alcuni software statistici consentonol’impiego di etichette dei valori nel casodi variabili categoriche

. tabulate artodom

arto |

dominante | Freq. Percent Cum.

------------+-----------------------------------

destro | 305 84.49 84.49

sinistro | 47 13.02 97.51

ambidestro | 9 2.49 100.00

------------+-----------------------------------

Total | 361 100.00

La gestione dei dati

Problemi nella gestione dei dati

• Quando si raccolgono, utilizzano econservano dei dati, si possono verificare:

Errori

Perdita di tempo

Perdita di informazioni

Inserimento dei dati

• Per piccoli set di dati, si possono inserire i datiraccolti in un foglio di lavoro di Excel, ma, congrandi dataset, questo sistema diventa complesso esuscettibile di errori

Inserimento dei dati

• È meglio usare un programma di “Data-entry”

• Prima di inserire i dati va definita la legenda

• Una frequente forma di errore è che la rispostagiusta viene registrata nella domanda sbagliata

La risposta sull’arrossamento “dietro le ginocchia”viene registrata nel campo “sulle caviglie”

• Non inserire i dati tutti insieme

• Inserire i dati due volte

Correggere poi gli errori in entrambi gli archivi

• Una volta scoperto un errore, controllare i valorivicini

IL DATA ENTRY: Obiettivi

• Ottenere archivi che contengano datitrattabili con facilità: numeri

categorie numerate

date

• Importare i dati da un formato compatibilecon il package statistico a disposizione: da formati di altri pacchetti statistici

da files di database

dai quali possono ereditati i nomi dei caratteristatistici e le relative proprietà

da testo ASCII

Creazione di variabili derivate

• E’ opportuno evitare di fare calcoli primadel data-entry

• Potremo in seguito costruire delle nuovevariabili a partire dai dati elementariregistrati nel questionario

Indice di massa corporea, es.:

Un bambino di 10 anni, Peso=43 kg Altezza=1,43 m

43 kg

(1,43 m)2IMC = = 21 kg/m2

DATA ENTRYRequisiti di un buon programma dedicato (1)

• Riprodurre la scheda di inserimentoinformatica in modo simile alla schedacartacea;

• Permettere la visualizzazione sullo schermodi domande e risposte;

• Offrire un aiuto su schermo;

• Applicare dei check sulle variabili in entrata;

• Applicare dei salti condizionati (p.e: i maschisaltano domande specifiche per le donne)

DATA ENTRYRequisiti di un buon programma dedicato (2)

• Controllare il rendimento del data entry;

• Ridurre i costi di stampa e di accumulo di carta;

• Applicare delle regole definite per la codifica dei dati missing

• Essere “failure safe” (archiviare ogni record inserito su disco)

DATA ENTRY: Metodo 1 - Il doppio Input

• I dati sono introdotti da due diversi staffseparatamente. E’ possibile evidenziare le differenze e correggerle

• L’input dei dati può essere effettuato dapersonale non specializzato; E’ un metodo veloce

I dati rispecchiano esattamente la copia cartacea

E’ il “golden standard” per i dati testuali, dove non èpossibile altra validazione

Se la versione cartacea è errata, la copia informatica èerrata

E’ necessario il doppio del personale

DATA ENTRY: Metodo 2 - Check automatico in inserimento

• Un apposito programma costruito per questafase si occupa di effettuare numerosi controllidi congruità sui dati all’ atto del loroinserimento;

• L’input dei dati può essere svolto da personaledi segreteria;

• Viene usato nei dipartimenti governativianglosassoni I dati vengono “puliti” al momento e sono inseriti nell’

archivio

Si richiede un supervisore per correggere errori o rispostenon previste in anticipo

Richiede una attività di programmazione complessa estrutturata

DATA ENTRY: Metodo 3 - Controllo dati ad inserimento avvenuto

• Il programma di data entry effettua pochicontrolli di congruità;

• L’input dei dati viene svolto da una personaappositamente pagata: che capisce i dati, e quindi si accorge dei dati errati o

“strani”

• E’ utilizzato negli studi epidemiologici Non serve personale di segreteria

Il programma di data entry è semplice da approntare

I dati vanno controllati prima dell’analisi

In caso di risposte non previste, questo sistema sipresta ad interpretazioni “estemporanee” da parte dichi realizza questa fase

DATA ENTRY: Metodo 4 - Formati a riconoscimento ottico

• Le risposte sono segnate su un formato agriglia, predisposto per la lettura automaticacon uno scanner;

• E’ richiesto personale che verifichi ilfunzionamento in acquisizione del calcolatore;

• E’ utilizzato per la richiesta di esami dilaboratorio Non c’ è data entry manuale

Sono spesso necessarie molte correzioni

Ci sono limitazioni sul tipo di dati acquisibili (difficileacquisizione per i dati testuali)

I compilatori della scheda prestampata devono esseremotivati

E’ un metodo costoso

DATA ENTRY: Metodo 5 - Interviste guidate dal computer

• Le risposte al questionario vengono digitate nelcomputer durante l’intervista;

• E’ utilizzato da intervistatori pagati ad intervista;

• E’ utilizzato per ricerche di mercato Data entry e validazione possono essere contestuali

E’ possibile strutturare il questionario in modo complesso

Permette un campionamento all’interno dell’intervista

Rafforza i codici validi

Permette il controllo della resa dell’intervistatore

Non esiste una copia cartacea

Non possono essere inseriti commenti non previsti

E’ un metodo costoso

La programmazione sul computer può essere moltocomplessa

VALIDAZIONE DEI DATI

• L’ obiettivo del processo di validazione inizialedei dati raccolti e’ di effettuare controlli su: gli errori di digitazione;

le risposte che potrebbero essere errate;

gli errori sistematici legati agli intervistatori;

gli errori di progettazione o di programmazione;

• L’ azione di revisione dei dati nel dettaglio puòessere svolta direttamente se le unitàstatistiche rilevate sono poco numerose,mentre per la revisione dei dati di campionipiù numerosi è necessario un programmacomputerizzato;

VALIDAZIONE DEI DATIGli Errori

• Per ogni domanda, il dato archiviato deve avere di lunghezza inferiore o pari alla massima consentita;

appartenere al tipo previsto

essere coerente con le proprietà del dato;

appartenere ad una delle categorie predefinite o essere contenutoall’interno di un range di valori possibili;

sempre presente, se definito come indispensabile;

• Nella stessa intervista, una risposta dovrebbe essere coerente con le precedenti domande;

compilata solo se coerente con il “pattern di scavalcamento”definito;

• Tra diverse interviste, le risposte dovrebbero essere coerenti con le risposte precedenti;

VALIDAZIONE DEI DATI

Le “tracce sospette”•Dobbiamo sospettare un errore nella fase diraccolta o di data entry se:

la risposta è:

troppo arrotondata o vicina ai limiti min o max

manca senza un preciso motivo

le risposte della stessa intervista:

seguono un pattern preciso

– sono messe in serie, senza leggerle?

non seguono alcun pattern

– sono messe a caso?

sono troppo perfette

– sono indotte dall’intervistatore

– sono “aggiustate” ad arte?

Dati “DIFFICILI”

• Quali dati ci danno problemi?

Testi liberi

Definire categorie a cui riportare ogni risposta– questa fase può essere svolta a mano o con l’ ausilio di programmi al

calcolatore

Dati mancanti o non accettabili: possibili strategie

Omettere dall’ analisi i dati mancanti

Considerare “mancante” come una categoria a parte

Ricostruire valori da attribuire

Attribuire ai dati mancanti il valore minimo prima emassimo poi e svolgere due analisi separate

In ogni caso è importante sempre documentare lestrategie scelte nella gestione dei testi liberi e dei dati“missing”

Dati mancanti o non accettabili

Metodo 1 - Ometterli

• Assunto di base: il dato viene considerato superfluo, privo di potenziale

informativo

• Vantaggi soluzione rapida e facile;

• Svantaggi non si usano tutti i dati;

si introduce un errore se l’assenza non è casuale;

non si cerca di spiegare il perchè dei dati mancanti;

incoraggia le estrapolazioni indebite;

gli intervalli di confidenza si allargano se il datomancante è frequente

perchè è ridotto il numero delle unità statisticheconsiderate nel calcolo

Dati mancanti o non accettabili

Metodo 2 - Il dato “mancante” è una categoria

• Assunto di base: il dato non è superfluo, se manca c’ è un motivo

rilevante

• Vantaggi soluzione rapida e facile;

si cerca di spiegare il perchè delle non compilazioni;

si usano tutti i dati raccolti;

• Svantaggi non si possono applicare tutte le tecniche statistiche;

crea grossi problemi nel calcolo di score complessivi;

Dati mancanti o non accettabili

Metodo 3 - Ricostruire valori da attribuire

• Assunto di base: è possibile stimare i dati mancanti sulla base di un

modello logico o matematico

• Il rischio di giungere a stime sbagliate èdiverso se si fa riferimento a: plausibilità logica ;

risposte su altre domande di argomento affine o analogo;

interdipendenza tra le risposte;

modello presupposto: probabilità condizionata arisposte note

indici di tendenza centrale;

modello presupposto: costanza tra più compilatori

Dati mancanti o non accettabili

Metodo 3 - Ricostruire valori da attribuire

• Vantaggi si cerca di spiegare il perchè delle non compilazioni;

si usano tutti i dati raccolti;

permette di applicare metodi statistici complessiutilizzando tutte le unità statistiche;

Svantaggi nasconde il valore mancante iniziale

introduce errore se il dato mancava non per caso

perchè si è assimilato quel soggetto agli altri

è necessario realizzare calcoli complessi

scoraggia lo studio dei motivi alla base delle noncompilazioni

Dati mancanti o non accettabili

Metodo 4 - L’ analisi di “scenario”

• Assunto di base il valore non è più estremo di quelli rilevati in altri soggetti

• Metodo si costruiscono due set di dati, nei quali vengono attribuiti:

nel primo a tutti i mancanti il valore minimo rilevato;

nel secondo a tutti i mancanti il valore massimo rilevato;

si studiano separatemente i due set di dati (“scenari”);

le conclusioni vere si presuppone staranno nel mezzo;

• Vantaggi permette di applicare metodi statistici complessi utilizzando

tutte le unità statistiche;

• Svantaggi doppia elaborazione necessaria;

risultati molto dispersi se il range min-max dei valori noti èampio;

Documentare i passi svolti

• E’ fondamentale scrivere un documento che

testimoni i principali passaggi svolti nel

processo:

la raccolta dei dati;

il metodo di inserimento utilizzato;

la qualità dell’inserimento (errori trovati nella

validazione);

quantità e qualità dei dati missing;

gestione dei dati missing e dei dati testuali;

descrizione dei files utilizzati nel processo (nomi, tipo,

date e dimensione); backup;

Back-up ed archiviazione

• Obiettivo del back up è quello di essere ingrado di recuperare i dati ed i documenti incaso di distruzione o perdita di dati

È un’attività da svolgere di routine

• L’archiviazione ha luogo una o poche voltenell’arco della vita di un progetto

Ricerca degli errori

• Fai una stampa di:

Legenda

Elenco delle variabili

Tabelle di frequenza delle variabili

• Confronta la legenda originale con quelladerivata dai dati inseriti

• Osserva le tabelle per evidenziare valoriimprobabili, massimo e minimo

• Osserva il numero delle osservazioni

• Osserva se sono presenti dati incoerenti

Maschi in gravidanza

Ricerca degli errori

• Una volta identificati valori sospetti, elencai dati con il corrispondente id e controlla sesono corretti

• Se ci sono dati incoerenti (maschi ingravidanza)

Ricodifica i valori a valori mancanti

• Se ci sono dati mancanti

A volte puoi dedurre questi valori da altreinformazioni per lo stesso soggetto (data imput)

Es. donna, con tre figli di 19, 6 e 1 anno– Età??

Unione di archivi di dati

• Se hai raccolto dati sugli stessi soggetti inmisurazioni successive, puoi unire i duefiles corrispondenti

merge

• Se hai raccolto informazioni su altrisoggetti in un secondo momento, puoiunire i due files corrispondenti

append

Strutture dei database

• Modelli logici

Modello Gerarchico

Modello Reticolare

Modello Relazionale

• Modelli concettuali

Il modello Entità-Relazione

Strutture dei databaseEncyclopedia Britannica, Information processing and information systems, 1994

• Gerarchica

i record sono organizzati in uno schema simile adun albero genealogico, ed i record sono legati unoall’altro dall’alto verso il basso

le relazioni sono mantenute attraverso deipuntatori (identificatori quali indirizzi o codicichiave) che sono parte del record

• Reticolare

• Relazionale

• Gerarchica

• Reticolare

i record sono organizzati in gruppi noti come set

ogni set può essere collegato agli altri in moltimodi, attraverso puntatori

• Relazionale

Strutture dei databaseEncyclopedia Britannica, Information processing and information systems, 1994

• Gerarchica

• Reticolare

• Relazionale

consiste in più tabelle bidimensionali (o matrici)

è semplice, è dotato di basi teoriche (algebrarelazionale), non utilizza i puntatori per mantenerele relazioni

Strutture dei databaseEncyclopedia Britannica, Information processing and information systems, 1994

Il database relazionale

• Tipologie di relazioni fra tabelle deldatabase:

uno ad uno: per ogni record della Tabella A èpresente uno e un solo record della Tabella B

uno a molti: per ogni record della Tabella Apossono essere presenti n record della Tabella B

Corso di perfezionamento “Statistica ed informatica per le aziende sanitarie”

Identificativoprimario

ICD9CM procedureCodice proceduraDescrizione procedura

1molti

Il database relazionale

Un esempio di database relazionale:

AnagraficaID pazienteCognomeNomeSessoData di nascitaLuogo di nascitaLuogo di residenza

RicoveriID ricoveroID pazienteData ingressoData dimissioneReparto di DimissioneDiagnosi principaleProcedura principaleDRG

ICD9CM DiagnosiCodice diagnosiDescrizione diagnosi

1

molti

1

molti

• Vincoli del sistema relazionale:

Il database relazionale

AnagraficaID pazienteCognomeNomeSessoData di nascitaLuogo di nascitaLuogo di residenza

RicoveriID ricoveroID pazienteData ingressoData dimissioneReparto di DimissioneDiagnosi principaleProcedura principaleDRG

1

molti

Quando si inserisce un record nella tabella ricoveri che fa riferimento ad un record della tabella anagrafica quest’ultimo record non può più essere cancellato, nè può essere modificato l’ID primario

Modello entità-relazione: alcuni costrutti principali

• Entità: classi di oggetti chehanno proprietà comuni edesistenza “autonoma” aifini dell’indagine

• Relazione: un legamelogico, significativo perl’analisi, tra due o piùentità

Paziente ServizioEsame

Modello entità-relazione: alcuni costrutti principali

• Attributo: Descrive proprietà elementari di

entità o relazioni di interesse ai fini dell’analisi

un attributo associa a ciascunaoccorrenza di entità (studio di una unitàstatistica) un valore appartenente ad uninsieme, detto dominio dell’ attributo, checontiene i valori ammissibili (Modalità)

può essere semplice o composto

Paziente

Cognome

Età

Indirizzo

Via

CAP

Modello entità-relazione: alcuni costrutti principali

• Cardinalità delle relazioni: per ciascuna

entità che partecipa alla relazione descrivonoil numero minimo e massimo di occorrenzedi relazione a cui le occorrenze delle entitàcoinvolte possono partecipare

es. Da 3 a 5 chirurghi compongono unaequipe operatoria, che può svolgere inuna giornata da nessuno a 4 interventi

Chirurgo InterventoEquipe

(min,max)

(3,5) (0,4)

Cardinalità di relazioni: tipi principali

Richiesta esame

RefertoEsecuzione

(0,1) (1,1)

Paziente CittàResidenza

(1,1) (0,N)

Paziente OspedaliRicovero

(1,N) (0,N)

Uno a uno

Uno a molti

Molti a molti

Unione di archivi di dati

• Se hai raccolto dati sugli stessi soggetti inmisurazioni successive, puoi unire i duefiles corrispondenti

Unione di archivi di dati

• Se hai raccolto informazioni su altrisoggetti in un secondo momento, puoiunire i due files corrispondenti

Architetture di Database

• Modello singolo utente Stand Alone

• Modello multiutente

Client-server

Il database Stand Alone

Il database risiede fisicamente sulla

memoria di massa di un calcolatore e può

essere utilizzato soltanto da un utente alla volta e soltanto su

quel calcolatore

Il database Stand Alone

• Vantaggi

economico

legato alla potenza di calcolo del calcolatorelocale

• Limiti

single-user

Il database multiutente

• Il database risiede sulla memoria di massa diun calcolatore collegato in rete;

• lo stesso database può essere utilizzato da piùutenti contemporaneamente;

Database

Il database multiutente

• Vantaggi:

si può utilizzare il database in contemporanea su piùcalcolatori

la velocità di funzionamento è funzione della potenzadi calcolo dell’elaboratore locale e dell’ampiezza dibanda della rete;

Il database multiutente

• Vincoli:

il database deve essere progettato per lamultiutenza

generazione di lock sui record modificati

tutti gli utenti debbono avere accesocompleto (RW-) ad file del database

rischi per la sicurezza– cancellazioni involontarie o dolose

– corruzione del file in caso di crash di uncalcolatore

• Il database risiede fisicamente sulla memoria dimassa di un calcolatore detto SERVER

• l’unico software che accede fisicamente aldatabase è il SERVER DI DATABASE

• i calcolatori periferici (CLIENT) non accedonofisicamente al file, ma interrogano il server, che,accedendo al file, processa la richiesta e forniscela risposta al client

L’ architettura server-client

L’ architettura server-client

Database

Server

Client

Richiesta di datial server

Accesso fisicoal database

Risposta al clientcon invio dei dati richiesti

L’ architettura server-client

• Vantaggi

si può utilizzare il database in contemporanea supiù calcolatori, anche connessi in rete geografica

l’utente non deve avere accesso (neanche in R--) alfile del database

i calcolatori client posso avere risorse limitate

il rischio di corruzione del file è associato al solomalfunzionamento del server

L’ architettura server-client

• Vincoli

il database deve essere specificamenteingegnerizzato per questa architettura

la velocità di risposta è funzione:

della banda passante della rete

della potenza dell’elaboratore server

del numero di accessi contemporanei al server

il fermo macchina del server rende inservibiletutto il sistema di database

L’ architettura server-client

• Database in architettura client-servercommerciali

Oracle (es. GISS…)

SQL Server

Sybase

Informix

Mumps

Esercitazione

• Immagina di raccogliere dati con unquestionario sulle abitudini di vita deglistessi soggetti in 4 diverse stagionidell’anno. I soggetti sono residenti in cittàdiverse.

Come si può strutturare un databaserelazionale?


Recommended