C.I. Analisi dei dati motori e sportivi
Modulo: Metodi epidemiologici
(per Classe 33: Raccolta ed organizzazione dei dati)
Anno Accademico 2009/2010
Corso di Laurea Triennale in Scienze Motorie
Prof. Giovanni Capelli (Dr. Bruno Federico)
Facoltà di Scienze Motorie
Università di Cassino - [email protected]
Formato finale del questionario
• usare carta resistente
• usare un formato libro
• assegnare un numero codice ad ogni questionario
• assegnare ad ogni domanda un numeroprogressivo
• lasciare spazio sufficiente tra i quesiti
• non spezzare le domande tra due pagine
• usare caratteri di stampa diversi per le istruzioni,le domande e le relative risposte
• evidenziare con vari artifici le parti più importantidelle domande
Il formato grafico
• Nell’elaborazione di un questionario, vannoconsiderate le esigenze di due persone:
La persona che compilerà il questionario
Semplicità, chiarezza
La persona che elaborerà l’informazione raccolta
• La persona che compilerà il questionario hala precedenza
• Le stesse regole di semplicità e chiarezzavalgono per:
Interviste strutturate
Moduli per l’estrazione dei dati
Il formato grafico
• Lasciare spazio sufficiente tra i quesiti
• Non spezzare le domande tra due pagine
• Le domande vanno scritte in grassetto
• Le categorie di risposte vanno scritte concarattere normale
• Le istruzioni vanno scritte in corsivo
• Per le domande chiuse la risposta vienefornita ponendo un segno sul codicecorrispondente
• Per le domande aperte le risposte vannoinserite nello spazio previsto
Definizione delle risposte possibili
• Le risposte devono essere esaustive emutuamente esclusive
• In alcuni casi la domanda non può essererivolta
• In altri, la domanda è posta, ma la personanon risponde
• In altri ancora, la persona risponde “Nonso”
Variabili categoriche
• Evitare l’inserimento di testo
• È conveniente utilizzare dei codici numericiper le variabili categoriche
Questi codici vanno definiti primadell’inserimento dei dati
Variabili numeriche
• Evitare di raccogliere informazioniaggregate per le variabili numeriche
Per chi risponde è altrettanto agevole indicarel’età piuttosto che scegliere tra una serie diclassi d’età pre-definite
È ancora meglio raccogliere anno e mese dinascita, così saremo in grado di calcolareagevolmente l’età del rispondente a qualsiasidata
Fattori che influenzano la formulazione di un questionario
1. Chi deve compilare il questionario
* Autocompilazione
* Intervistatori
2. Quanti argomenti “delicati” devono essere affrontati
* Argomenti complessi
* Argomenti imbarazzanti
* Argomenti che possono offendere
3. Quanti soggetti devono essere intervistati
4. Quante variabili devono essere indagate
* Lunghezza del questionario
1. Chi deve compilare il questionario
Autocompilazione
Il soggetto al quale viene consegnato ilquestionario potrà:
• Segnare caselle
• Cerchiare risposte
• Scrivere numeri o testo
Intervistatori
Agli intervistatori viene in genere richiesto di:
• Cerchiare risposte
• Scrivere numeri in apposite caselle
2. Il contenuto
Il soggetto che compila il questionario potrà:
• Seguire istruzioni semplici
• Saltare gli argomenti “difficili”
• Non completare il questionario
Ma gli intervistatori dovrebbero sempre:
• Seguire le istruzioni semplici
• Fare le domande “difficili”
• Compilare, se possibile, tutte le risposte
3. La numerosità del campione sul quale si esegue l’indagine
A. Su piccoli campioni (studi pilota, studi ad hoc) sipuò prendere in considerazione anche la raccoltadi dati che presentano problemi di codifica:
* Risposte testuali aperte
* Risposte multiple (es. “tutti i mestieri che hai fatto nella
vita”)
B. Su grandi campioni (studi di popolazione,questionari spediti per via postale) è necessario:
* Far scegliere tra più opzioni chiuse precodificate
* Inserire un codice “altro” per le eccezioni
* Ridurre al massimo i “salti condizionati”
(es. se Maschio vai alla domanda X, se Femmina vai alla
domanda Y)
* Ridurre al massimo il testo
Regole da seguire nel formulare domande individuali
• Utilizzare differenti caratteri per differenti sezioni di diversedomande
es. maiuscolo per la domanda, neretto per le risposte alternative,corsivo per le istruzioni
• Aggiungere specifiche istruzioni e suggerimenti (per gliintervistatori) a ciascuna domanda
• Usare il formato verticale per la risposta
• Pre-codificare tutte le domande a risposta chiusa
• Utilizzare sempre lo stesso numero di codice per particolaricategorie di risposte
• Individuare le risposte alle domande a risposta chiusacircondando il numero di codice o la risposta alternativa
• Riservare spazi o caselle per le domande a risposta aperta
• Considerare la fruibilità dei formati per l’input su calcolatore
ad es. spostare i codici di risposta contro il margine destro della pagina
Informazioni da inserire nel foglio introduttivo dei questionari
• Struttura della ricerca
• Nome dell’ intervistatore (o del direttore dello studio nellericerche che utilizzano questionari per posta)
• Argomento dello studio
• Sponsor
• Riservatezza
• Anonimato
• Scopo della ricerca
• Uso dei dati raccolti
• Tecnica di campionamento
• Lunghezza dello studio
• Partecipazione volontaria
• Dimensione del campione
• Richiesta di consenso
Verifica e fasi finali della messa a punto di un questionario
• Correggere la prima bozza del questionario
• Somministrare il questionario a un campione facilmente accessibile parenti amici, colleghi, voi stessi
• Fornire le istruzioni per l’uso e addestrare gli intervistatori medianteun test pilota Se ci sono dei problemi, vanno risolti in questa fase
• Testare il questionario su un campione di 20-50 personerappresentativo della popolazione a cui appartengono i soggetti daesaminare
• Raccogliere le osservazioni degli intervistatori e degli intervistati,possibilmente per iscritto
• Correggere le domande che mettono in difficoltà
• Ripetere il test e rivedere gli eventuali punti critici
• Elaborare corrette istruzioni e preparare gli intervistatori per l’avviodello studio Se emergono altri problemi effettuare un’ulteriore revisione.
• Seguire attentamente le prime fasi dello studio ed esser pronti aulteriori modifiche, se necessario
Concetti di base
• Unità statistica
Minima unità da cui si raccolgono i dati in unaindagine
Individuo
Famiglia
Regione
Squadra
Gara
• Variabile
Caratteristica che può assumere valori diversi nellediverse unità statistiche
Altezza dei bambini di una classe
Peso degli atleti
Età dei pazienti di una clinica
Concetti di base
• ModalitàValore assunto da una variabile in una
determinata unità statistica
Individuo Peso
Giorgio 80 kg
Mario 75 kg Modalità
Roberto 77 kg
Tipo di variabili
• Le variabili si possono distinguere in duegruppi
Variabili numeriche
Discrete: es. n° figli, n° volte/die
Continue: es. peso, altezza, …
Variabili categoriche
Binomiali: es. genere
Nominali: es. tipo di sport, etnia
Ordinali: gravità del sintomo, titolo di studio
Organizzazione dei dati
• I dati raccolti in uno studio devono essereorganizzati in maniera razionale
• Ogni riga rappresenta un’unità statistica
• È importante avere un codiceidentificativo univoco per ogniosservazione (variabile id)
Uso di un codice identificativo
• Il codice identificativo è la “chiave” chepermette di collegare le informazioniraccolte con i dati personali dell’individuo
• È univoco, ovvero ne esiste solo uno perogni soggetto
• Il codice identificativo deve essere inseritosia sul modulo di raccolta dati (es. sullaprima pagina del questionario) chenell’archivio dei dati
Privacy
• Legge sulla privacy 196/2003
• I dati sanitari sono dati “sensibili”
• Bisogna adoperare delle precauzioni perevitare di diffondere queste informazioni
• È conveniente utilizzare un codiceidentificativo univoco, che non ha nessunsignificato al di fuori del progetto di lavoro
• Una volta assegnato il codice identificativo idati personali possono essere rimossi econservati separatamente
La legenda
• La legenda è il collegamento tra ilquestionario ed i dati inseriti nel computer
• Durante l’analisi dei dati le variabili vengonorichiamate per nome
Devono avere un nome breve
Se le variabili registrate sono poche è megliousare un nome che aiuti nel ricordare la variabile
Se le variabili registrate sono molte (es. unquestionario con centinaia di domande) è megliousare nomi che derivano dal numero delledomande nel questionario (q1, q2, q3, …)
Etichette delle variabili
• Alcuni software statistici consentonol’impiego di etichette per le variabili
storage display value
variable name type format label variable label
------------------------------------------------------------------
idnum int %3.0f cod. identificativo
datanas long %d data di nascita
artodom byte %1.0f lbl arto dominante
Etichette dei valori
•Alcuni software statistici consentonol’impiego di etichette dei valori nelcaso di variabili categoriche
. tabulate artodom, nolabel
arto |
dominante | Freq. Percent Cum.
------------+-----------------------------------
1 | 305 84.49 84.49
2 | 47 13.02 97.51
3 | 9 2.49 100.00
------------+-----------------------------------
Total | 361 100.00
Etichette dei valori
• Alcuni software statistici consentonol’impiego di etichette dei valori nel casodi variabili categoriche
. tabulate artodom
arto |
dominante | Freq. Percent Cum.
------------+-----------------------------------
destro | 305 84.49 84.49
sinistro | 47 13.02 97.51
ambidestro | 9 2.49 100.00
------------+-----------------------------------
Total | 361 100.00
Problemi nella gestione dei dati
• Quando si raccolgono, utilizzano econservano dei dati, si possono verificare:
Errori
Perdita di tempo
Perdita di informazioni
Inserimento dei dati
• Per piccoli set di dati, si possono inserire i datiraccolti in un foglio di lavoro di Excel, ma, congrandi dataset, questo sistema diventa complesso esuscettibile di errori
Inserimento dei dati
• È meglio usare un programma di “Data-entry”
• Prima di inserire i dati va definita la legenda
• Una frequente forma di errore è che la rispostagiusta viene registrata nella domanda sbagliata
La risposta sull’arrossamento “dietro le ginocchia”viene registrata nel campo “sulle caviglie”
• Non inserire i dati tutti insieme
• Inserire i dati due volte
Correggere poi gli errori in entrambi gli archivi
• Una volta scoperto un errore, controllare i valorivicini
IL DATA ENTRY: Obiettivi
• Ottenere archivi che contengano datitrattabili con facilità: numeri
categorie numerate
date
• Importare i dati da un formato compatibilecon il package statistico a disposizione: da formati di altri pacchetti statistici
da files di database
dai quali possono ereditati i nomi dei caratteristatistici e le relative proprietà
da testo ASCII
Creazione di variabili derivate
• E’ opportuno evitare di fare calcoli primadel data-entry
• Potremo in seguito costruire delle nuovevariabili a partire dai dati elementariregistrati nel questionario
Indice di massa corporea, es.:
Un bambino di 10 anni, Peso=43 kg Altezza=1,43 m
43 kg
(1,43 m)2IMC = = 21 kg/m2
DATA ENTRYRequisiti di un buon programma dedicato (1)
• Riprodurre la scheda di inserimentoinformatica in modo simile alla schedacartacea;
• Permettere la visualizzazione sullo schermodi domande e risposte;
• Offrire un aiuto su schermo;
• Applicare dei check sulle variabili in entrata;
• Applicare dei salti condizionati (p.e: i maschisaltano domande specifiche per le donne)
DATA ENTRYRequisiti di un buon programma dedicato (2)
• Controllare il rendimento del data entry;
• Ridurre i costi di stampa e di accumulo di carta;
• Applicare delle regole definite per la codifica dei dati missing
• Essere “failure safe” (archiviare ogni record inserito su disco)
DATA ENTRY: Metodo 1 - Il doppio Input
• I dati sono introdotti da due diversi staffseparatamente. E’ possibile evidenziare le differenze e correggerle
• L’input dei dati può essere effettuato dapersonale non specializzato; E’ un metodo veloce
I dati rispecchiano esattamente la copia cartacea
E’ il “golden standard” per i dati testuali, dove non èpossibile altra validazione
Se la versione cartacea è errata, la copia informatica èerrata
E’ necessario il doppio del personale
DATA ENTRY: Metodo 2 - Check automatico in inserimento
• Un apposito programma costruito per questafase si occupa di effettuare numerosi controllidi congruità sui dati all’ atto del loroinserimento;
• L’input dei dati può essere svolto da personaledi segreteria;
• Viene usato nei dipartimenti governativianglosassoni I dati vengono “puliti” al momento e sono inseriti nell’
archivio
Si richiede un supervisore per correggere errori o rispostenon previste in anticipo
Richiede una attività di programmazione complessa estrutturata
DATA ENTRY: Metodo 3 - Controllo dati ad inserimento avvenuto
• Il programma di data entry effettua pochicontrolli di congruità;
• L’input dei dati viene svolto da una personaappositamente pagata: che capisce i dati, e quindi si accorge dei dati errati o
“strani”
• E’ utilizzato negli studi epidemiologici Non serve personale di segreteria
Il programma di data entry è semplice da approntare
I dati vanno controllati prima dell’analisi
In caso di risposte non previste, questo sistema sipresta ad interpretazioni “estemporanee” da parte dichi realizza questa fase
DATA ENTRY: Metodo 4 - Formati a riconoscimento ottico
• Le risposte sono segnate su un formato agriglia, predisposto per la lettura automaticacon uno scanner;
• E’ richiesto personale che verifichi ilfunzionamento in acquisizione del calcolatore;
• E’ utilizzato per la richiesta di esami dilaboratorio Non c’ è data entry manuale
Sono spesso necessarie molte correzioni
Ci sono limitazioni sul tipo di dati acquisibili (difficileacquisizione per i dati testuali)
I compilatori della scheda prestampata devono esseremotivati
E’ un metodo costoso
DATA ENTRY: Metodo 5 - Interviste guidate dal computer
• Le risposte al questionario vengono digitate nelcomputer durante l’intervista;
• E’ utilizzato da intervistatori pagati ad intervista;
• E’ utilizzato per ricerche di mercato Data entry e validazione possono essere contestuali
E’ possibile strutturare il questionario in modo complesso
Permette un campionamento all’interno dell’intervista
Rafforza i codici validi
Permette il controllo della resa dell’intervistatore
Non esiste una copia cartacea
Non possono essere inseriti commenti non previsti
E’ un metodo costoso
La programmazione sul computer può essere moltocomplessa
VALIDAZIONE DEI DATI
• L’ obiettivo del processo di validazione inizialedei dati raccolti e’ di effettuare controlli su: gli errori di digitazione;
le risposte che potrebbero essere errate;
gli errori sistematici legati agli intervistatori;
gli errori di progettazione o di programmazione;
• L’ azione di revisione dei dati nel dettaglio puòessere svolta direttamente se le unitàstatistiche rilevate sono poco numerose,mentre per la revisione dei dati di campionipiù numerosi è necessario un programmacomputerizzato;
VALIDAZIONE DEI DATIGli Errori
• Per ogni domanda, il dato archiviato deve avere di lunghezza inferiore o pari alla massima consentita;
appartenere al tipo previsto
essere coerente con le proprietà del dato;
appartenere ad una delle categorie predefinite o essere contenutoall’interno di un range di valori possibili;
sempre presente, se definito come indispensabile;
• Nella stessa intervista, una risposta dovrebbe essere coerente con le precedenti domande;
compilata solo se coerente con il “pattern di scavalcamento”definito;
• Tra diverse interviste, le risposte dovrebbero essere coerenti con le risposte precedenti;
VALIDAZIONE DEI DATI
Le “tracce sospette”•Dobbiamo sospettare un errore nella fase diraccolta o di data entry se:
la risposta è:
troppo arrotondata o vicina ai limiti min o max
manca senza un preciso motivo
le risposte della stessa intervista:
seguono un pattern preciso
– sono messe in serie, senza leggerle?
non seguono alcun pattern
– sono messe a caso?
sono troppo perfette
– sono indotte dall’intervistatore
– sono “aggiustate” ad arte?
Dati “DIFFICILI”
• Quali dati ci danno problemi?
Testi liberi
Definire categorie a cui riportare ogni risposta– questa fase può essere svolta a mano o con l’ ausilio di programmi al
calcolatore
Dati mancanti o non accettabili: possibili strategie
Omettere dall’ analisi i dati mancanti
Considerare “mancante” come una categoria a parte
Ricostruire valori da attribuire
Attribuire ai dati mancanti il valore minimo prima emassimo poi e svolgere due analisi separate
In ogni caso è importante sempre documentare lestrategie scelte nella gestione dei testi liberi e dei dati“missing”
Dati mancanti o non accettabili
Metodo 1 - Ometterli
• Assunto di base: il dato viene considerato superfluo, privo di potenziale
informativo
• Vantaggi soluzione rapida e facile;
• Svantaggi non si usano tutti i dati;
si introduce un errore se l’assenza non è casuale;
non si cerca di spiegare il perchè dei dati mancanti;
incoraggia le estrapolazioni indebite;
gli intervalli di confidenza si allargano se il datomancante è frequente
perchè è ridotto il numero delle unità statisticheconsiderate nel calcolo
Dati mancanti o non accettabili
Metodo 2 - Il dato “mancante” è una categoria
• Assunto di base: il dato non è superfluo, se manca c’ è un motivo
rilevante
• Vantaggi soluzione rapida e facile;
si cerca di spiegare il perchè delle non compilazioni;
si usano tutti i dati raccolti;
• Svantaggi non si possono applicare tutte le tecniche statistiche;
crea grossi problemi nel calcolo di score complessivi;
Dati mancanti o non accettabili
Metodo 3 - Ricostruire valori da attribuire
• Assunto di base: è possibile stimare i dati mancanti sulla base di un
modello logico o matematico
• Il rischio di giungere a stime sbagliate èdiverso se si fa riferimento a: plausibilità logica ;
risposte su altre domande di argomento affine o analogo;
interdipendenza tra le risposte;
modello presupposto: probabilità condizionata arisposte note
indici di tendenza centrale;
modello presupposto: costanza tra più compilatori
Dati mancanti o non accettabili
Metodo 3 - Ricostruire valori da attribuire
• Vantaggi si cerca di spiegare il perchè delle non compilazioni;
si usano tutti i dati raccolti;
permette di applicare metodi statistici complessiutilizzando tutte le unità statistiche;
Svantaggi nasconde il valore mancante iniziale
introduce errore se il dato mancava non per caso
perchè si è assimilato quel soggetto agli altri
è necessario realizzare calcoli complessi
scoraggia lo studio dei motivi alla base delle noncompilazioni
Dati mancanti o non accettabili
Metodo 4 - L’ analisi di “scenario”
• Assunto di base il valore non è più estremo di quelli rilevati in altri soggetti
• Metodo si costruiscono due set di dati, nei quali vengono attribuiti:
nel primo a tutti i mancanti il valore minimo rilevato;
nel secondo a tutti i mancanti il valore massimo rilevato;
si studiano separatemente i due set di dati (“scenari”);
le conclusioni vere si presuppone staranno nel mezzo;
• Vantaggi permette di applicare metodi statistici complessi utilizzando
tutte le unità statistiche;
• Svantaggi doppia elaborazione necessaria;
risultati molto dispersi se il range min-max dei valori noti èampio;
Documentare i passi svolti
• E’ fondamentale scrivere un documento che
testimoni i principali passaggi svolti nel
processo:
la raccolta dei dati;
il metodo di inserimento utilizzato;
la qualità dell’inserimento (errori trovati nella
validazione);
quantità e qualità dei dati missing;
gestione dei dati missing e dei dati testuali;
descrizione dei files utilizzati nel processo (nomi, tipo,
date e dimensione); backup;
Back-up ed archiviazione
• Obiettivo del back up è quello di essere ingrado di recuperare i dati ed i documenti incaso di distruzione o perdita di dati
È un’attività da svolgere di routine
• L’archiviazione ha luogo una o poche voltenell’arco della vita di un progetto
Ricerca degli errori
• Fai una stampa di:
Legenda
Elenco delle variabili
Tabelle di frequenza delle variabili
• Confronta la legenda originale con quelladerivata dai dati inseriti
• Osserva le tabelle per evidenziare valoriimprobabili, massimo e minimo
• Osserva il numero delle osservazioni
• Osserva se sono presenti dati incoerenti
Maschi in gravidanza
Ricerca degli errori
• Una volta identificati valori sospetti, elencai dati con il corrispondente id e controlla sesono corretti
• Se ci sono dati incoerenti (maschi ingravidanza)
Ricodifica i valori a valori mancanti
• Se ci sono dati mancanti
A volte puoi dedurre questi valori da altreinformazioni per lo stesso soggetto (data imput)
Es. donna, con tre figli di 19, 6 e 1 anno– Età??
Unione di archivi di dati
• Se hai raccolto dati sugli stessi soggetti inmisurazioni successive, puoi unire i duefiles corrispondenti
merge
• Se hai raccolto informazioni su altrisoggetti in un secondo momento, puoiunire i due files corrispondenti
append
Strutture dei database
• Modelli logici
Modello Gerarchico
Modello Reticolare
Modello Relazionale
• Modelli concettuali
Il modello Entità-Relazione
Strutture dei databaseEncyclopedia Britannica, Information processing and information systems, 1994
• Gerarchica
i record sono organizzati in uno schema simile adun albero genealogico, ed i record sono legati unoall’altro dall’alto verso il basso
le relazioni sono mantenute attraverso deipuntatori (identificatori quali indirizzi o codicichiave) che sono parte del record
• Reticolare
• Relazionale
• Gerarchica
• Reticolare
i record sono organizzati in gruppi noti come set
ogni set può essere collegato agli altri in moltimodi, attraverso puntatori
• Relazionale
Strutture dei databaseEncyclopedia Britannica, Information processing and information systems, 1994
• Gerarchica
• Reticolare
• Relazionale
consiste in più tabelle bidimensionali (o matrici)
è semplice, è dotato di basi teoriche (algebrarelazionale), non utilizza i puntatori per mantenerele relazioni
Strutture dei databaseEncyclopedia Britannica, Information processing and information systems, 1994
Il database relazionale
• Tipologie di relazioni fra tabelle deldatabase:
uno ad uno: per ogni record della Tabella A èpresente uno e un solo record della Tabella B
uno a molti: per ogni record della Tabella Apossono essere presenti n record della Tabella B
Corso di perfezionamento “Statistica ed informatica per le aziende sanitarie”
Identificativoprimario
ICD9CM procedureCodice proceduraDescrizione procedura
1molti
Il database relazionale
Un esempio di database relazionale:
AnagraficaID pazienteCognomeNomeSessoData di nascitaLuogo di nascitaLuogo di residenza
RicoveriID ricoveroID pazienteData ingressoData dimissioneReparto di DimissioneDiagnosi principaleProcedura principaleDRG
ICD9CM DiagnosiCodice diagnosiDescrizione diagnosi
1
molti
1
molti
• Vincoli del sistema relazionale:
Il database relazionale
AnagraficaID pazienteCognomeNomeSessoData di nascitaLuogo di nascitaLuogo di residenza
RicoveriID ricoveroID pazienteData ingressoData dimissioneReparto di DimissioneDiagnosi principaleProcedura principaleDRG
1
molti
Quando si inserisce un record nella tabella ricoveri che fa riferimento ad un record della tabella anagrafica quest’ultimo record non può più essere cancellato, nè può essere modificato l’ID primario
Modello entità-relazione: alcuni costrutti principali
• Entità: classi di oggetti chehanno proprietà comuni edesistenza “autonoma” aifini dell’indagine
• Relazione: un legamelogico, significativo perl’analisi, tra due o piùentità
Paziente ServizioEsame
Modello entità-relazione: alcuni costrutti principali
• Attributo: Descrive proprietà elementari di
entità o relazioni di interesse ai fini dell’analisi
un attributo associa a ciascunaoccorrenza di entità (studio di una unitàstatistica) un valore appartenente ad uninsieme, detto dominio dell’ attributo, checontiene i valori ammissibili (Modalità)
può essere semplice o composto
Paziente
Cognome
Età
Indirizzo
Via
CAP
Modello entità-relazione: alcuni costrutti principali
• Cardinalità delle relazioni: per ciascuna
entità che partecipa alla relazione descrivonoil numero minimo e massimo di occorrenzedi relazione a cui le occorrenze delle entitàcoinvolte possono partecipare
es. Da 3 a 5 chirurghi compongono unaequipe operatoria, che può svolgere inuna giornata da nessuno a 4 interventi
Chirurgo InterventoEquipe
(min,max)
(3,5) (0,4)
Cardinalità di relazioni: tipi principali
Richiesta esame
RefertoEsecuzione
(0,1) (1,1)
Paziente CittàResidenza
(1,1) (0,N)
Paziente OspedaliRicovero
(1,N) (0,N)
Uno a uno
Uno a molti
Molti a molti
Unione di archivi di dati
• Se hai raccolto dati sugli stessi soggetti inmisurazioni successive, puoi unire i duefiles corrispondenti
Unione di archivi di dati
• Se hai raccolto informazioni su altrisoggetti in un secondo momento, puoiunire i due files corrispondenti
Il database Stand Alone
Il database risiede fisicamente sulla
memoria di massa di un calcolatore e può
essere utilizzato soltanto da un utente alla volta e soltanto su
quel calcolatore
Il database Stand Alone
• Vantaggi
economico
legato alla potenza di calcolo del calcolatorelocale
• Limiti
single-user
Il database multiutente
• Il database risiede sulla memoria di massa diun calcolatore collegato in rete;
• lo stesso database può essere utilizzato da piùutenti contemporaneamente;
Database
Il database multiutente
• Vantaggi:
si può utilizzare il database in contemporanea su piùcalcolatori
la velocità di funzionamento è funzione della potenzadi calcolo dell’elaboratore locale e dell’ampiezza dibanda della rete;
Il database multiutente
• Vincoli:
il database deve essere progettato per lamultiutenza
generazione di lock sui record modificati
tutti gli utenti debbono avere accesocompleto (RW-) ad file del database
rischi per la sicurezza– cancellazioni involontarie o dolose
– corruzione del file in caso di crash di uncalcolatore
• Il database risiede fisicamente sulla memoria dimassa di un calcolatore detto SERVER
• l’unico software che accede fisicamente aldatabase è il SERVER DI DATABASE
• i calcolatori periferici (CLIENT) non accedonofisicamente al file, ma interrogano il server, che,accedendo al file, processa la richiesta e forniscela risposta al client
L’ architettura server-client
L’ architettura server-client
Database
Server
Client
Richiesta di datial server
Accesso fisicoal database
Risposta al clientcon invio dei dati richiesti
L’ architettura server-client
• Vantaggi
si può utilizzare il database in contemporanea supiù calcolatori, anche connessi in rete geografica
l’utente non deve avere accesso (neanche in R--) alfile del database
i calcolatori client posso avere risorse limitate
il rischio di corruzione del file è associato al solomalfunzionamento del server
L’ architettura server-client
• Vincoli
il database deve essere specificamenteingegnerizzato per questa architettura
la velocità di risposta è funzione:
della banda passante della rete
della potenza dell’elaboratore server
del numero di accessi contemporanei al server
il fermo macchina del server rende inservibiletutto il sistema di database
L’ architettura server-client
• Database in architettura client-servercommerciali
Oracle (es. GISS…)
SQL Server
Sybase
Informix
Mumps