27 novembre 2013 27 novembre 2013
Dipartimento di Ingegneria “Enzo FerrariDipartimento di Ingegneria “Enzo Ferrari
Disaster RecoveryDisaster Recovery
La dura disciplina della sicurezza La dura disciplina della sicurezza informatica per la preservazione dei informatica per la preservazione dei
dati aziendalidati aziendali
Disaster recovery: programma del seminario Disaster recovery: programma del seminario
Contesto attuale, sicurezza informaticaContesto attuale, sicurezza informatica
Definizioni e standard di riferimentoDefinizioni e standard di riferimento
I processi ICT , le metodologie I processi ICT , le metodologie
L'analisi dei rischiL'analisi dei rischi La Valutazione dei danniLa Valutazione dei danni
Le infrastrutture informatiche resilientiLe infrastrutture informatiche resilienti
I processi ICT per la sicurezzaI processi ICT per la sicurezza
Il piano di disaster recoveryIl piano di disaster recovery
Test e Istruzioni Operative Test e Istruzioni Operative
La sicurezza La sicurezza informatica senza informatica senza una misurazione una misurazione
continua e puntuale continua e puntuale dei rischi e una dei rischi e una valutazione dei valutazione dei
danni è più materia danni è più materia di psicologi che non di psicologi che non
di ingegneri .di ingegneri .
La sicurezza La sicurezza informatica senza informatica senza una misurazione una misurazione
continua e puntuale continua e puntuale dei rischi e una dei rischi e una valutazione dei valutazione dei
danni è più materia danni è più materia di psicologi che non di psicologi che non
di ingegneri .di ingegneri .
La continuità operativa La continuità operativa
Le aziende moderne hanno necessità di Le aziende moderne hanno necessità di continuità operativa. Non possono fermare continuità operativa. Non possono fermare se non in modo pianificato, le loro attività.se non in modo pianificato, le loro attività.
L'interdipendenza dei sistemi genera una L'interdipendenza dei sistemi genera una complessità non visibile quando tutto complessità non visibile quando tutto funziona. Una discontinuità operativa può funziona. Una discontinuità operativa può produrre danni anche dove non si pensa.produrre danni anche dove non si pensa.
Oggi la continuità operativa è principalmente Oggi la continuità operativa è principalmente assicurata dalle procedure informatiche. assicurata dalle procedure informatiche. Fermare i servizi informatici significa Fermare i servizi informatici significa interrompere la continuità operativa.interrompere la continuità operativa.
La gravità di una discontinuità non è La gravità di una discontinuità non è
proporzionale ma esponenziale rispetto al proporzionale ma esponenziale rispetto al tempo, il valore dell'esponente è una tempo, il valore dell'esponente è una variabile tipica del tipo di business e variabile tipica del tipo di business e dell'azienda. dell'azienda.
6% è la 6% è la percentuale di percentuale di
sopravvivenza di sopravvivenza di aziende che hanno aziende che hanno subito una forma di subito una forma di
disastro - il 43% disastro - il 43% non ha mai riaperto non ha mai riaperto
e il 51% ha e il 51% ha continuato l'attività continuato l'attività ma ha chiuso entro ma ha chiuso entro i 2 anni successivii 2 anni successivi
6% è la 6% è la percentuale di percentuale di
sopravvivenza di sopravvivenza di aziende che hanno aziende che hanno subito una forma di subito una forma di
disastro - il 43% disastro - il 43% non ha mai riaperto non ha mai riaperto
e il 51% ha e il 51% ha continuato l'attività continuato l'attività ma ha chiuso entro ma ha chiuso entro i 2 anni successivii 2 anni successivi
Minacce alla continuità operativa
Fonte : IBM 2012
Minacce alla continuità operativa
Alcune Definizioni Alcune Definizioni
Business Continuity Business Continuity Si intende la capacità dell'azienda di continuare ad esercitare il proprio business a fronte di Si intende la capacità dell'azienda di continuare ad esercitare il proprio business a fronte di
eventi avversi che possono colpirla. Viene comunemente considerata come un processo eventi avversi che possono colpirla. Viene comunemente considerata come un processo globale che identifica i pericoli potenziali che minacciano l'organizzazione, fornisce una globale che identifica i pericoli potenziali che minacciano l'organizzazione, fornisce una struttura che consente di aumentare la resilienza e la capacità di risposta in maniera da struttura che consente di aumentare la resilienza e la capacità di risposta in maniera da salvaguardare gli interessi degli stakeholders, le attività produttive, l'immagine, riducendo i salvaguardare gli interessi degli stakeholders, le attività produttive, l'immagine, riducendo i rischi e le conseguenze sul piano gestionale, amministrativo, legale.rischi e le conseguenze sul piano gestionale, amministrativo, legale.
Disaster RecoveryDisaster RecoveryIn informatica, nell'ambito della di sicurezza informatica, per disaster recovery si intende In informatica, nell'ambito della di sicurezza informatica, per disaster recovery si intende
l'insieme delle misure tecnologiche e logistico/organizzative atte a ripristinare sistemi, dati l'insieme delle misure tecnologiche e logistico/organizzative atte a ripristinare sistemi, dati e infrastrutture necessarie all'erogazione di servizi di business per imprese, associazioni o e infrastrutture necessarie all'erogazione di servizi di business per imprese, associazioni o enti, a fronte di gravi emergenze che ne intacchino la regolare attività. Il disaster Recovery enti, a fronte di gravi emergenze che ne intacchino la regolare attività. Il disaster Recovery plan è parte della Business Continuity plan è parte della Business Continuity
Riferimenti normativi Riferimenti normativi ISO/IEC 27001 "Information Security Management System"ISO/IEC 27001 "Information Security Management System"BS 25999 "Business Continuity Management System"BS 25999 "Business Continuity Management System"LEGGE 196/2003 PrivacyLEGGE 196/2003 Privacy
Alcune Definizioni Alcune Definizioni
Recovery Point Objective (RPO):Recovery Point Objective (RPO):è uno dei parametri usati nell'ambito delle politiche di disaster recovery per descrivere la è uno dei parametri usati nell'ambito delle politiche di disaster recovery per descrivere la
tolleranza ai guasti di un sistema informatico. Esso rappresenta il massimo tempo che tolleranza ai guasti di un sistema informatico. Esso rappresenta il massimo tempo che intercorre tra la produzione di un dato e la sua messa in sicurezza (ad esempio attraverso intercorre tra la produzione di un dato e la sua messa in sicurezza (ad esempio attraverso backup) e, conseguentemente, fornisce la misura della massima quantità di dati che il backup) e, conseguentemente, fornisce la misura della massima quantità di dati che il sistema può perdere a causa di guasto improvviso. Al diminuire dell'RPO richiesto si sistema può perdere a causa di guasto improvviso. Al diminuire dell'RPO richiesto si rendono necessarie politiche di sicurezza sempre più stringenti e dispendiose, che possono rendono necessarie politiche di sicurezza sempre più stringenti e dispendiose, che possono andare dal salvataggio dei dati su supporti ridondanti tolleranti ai guasti fino alla loro andare dal salvataggio dei dati su supporti ridondanti tolleranti ai guasti fino alla loro pressoché immediata replicazione su un sistema informatico secondario d'emergenza pressoché immediata replicazione su un sistema informatico secondario d'emergenza (soluzione in grado di garantire, in linea teorica, valori di RPO prossimi allo zero)(soluzione in grado di garantire, in linea teorica, valori di RPO prossimi allo zero)
Recovery Time Objective (RTO):Recovery Time Objective (RTO):è il tempo necessario per il pieno recupero dell'operatività di un sistema o di un processo è il tempo necessario per il pieno recupero dell'operatività di un sistema o di un processo
organizzativo in un sistema di analisi Business Critical System (ad esempio implementazioni organizzativo in un sistema di analisi Business Critical System (ad esempio implementazioni di politiche di Disaster Recovery nei Sistemi Informativi).di politiche di Disaster Recovery nei Sistemi Informativi).
È in pratica la massima durata, prevista o tollerata, del downtime occorso.È in pratica la massima durata, prevista o tollerata, del downtime occorso.
Alcune Definizioni Alcune Definizioni
Risk AssestementRisk AssestementE' il processo attraverso il quale le aziende determinano i rischi, le vulnerabilità, l'analisi dei E' il processo attraverso il quale le aziende determinano i rischi, le vulnerabilità, l'analisi dei
danni possibili e formulano i diversi scenari possibili di disastro. Si definiscono i processi danni possibili e formulano i diversi scenari possibili di disastro. Si definiscono i processi prioritari , si identificano le interdipendenze tra i processi critici, l'organizzazione e le prioritari , si identificano le interdipendenze tra i processi critici, l'organizzazione e le persone e i servizi. Si identificano i danni potenziali derivanti da accadimenti accidentali persone e i servizi. Si identificano i danni potenziali derivanti da accadimenti accidentali non prevedibili. non prevedibili.
Probable Maximum Business Interruption Loss (PML):Probable Maximum Business Interruption Loss (PML):Perdite, basate su un worst-case scenario, che possono risultare da una interruzione della Perdite, basate su un worst-case scenario, che possono risultare da una interruzione della
continuità operativa secondo gravità della interruzione e della durata della stessa. Serve continuità operativa secondo gravità della interruzione e della durata della stessa. Serve molto per una valutazione assicurativa.molto per una valutazione assicurativa.
Rischio OperativoRischio OperativoIl rischio operativo è la valutazione delle cause e relative probabilità di una interruzione di Il rischio operativo è la valutazione delle cause e relative probabilità di una interruzione di
servizio e del tempo di detta interruzione . Tale valutazione è entrata a far parte dell'analisi servizio e del tempo di detta interruzione . Tale valutazione è entrata a far parte dell'analisi de rischi a partire dal mondo bancario e dagli accordi definiti Basilea 2.de rischi a partire dal mondo bancario e dagli accordi definiti Basilea 2.
I processi IT e le metodologie, l'esempio ITIL
ITIL service operation
I processi fondamentali per la gestione della sicurezza
Backup dei dati, delle applicazioniBackup dei dati, delle applicazioni
Restore dei dati, delle applicazioni Restore dei dati, delle applicazioni
Monitoraggio Monitoraggio
Incident managementIncident management Procedure per il disaster recoveryProcedure per il disaster recovery
Service level managementService level management
Availability management Availability management
ICT Service continuity mgmICT Service continuity mgm
Information security mgmInformation security mgm
Disegno dei serviziDisegno dei servizi
Gestione delle OperazioniGestione delle Operazioni
Organizzare le attività : CMBD configuration management database
Le applicazione per gestire l'informazione sui processi ICTLe applicazione per gestire l'informazione sui processi ICT
Servizi Erogati
Sistemi Eroganti
Client dei servizi
Incident
Change
SLA
Piccola dimostrazione pratica
L'analisi dei rischi – Risk assestement
L'analisi dei L'analisi dei rischi , rischi ,
l'individuazione l'individuazione delle minacce, la delle minacce, la
gestione delle gestione delle relative relative
contromidure è il contromidure è il punto di punto di
partenza per la partenza per la definizione di un definizione di un
corretto corretto processo di processo di
Disaster Disaster RecoveryRecovery
L'analisi dei L'analisi dei rischi , rischi ,
l'individuazione l'individuazione delle minacce, la delle minacce, la
gestione delle gestione delle relative relative
contromidure è il contromidure è il punto di punto di
partenza per la partenza per la definizione di un definizione di un
corretto corretto processo di processo di
Disaster Disaster RecoveryRecovery
L'analisi dei rischi – Un esercitazione pratica
Ogni anno deve essere presentato il Ogni anno deve essere presentato il
Documento programmatico per la sicurezzaDocumento programmatico per la sicurezza
DPSDPS
In questo documento, nella sezione Risk Analisys, vengono analizzati tutti i rischi e le relative azioni mitiganti
Il documento di Conserve Italia
Una valutazione dei danni : una esercizio vero
Tabella Valutazione Danni derivanti da disservizi informatici solo sistemi Mission Critical
Una Infrastruttura adeguata: la ridondanza
Una varietà di soluzioni per la copertura dei rischi di una varietà di serviziUna varietà di soluzioni per la copertura dei rischi di una varietà di servizi
Una infrastruttura adeguata : NO Single point of failure
I componenti delle architetture server devono essere a loro volta resilienti al guasto di un singolo componente: ventola, alimentatore, scheda di rete , dischi interni.
Dove questo non è possibile occorre ridondare i componenti
Dall'offerta RAID in poi , la componente storage è normalmente ridondata allo scopo di reggere al guasto del singolo componente
La progettazione anche di un piccolo datacenter deve sempre prevedere La progettazione anche di un piccolo datacenter deve sempre prevedere la resilienza al guasto del singolo componente. la resilienza al guasto del singolo componente.
Una infrastruttura adeguata : il monitoraggio automatico
TIER La classificazione dei Data Center
Livello Uptime % Hours Downtime per
Year
Redundancy Hour power & cooling outage
protection
TIER 1 99,671 % 28,8 NO -
TIER 2 99,749 % 22 Partial power and cooling
-
TIER 3 99,982 % 1,6 N+1 Fault tolerant
72
TIER 4 99,995 % 2,4 min 2N+1 Fully redundant
96
The Data Center Tier Classification system: I, II, III and IV was introduced by the Uptime Institute. Tier IV represents the highest level of availability, reliability and security for corporations. Large companies worldwide contract with Uptime Institute to achieve a Tier certification of their choice.
Le Tecnologie “ SINCRONIZZAZIONE “
DistanzaCluster Applicativo
A BSi definiscono 2 istanze A e B che gestiscono le stesse applicazioni e gli stessi dati, vengono però popolati su 2 istanze diverse in 2 tempi diversi. Se A cade occorre eseguire lo switch verso B. Esempi: domino cluster (posta), oracle standby database .
Indipendente dall'hardware
Tollerante verso le distanze
Sfrutta l'infrastruttura esistente
Consente di gestire ripristini in forme diverse
Complesso da implementare
Lento nello switch Gestione pesante
per il controllo di funzionamento
Gestione molto pesante per gli aggiornamenti
++ - -
Le Tecnologie “ SINCRONIZZAZIONE “
DistanzaCluster con journaling A A1Si definiscono 2 istanze A e A1 , una sola è l'istanza attiva, l'istanza A1 è aggiornata attraverso transazioni non applicative ma di variazione di blocchi del sistema storage. Al cadere dell'istanza A occorre comandare uno switch
Discretamente tollerante verso le distanze
Supporta più livelli di sicurezza
Consente di gestire ripristini in forme diverse
Facile da controllare Macchina del tempo
Dipende dallo storage
Architetture proprietarie
Switch da comandare
++ - -
J J
Le Tecnologie “ SINCRONIZZAZIONE “
DistanzaSistema Cluster remotizzabile
A
Si definisce una sola istanza A che è distribuita in 2 siti diversi i meccanismi di sincronia sono in carico allo storage. Si può perdere un sito, l'applicazione continua a funzionare .
Non c'è switch Si comporta come un
solo sistema Molto semplice da
gestire Molto semplice da
implementare
Specifica soluzione dipende dall'hardware
Distanze brevi , quelle del fiber channel (300 mt)
Non gestisce le asincronie
++ - -
Distribuzione capacità elaborativa : Rischio “SITO” Distribuzione capacità elaborativa : Rischio “SITO”
Distribuzione capacità elaborativa: Rischio territorioDistribuzione capacità elaborativa: Rischio territorio
Luoghi vicini comportano una omogeneità di richio
Segliere Luoghi con bassi rischi o quantomeno complementari
Ogni luogo è sottoposto a diverse tipologie di rischio
Pratica di base: Backup e Restore
Le operazioni di backup-restore sono la Le operazioni di backup-restore sono la pratica basilare per il salvataggio dei dati e pratica basilare per il salvataggio dei dati e la garanzia del loro eventuale ripristino la garanzia del loro eventuale ripristino
E' necessario che le copie di backup siano E' necessario che le copie di backup siano conservate su supporti mobili in luoghi conservate su supporti mobili in luoghi diversi da quelli dove sono conservati i dati diversi da quelli dove sono conservati i dati
L'affidabilità del processo di backup-restore L'affidabilità del processo di backup-restore si misura solo attraverso i test di restore si misura solo attraverso i test di restore
Il tempo di backup-restore e lo spazio Il tempo di backup-restore e lo spazio occupato sono le variabili critiche rispetto occupato sono le variabili critiche rispetto alla efficienza del processo di backup-restore alla efficienza del processo di backup-restore e alla copertura di un incident o di un e alla copertura di un incident o di un disastro.disastro.
Pratica di base: Backup e Restore definizioni
Backup on-line , a caldo Backup on-line , a caldo Si tratta di modalità di backup che prevedono l'esecuzione con le
applicazioni attive . Finsestra di backupFinsestra di backupPeriodo in cui un sistema è disponibile per il backup. Le procedure di
backup possono avere effetti di rallentamento sui sistemi e sulla rete; alcune operazioni richiedono che l'uso primario del sistema sia sospeso. Questi effetti possono essere mitigati concordando una finestra di backup con il proprietario del sistema.
Tape libraryTape libraryun sistema che contiene dei nastri per il backup, un lettore di barcode per
identificare i nastri e un automatismo per movimentare i nastri all'interno della library. Una tape library può contenere delle enormi quantità di dati. Tecnologie DLT
Schema di rotazione del backupSchema di rotazione del backupper effettuare un backup giornaliero vengono di solito fatti ruotare gli
stessi media (es. i nastri). Lo schema di rotazione stabilisce appunto il metodo di rotazione e di ritenzione (data retention) dei dati. Vengono utilizzati diversi schemi quali: Incrementale; Nonno, padre e figlio; la torre di Hanoi, ecc.
Retention time – tempo di retention Retention time – tempo di retention tempo in cui un certo set di dati rimane disponibile per il restore. Il tempo
di retention viene generalmente misurato in giorni. In alcuni casi viene misurata una 'retention' sulla base del numero di copie dei dati di backup, indipendentemente dal tempo a cui esse si riferiscono.
Backup e Restore , variabili critiche: Tempo e Spazio
Backup CompletoBackup Completoun backup di tutti i file del sistema. A differenza della disk image, un full backup
non include le tavole di allocazione, le partizioni ed i settori di boot.Backup incrementale Backup incrementale backup che contiene tutti i file cambiati dall'ultimo backup (completo e
incrementale). Il backup incrementale è più rapido di quello differenziale ma richiede tempi di restore più lunghi poiché è necessario partire dall'ultimo backup completo e poi aggiungere in sequenza tutti i backup incrementali.
Backup differenziale Backup differenziale backup cumulativo di tutti i cambiamenti effettuati a partire dall'ultimo backup
completo (o full backup). Il vantaggio è il minor tempo necessario rispetto ad un backup completo. Lo svantaggio è che i dati da salvare aumentano per ogni giorno trascorso dall'ultimo backup.
Compressione Compressione la compressione è ottenuta tramite algoritmi di compressione dei dati (come
quelli usati dai programmi più famosi come Winzip, WinRar, WinAce) prima che vengano registrati sul supporto di backup, oppure attraverso la deduplicazione
Deduplica Deduplica è ottenuta tramite algoritmi di deduplicazione (che significa eliminazione dei
duplicati) che possono agire a livello di singolo file o di blocco . La deduplicazione può essere eseguita prima, durante o dopo la copia di backup, in contemporanea o in differita rispetto alla normale operatività dei sistemi informatici.La deduplicazione è utile, in particolare, per i gruppi di file o le cartelle di file che necessitano di un backup completo e quotidiano.
Il piano di Disaster Recovery
1
2
3
4
6
5
7Analisi del business
Analisi dei rischi e delle conseguenze
Comitato di crisi
Verifiche delle interdipendenze
8
Analisi dell'incident, Piano di ripristino, Steps e Checklist
Addestramento econsapevolezza
Piano dei test
DRP manutenzione
Analisi dell'incident, Piano di ripristino, Steps e Checklist
1 incident 2 Riscontroincident
3 Analisi della situazione
Lieve
Grave
4 Avvio delripristino
8 Convocazionecomitato
9 Suddivisione dei compiti
5 OK
7 No Ok
6 Fine
10 Operazioni di ripristino
11 OK
13 No Ok
14 RestoreEscalation
12 Fine
15 Operazioni di ripristino 16 Fine
Monitoraggio
Reperibile Responsabile
Operazioni molto
complesse
Operazioni Complesse
Non codificate
Operazioni Semplicicodificate
Tecnico
SistemistaEsperto
Sistemistaesperto eConsulenti
Operazioni di rispristino: Le istruzioni operative, Le check List
Archivio delle istruzioni check listArchivio delle istruzioni check listOccorre un archivio elettronico sempre raggiungibile possibilmente replicato anche sugli strumenti
di lavoro dei tecnici dove archiviare le istruzioni. Ricerca delle istruzioni Ricerca delle istruzioni La riccera delle istruzioni deve essere più veloce possibile, sia ricerca testo libero, sia ricerca per
classificazione, sia ricerca per autore.
Contesto operativo Contesto operativo Il documento deve essere senza fronzoli descrittivi, per prima cosa deve illustrare il contesto operativo e se è una bugfix una definizione del BUG
Sequenze Sequenze Dopo una minima definizione del contesto, occorre illustrare bene la sequenza delle operazioni , nel casso di un riprisdtino è fondamentale !!
Comandi Comandi All'internbo delle sequenze ci saranno comandi da impartire, con i nuovi oggetti visual i comandi devono essere descritti con gli screen shot delle esecuzioni
Esiti e test di funzionamentoEsiti e test di funzionamentoDovranno essere descritti con dovizia di aprticolari, gli esiti attesi dalle operazioni e i metodi per controllare detti esiti - TEST
I documenti relative alle istruzioni operative devono riportare I documenti relative alle istruzioni operative devono riportare
Operazioni di ripristino: Archivio delle Istruzioni Operative
Es: Attività possibili sul sistema DBCID11Es: Attività possibili sul sistema DBCID11
Operazioni di ripristino : esempio check list
Verifica su supporto specifico
Conclusioni : DR una importante attività tecnico organizzativa
Il Disaster recovery è un programma di lavoro che comprende Il Disaster recovery è un programma di lavoro che comprende – la progettazione della sicurezza informaticala progettazione della sicurezza informatica– L'analisi dei rischi a cui è sottopostaL'analisi dei rischi a cui è sottoposta– La messa a punto delle contromisure ai rischiLa messa a punto delle contromisure ai rischi– L'organizzazione in grado di realizzare le contromisureL'organizzazione in grado di realizzare le contromisure– I processi di test e di controlloI processi di test e di controllo
Il Disaster recovery è parte del piano di Business Continuity che si Il Disaster recovery è parte del piano di Business Continuity che si occupa della gestione complessiva del rischio, non solo di quello occupa della gestione complessiva del rischio, non solo di quello informatico. informatico.
L'attenzione alla progettazione tecnica è importante, ma inutile se L'attenzione alla progettazione tecnica è importante, ma inutile se non combianata con una altrettanto importante progettazione non combianata con una altrettanto importante progettazione organizzativa. organizzativa.
Qualsiasi progettazione è inutile se le attività previste non vengono Qualsiasi progettazione è inutile se le attività previste non vengono periodicamente testate, specie dopo le attività di change . periodicamente testate, specie dopo le attività di change .