Download - Disaster recovery-seminar

Transcript

27 novembre 2013 27 novembre 2013

Dipartimento di Ingegneria “Enzo FerrariDipartimento di Ingegneria “Enzo Ferrari

Disaster RecoveryDisaster Recovery

La dura disciplina della sicurezza La dura disciplina della sicurezza informatica per la preservazione dei informatica per la preservazione dei

dati aziendalidati aziendali

Disaster recovery: programma del seminario Disaster recovery: programma del seminario

Contesto attuale, sicurezza informaticaContesto attuale, sicurezza informatica

Definizioni e standard di riferimentoDefinizioni e standard di riferimento

I processi ICT , le metodologie I processi ICT , le metodologie

L'analisi dei rischiL'analisi dei rischi La Valutazione dei danniLa Valutazione dei danni

Le infrastrutture informatiche resilientiLe infrastrutture informatiche resilienti

I processi ICT per la sicurezzaI processi ICT per la sicurezza

Il piano di disaster recoveryIl piano di disaster recovery

Test e Istruzioni Operative Test e Istruzioni Operative

La sicurezza La sicurezza informatica senza informatica senza una misurazione una misurazione

continua e puntuale continua e puntuale dei rischi e una dei rischi e una valutazione dei valutazione dei

danni è più materia danni è più materia di psicologi che non di psicologi che non

di ingegneri .di ingegneri .

La sicurezza La sicurezza informatica senza informatica senza una misurazione una misurazione

continua e puntuale continua e puntuale dei rischi e una dei rischi e una valutazione dei valutazione dei

danni è più materia danni è più materia di psicologi che non di psicologi che non

di ingegneri .di ingegneri .

La continuità operativa La continuità operativa

Le aziende moderne hanno necessità di Le aziende moderne hanno necessità di continuità operativa. Non possono fermare continuità operativa. Non possono fermare se non in modo pianificato, le loro attività.se non in modo pianificato, le loro attività.

L'interdipendenza dei sistemi genera una L'interdipendenza dei sistemi genera una complessità non visibile quando tutto complessità non visibile quando tutto funziona. Una discontinuità operativa può funziona. Una discontinuità operativa può produrre danni anche dove non si pensa.produrre danni anche dove non si pensa.

Oggi la continuità operativa è principalmente Oggi la continuità operativa è principalmente assicurata dalle procedure informatiche. assicurata dalle procedure informatiche. Fermare i servizi informatici significa Fermare i servizi informatici significa interrompere la continuità operativa.interrompere la continuità operativa.

La gravità di una discontinuità non è La gravità di una discontinuità non è

proporzionale ma esponenziale rispetto al proporzionale ma esponenziale rispetto al tempo, il valore dell'esponente è una tempo, il valore dell'esponente è una variabile tipica del tipo di business e variabile tipica del tipo di business e dell'azienda. dell'azienda.

6% è la 6% è la percentuale di percentuale di

sopravvivenza di sopravvivenza di aziende che hanno aziende che hanno subito una forma di subito una forma di

disastro - il 43% disastro - il 43% non ha mai riaperto non ha mai riaperto

e il 51% ha e il 51% ha continuato l'attività continuato l'attività ma ha chiuso entro ma ha chiuso entro i 2 anni successivii 2 anni successivi

6% è la 6% è la percentuale di percentuale di

sopravvivenza di sopravvivenza di aziende che hanno aziende che hanno subito una forma di subito una forma di

disastro - il 43% disastro - il 43% non ha mai riaperto non ha mai riaperto

e il 51% ha e il 51% ha continuato l'attività continuato l'attività ma ha chiuso entro ma ha chiuso entro i 2 anni successivii 2 anni successivi

Minacce alla continuità operativa

Fonte : IBM 2012

Minacce alla continuità operativa

Alcune Definizioni Alcune Definizioni

Business Continuity Business Continuity Si intende la capacità dell'azienda di continuare ad esercitare il proprio business a fronte di Si intende la capacità dell'azienda di continuare ad esercitare il proprio business a fronte di

eventi avversi che possono colpirla. Viene comunemente considerata come un processo eventi avversi che possono colpirla. Viene comunemente considerata come un processo globale che identifica i pericoli potenziali che minacciano l'organizzazione, fornisce una globale che identifica i pericoli potenziali che minacciano l'organizzazione, fornisce una struttura che consente di aumentare la resilienza e la capacità di risposta in maniera da struttura che consente di aumentare la resilienza e la capacità di risposta in maniera da salvaguardare gli interessi degli stakeholders, le attività produttive, l'immagine, riducendo i salvaguardare gli interessi degli stakeholders, le attività produttive, l'immagine, riducendo i rischi e le conseguenze sul piano gestionale, amministrativo, legale.rischi e le conseguenze sul piano gestionale, amministrativo, legale.

Disaster RecoveryDisaster RecoveryIn informatica, nell'ambito della di sicurezza informatica, per disaster recovery si intende In informatica, nell'ambito della di sicurezza informatica, per disaster recovery si intende

l'insieme delle misure tecnologiche e logistico/organizzative atte a ripristinare sistemi, dati l'insieme delle misure tecnologiche e logistico/organizzative atte a ripristinare sistemi, dati e infrastrutture necessarie all'erogazione di servizi di business per imprese, associazioni o e infrastrutture necessarie all'erogazione di servizi di business per imprese, associazioni o enti, a fronte di gravi emergenze che ne intacchino la regolare attività. Il disaster Recovery enti, a fronte di gravi emergenze che ne intacchino la regolare attività. Il disaster Recovery plan è parte della Business Continuity plan è parte della Business Continuity

Riferimenti normativi Riferimenti normativi ISO/IEC 27001 "Information Security Management System"ISO/IEC 27001 "Information Security Management System"BS 25999 "Business Continuity Management System"BS 25999 "Business Continuity Management System"LEGGE 196/2003 PrivacyLEGGE 196/2003 Privacy

Alcune Definizioni Alcune Definizioni

Recovery Point Objective (RPO):Recovery Point Objective (RPO):è uno dei parametri usati nell'ambito delle politiche di disaster recovery per descrivere la è uno dei parametri usati nell'ambito delle politiche di disaster recovery per descrivere la

tolleranza ai guasti di un sistema informatico. Esso rappresenta il massimo tempo che tolleranza ai guasti di un sistema informatico. Esso rappresenta il massimo tempo che intercorre tra la produzione di un dato e la sua messa in sicurezza (ad esempio attraverso intercorre tra la produzione di un dato e la sua messa in sicurezza (ad esempio attraverso backup) e, conseguentemente, fornisce la misura della massima quantità di dati che il backup) e, conseguentemente, fornisce la misura della massima quantità di dati che il sistema può perdere a causa di guasto improvviso. Al diminuire dell'RPO richiesto si sistema può perdere a causa di guasto improvviso. Al diminuire dell'RPO richiesto si rendono necessarie politiche di sicurezza sempre più stringenti e dispendiose, che possono rendono necessarie politiche di sicurezza sempre più stringenti e dispendiose, che possono andare dal salvataggio dei dati su supporti ridondanti tolleranti ai guasti fino alla loro andare dal salvataggio dei dati su supporti ridondanti tolleranti ai guasti fino alla loro pressoché immediata replicazione su un sistema informatico secondario d'emergenza pressoché immediata replicazione su un sistema informatico secondario d'emergenza (soluzione in grado di garantire, in linea teorica, valori di RPO prossimi allo zero)(soluzione in grado di garantire, in linea teorica, valori di RPO prossimi allo zero)

Recovery Time Objective (RTO):Recovery Time Objective (RTO):è il tempo necessario per il pieno recupero dell'operatività di un sistema o di un processo è il tempo necessario per il pieno recupero dell'operatività di un sistema o di un processo

organizzativo in un sistema di analisi Business Critical System (ad esempio implementazioni organizzativo in un sistema di analisi Business Critical System (ad esempio implementazioni di politiche di Disaster Recovery nei Sistemi Informativi).di politiche di Disaster Recovery nei Sistemi Informativi).

È in pratica la massima durata, prevista o tollerata, del downtime occorso.È in pratica la massima durata, prevista o tollerata, del downtime occorso.

Alcune Definizioni Alcune Definizioni

Risk AssestementRisk AssestementE' il processo attraverso il quale le aziende determinano i rischi, le vulnerabilità, l'analisi dei E' il processo attraverso il quale le aziende determinano i rischi, le vulnerabilità, l'analisi dei

danni possibili e formulano i diversi scenari possibili di disastro. Si definiscono i processi danni possibili e formulano i diversi scenari possibili di disastro. Si definiscono i processi prioritari , si identificano le interdipendenze tra i processi critici, l'organizzazione e le prioritari , si identificano le interdipendenze tra i processi critici, l'organizzazione e le persone e i servizi. Si identificano i danni potenziali derivanti da accadimenti accidentali persone e i servizi. Si identificano i danni potenziali derivanti da accadimenti accidentali non prevedibili. non prevedibili.

Probable Maximum Business Interruption Loss (PML):Probable Maximum Business Interruption Loss (PML):Perdite, basate su un worst-case scenario, che possono risultare da una interruzione della Perdite, basate su un worst-case scenario, che possono risultare da una interruzione della

continuità operativa secondo gravità della interruzione e della durata della stessa. Serve continuità operativa secondo gravità della interruzione e della durata della stessa. Serve molto per una valutazione assicurativa.molto per una valutazione assicurativa.

Rischio OperativoRischio OperativoIl rischio operativo è la valutazione delle cause e relative probabilità di una interruzione di Il rischio operativo è la valutazione delle cause e relative probabilità di una interruzione di

servizio e del tempo di detta interruzione . Tale valutazione è entrata a far parte dell'analisi servizio e del tempo di detta interruzione . Tale valutazione è entrata a far parte dell'analisi de rischi a partire dal mondo bancario e dagli accordi definiti Basilea 2.de rischi a partire dal mondo bancario e dagli accordi definiti Basilea 2.

I processi IT e le metodologie, l'esempio ITIL

ITIL service operation

I processi fondamentali per la gestione della sicurezza

Backup dei dati, delle applicazioniBackup dei dati, delle applicazioni

Restore dei dati, delle applicazioni Restore dei dati, delle applicazioni

Monitoraggio Monitoraggio

Incident managementIncident management Procedure per il disaster recoveryProcedure per il disaster recovery

Service level managementService level management

Availability management Availability management

ICT Service continuity mgmICT Service continuity mgm

Information security mgmInformation security mgm

Disegno dei serviziDisegno dei servizi

Gestione delle OperazioniGestione delle Operazioni

Organizzare le attività : CMBD configuration management database

Le applicazione per gestire l'informazione sui processi ICTLe applicazione per gestire l'informazione sui processi ICT

Servizi Erogati

Sistemi Eroganti

Client dei servizi

Incident

Change

SLA

Piccola dimostrazione pratica

L'analisi dei rischi – Risk assestement

L'analisi dei L'analisi dei rischi , rischi ,

l'individuazione l'individuazione delle minacce, la delle minacce, la

gestione delle gestione delle relative relative

contromidure è il contromidure è il punto di punto di

partenza per la partenza per la definizione di un definizione di un

corretto corretto processo di processo di

Disaster Disaster RecoveryRecovery

L'analisi dei L'analisi dei rischi , rischi ,

l'individuazione l'individuazione delle minacce, la delle minacce, la

gestione delle gestione delle relative relative

contromidure è il contromidure è il punto di punto di

partenza per la partenza per la definizione di un definizione di un

corretto corretto processo di processo di

Disaster Disaster RecoveryRecovery

L'analisi dei rischi – Un esercitazione pratica

Ogni anno deve essere presentato il Ogni anno deve essere presentato il

Documento programmatico per la sicurezzaDocumento programmatico per la sicurezza

DPSDPS

In questo documento, nella sezione Risk Analisys, vengono analizzati tutti i rischi e le relative azioni mitiganti

Il documento di Conserve Italia

Una valutazione dei danni : una esercizio vero

Tabella Valutazione Danni derivanti da disservizi informatici solo sistemi Mission Critical

Una Infrastruttura adeguata: la ridondanza

Una varietà di soluzioni per la copertura dei rischi di una varietà di serviziUna varietà di soluzioni per la copertura dei rischi di una varietà di servizi

Una infrastruttura adeguata : NO Single point of failure

I componenti delle architetture server devono essere a loro volta resilienti al guasto di un singolo componente: ventola, alimentatore, scheda di rete , dischi interni.

Dove questo non è possibile occorre ridondare i componenti

Dall'offerta RAID in poi , la componente storage è normalmente ridondata allo scopo di reggere al guasto del singolo componente

La progettazione anche di un piccolo datacenter deve sempre prevedere La progettazione anche di un piccolo datacenter deve sempre prevedere la resilienza al guasto del singolo componente. la resilienza al guasto del singolo componente.

Una infrastruttura adeguata : il monitoraggio automatico

TIER La classificazione dei Data Center

Livello Uptime % Hours Downtime per

Year

Redundancy Hour power & cooling outage

protection

TIER 1 99,671 % 28,8 NO -

TIER 2 99,749 % 22 Partial power and cooling

TIER 3 99,982 % 1,6 N+1 Fault tolerant

TIER 4 99,995 % 2,4 min 2N+1 Fully redundant

The Data Center Tier Classification system: I, II, III and IV was introduced by the Uptime Institute. Tier IV represents the highest level of availability, reliability and security for corporations. Large companies worldwide contract with Uptime Institute to achieve a Tier certification of their choice.

Le Tecnologie “ SINCRONIZZAZIONE “

DistanzaCluster Applicativo

A BSi definiscono 2 istanze A e B che gestiscono le stesse applicazioni e gli stessi dati, vengono però popolati su 2 istanze diverse in 2 tempi diversi. Se A cade occorre eseguire lo switch verso B. Esempi: domino cluster (posta), oracle standby database .

Indipendente dall'hardware

Tollerante verso le distanze

Sfrutta l'infrastruttura esistente

Consente di gestire ripristini in forme diverse

Complesso da implementare

Lento nello switch Gestione pesante

per il controllo di funzionamento

Gestione molto pesante per gli aggiornamenti

++ - -

Le Tecnologie “ SINCRONIZZAZIONE “

DistanzaCluster con journaling A A1Si definiscono 2 istanze A e A1 , una sola è l'istanza attiva, l'istanza A1 è aggiornata attraverso transazioni non applicative ma di variazione di blocchi del sistema storage. Al cadere dell'istanza A occorre comandare uno switch

Discretamente tollerante verso le distanze

Supporta più livelli di sicurezza

Consente di gestire ripristini in forme diverse

Facile da controllare Macchina del tempo

Dipende dallo storage

Architetture proprietarie

Switch da comandare

++ - -

J J

Le Tecnologie “ SINCRONIZZAZIONE “

DistanzaSistema Cluster remotizzabile

Si definisce una sola istanza A che è distribuita in 2 siti diversi i meccanismi di sincronia sono in carico allo storage. Si può perdere un sito, l'applicazione continua a funzionare .

Non c'è switch Si comporta come un

solo sistema Molto semplice da

gestire Molto semplice da

implementare

Specifica soluzione dipende dall'hardware

Distanze brevi , quelle del fiber channel (300 mt)

Non gestisce le asincronie

++ - -

Distribuzione capacità elaborativa : Rischio “SITO” Distribuzione capacità elaborativa : Rischio “SITO”

Distribuzione capacità elaborativa: Rischio territorioDistribuzione capacità elaborativa: Rischio territorio

Luoghi vicini comportano una omogeneità di richio

Segliere Luoghi con bassi rischi o quantomeno complementari

Ogni luogo è sottoposto a diverse tipologie di rischio

Pratica di base: Backup e Restore

Le operazioni di backup-restore sono la Le operazioni di backup-restore sono la pratica basilare per il salvataggio dei dati e pratica basilare per il salvataggio dei dati e la garanzia del loro eventuale ripristino la garanzia del loro eventuale ripristino

E' necessario che le copie di backup siano E' necessario che le copie di backup siano conservate su supporti mobili in luoghi conservate su supporti mobili in luoghi diversi da quelli dove sono conservati i dati diversi da quelli dove sono conservati i dati

L'affidabilità del processo di backup-restore L'affidabilità del processo di backup-restore si misura solo attraverso i test di restore si misura solo attraverso i test di restore

Il tempo di backup-restore e lo spazio Il tempo di backup-restore e lo spazio occupato sono le variabili critiche rispetto occupato sono le variabili critiche rispetto alla efficienza del processo di backup-restore alla efficienza del processo di backup-restore e alla copertura di un incident o di un e alla copertura di un incident o di un disastro.disastro.

Pratica di base: Backup e Restore definizioni

Backup on-line , a caldo Backup on-line , a caldo Si tratta di modalità di backup che prevedono l'esecuzione con le

applicazioni attive . Finsestra di backupFinsestra di backupPeriodo in cui un sistema è disponibile per il backup. Le procedure di

backup possono avere effetti di rallentamento sui sistemi e sulla rete; alcune operazioni richiedono che l'uso primario del sistema sia sospeso. Questi effetti possono essere mitigati concordando una finestra di backup con il proprietario del sistema.

Tape libraryTape libraryun sistema che contiene dei nastri per il backup, un lettore di barcode per

identificare i nastri e un automatismo per movimentare i nastri all'interno della library. Una tape library può contenere delle enormi quantità di dati. Tecnologie DLT

Schema di rotazione del backupSchema di rotazione del backupper effettuare un backup giornaliero vengono di solito fatti ruotare gli

stessi media (es. i nastri). Lo schema di rotazione stabilisce appunto il metodo di rotazione e di ritenzione (data retention) dei dati. Vengono utilizzati diversi schemi quali: Incrementale; Nonno, padre e figlio; la torre di Hanoi, ecc.

Retention time – tempo di retention Retention time – tempo di retention tempo in cui un certo set di dati rimane disponibile per il restore. Il tempo

di retention viene generalmente misurato in giorni. In alcuni casi viene misurata una 'retention' sulla base del numero di copie dei dati di backup, indipendentemente dal tempo a cui esse si riferiscono.

Backup e Restore , variabili critiche: Tempo e Spazio

Backup CompletoBackup Completoun backup di tutti i file del sistema. A differenza della disk image, un full backup

non include le tavole di allocazione, le partizioni ed i settori di boot.Backup incrementale Backup incrementale backup che contiene tutti i file cambiati dall'ultimo backup (completo e

incrementale). Il backup incrementale è più rapido di quello differenziale ma richiede tempi di restore più lunghi poiché è necessario partire dall'ultimo backup completo e poi aggiungere in sequenza tutti i backup incrementali.

Backup differenziale Backup differenziale backup cumulativo di tutti i cambiamenti effettuati a partire dall'ultimo backup

completo (o full backup). Il vantaggio è il minor tempo necessario rispetto ad un backup completo. Lo svantaggio è che i dati da salvare aumentano per ogni giorno trascorso dall'ultimo backup.

Compressione Compressione la compressione è ottenuta tramite algoritmi di compressione dei dati (come

quelli usati dai programmi più famosi come Winzip, WinRar, WinAce) prima che vengano registrati sul supporto di backup, oppure attraverso la deduplicazione

Deduplica Deduplica è ottenuta tramite algoritmi di deduplicazione (che significa eliminazione dei

duplicati) che possono agire a livello di singolo file o di blocco . La deduplicazione può essere eseguita prima, durante o dopo la copia di backup, in contemporanea o in differita rispetto alla normale operatività dei sistemi informatici.La deduplicazione è utile, in particolare, per i gruppi di file o le cartelle di file che necessitano di un backup completo e quotidiano.

Il piano di Disaster Recovery

7Analisi del business

Analisi dei rischi e delle conseguenze

Comitato di crisi

Verifiche delle interdipendenze

Analisi dell'incident, Piano di ripristino, Steps e Checklist

Addestramento econsapevolezza

Piano dei test

DRP manutenzione

Analisi dell'incident, Piano di ripristino, Steps e Checklist

1 incident 2 Riscontroincident

3 Analisi della situazione

Lieve

Grave

4 Avvio delripristino

8 Convocazionecomitato

9 Suddivisione dei compiti

5 OK

7 No Ok

6 Fine

10 Operazioni di ripristino

11 OK

13 No Ok

14 RestoreEscalation

12 Fine

15 Operazioni di ripristino 16 Fine

Monitoraggio

Reperibile Responsabile

Operazioni molto

complesse

Operazioni Complesse

Non codificate

Operazioni Semplicicodificate

Tecnico

SistemistaEsperto

Sistemistaesperto eConsulenti

Operazioni di rispristino: Le istruzioni operative, Le check List

Archivio delle istruzioni check listArchivio delle istruzioni check listOccorre un archivio elettronico sempre raggiungibile possibilmente replicato anche sugli strumenti

di lavoro dei tecnici dove archiviare le istruzioni. Ricerca delle istruzioni Ricerca delle istruzioni La riccera delle istruzioni deve essere più veloce possibile, sia ricerca testo libero, sia ricerca per

classificazione, sia ricerca per autore.

Contesto operativo Contesto operativo Il documento deve essere senza fronzoli descrittivi, per prima cosa deve illustrare il contesto operativo e se è una bugfix una definizione del BUG

Sequenze Sequenze Dopo una minima definizione del contesto, occorre illustrare bene la sequenza delle operazioni , nel casso di un riprisdtino è fondamentale !!

Comandi Comandi All'internbo delle sequenze ci saranno comandi da impartire, con i nuovi oggetti visual i comandi devono essere descritti con gli screen shot delle esecuzioni

Esiti e test di funzionamentoEsiti e test di funzionamentoDovranno essere descritti con dovizia di aprticolari, gli esiti attesi dalle operazioni e i metodi per controllare detti esiti - TEST

I documenti relative alle istruzioni operative devono riportare I documenti relative alle istruzioni operative devono riportare

Operazioni di ripristino: Archivio delle Istruzioni Operative

Es: Attività possibili sul sistema DBCID11Es: Attività possibili sul sistema DBCID11

Operazioni di ripristino : esempio check list

Verifica su supporto specifico

Conclusioni : DR una importante attività tecnico organizzativa

Il Disaster recovery è un programma di lavoro che comprende Il Disaster recovery è un programma di lavoro che comprende – la progettazione della sicurezza informaticala progettazione della sicurezza informatica– L'analisi dei rischi a cui è sottopostaL'analisi dei rischi a cui è sottoposta– La messa a punto delle contromisure ai rischiLa messa a punto delle contromisure ai rischi– L'organizzazione in grado di realizzare le contromisureL'organizzazione in grado di realizzare le contromisure– I processi di test e di controlloI processi di test e di controllo

Il Disaster recovery è parte del piano di Business Continuity che si Il Disaster recovery è parte del piano di Business Continuity che si occupa della gestione complessiva del rischio, non solo di quello occupa della gestione complessiva del rischio, non solo di quello informatico. informatico.

L'attenzione alla progettazione tecnica è importante, ma inutile se L'attenzione alla progettazione tecnica è importante, ma inutile se non combianata con una altrettanto importante progettazione non combianata con una altrettanto importante progettazione organizzativa. organizzativa.

Qualsiasi progettazione è inutile se le attività previste non vengono Qualsiasi progettazione è inutile se le attività previste non vengono periodicamente testate, specie dopo le attività di change . periodicamente testate, specie dopo le attività di change .