+ All Categories
Home > Documents > Informatica Big Data

Informatica Big Data

Date post: 08-Mar-2016
Category:
Upload: eparente773
View: 17 times
Download: 0 times
Share this document with a friend
Description:
Informatica Big Data

of 65

Transcript
  • The Big Big Data WorkbookUna guida pratica per avviare iltuoprimoprogetto Big Data.

  • ContenutiIntroduzione

    Informazioni utili I motivi che spingono le aziende a implementare progetti Big DataI motivi del fallimento dei progetti Big Data Come far funzionare il progetto Big Data

    Scelta del progetto giustoCaratteristiche del progetto giusto Considerare l'impatto Progetti di Big Data tattici: alcuni esempi Il percorso base per i progetti Big Data

    Definizione degli obiettiviGli obiettivi del businessObiettivi dell'IT

    Definizione delle esigenze sui datiQuali dati sono necessari?Cinque considerazioni chiave sui dati

    Suggerimento: fare clic per raggiungere la sezione

    Parte B: la strategia

    Parte C: la supply chain dei Big Data lean3

    4

    5

    6710

    1213151719

    23

    242527

    293033

    Il teamCinque lezioni chiave di team-buildingOrganizzazione della governance dei dati Competenze richieste e competenze gi disponibili

    Gli strumentiDettagli sugli strumenti per i Big Data

    I processiLe otto fasi di un progetto Big Data

    L'architetturaFasi preliminari: l'ambiente sandboxL'architettura Big Data ideale

    Il piano di progettoIl piano di progetto

    Implementazione

    Prossimi step

    Informazioni su Informatica

    36

    37384245

    4748

    5253

    565759

    6061

    63

    64

    65

    Parte A: preparazione

    2 | Informatica The Big Big Data Workbook

  • Pochi trend tecnologichi hanno raggiunto la fama e la notoriet dei Big Data, cos come poche tendenze tecnologiche hanno offerto un potenziale di trasformazione grande quanto i Big Data. Fin da quando il software alla fine del secolo scorso ha iniziato a supportare in modo consistente interi processi aziendali stato chiaro: i dati cambiano il nostro modo di lavorare.

    Naturalmente, a una grande pubblicit segue una grande disillusione. Nel caso dei Big Data, si sono visti in egual misura ottimi consigli e disinformazione. Sfortunatamente, poich questo mondo di dati infiniti cos nuovo, tutto questo rumore non ha fatto altro che confondere molti.

    Questa guida cerca di fare un po'di luce su questa confusione.

    Intende blindare la strategia, permettendo di eseguirla pragmaticamente. Sia per un'iniziativa tattica localizzata o per la pianificazione di un intervento su vasta scala per lintera azienda, questo manuale costituisce una guida pratica per padroneggiare il mondo dei Big Data.

    Diamo inizio a questo viaggio.

    Verso i Big Data

    3 | Informatica The Big Big Data Workbook

  • Informazioni utiliPrima di approfondire le specifiche del progetto, di seguito sono elencati alcuni consigli che molti professionisti dei Big Data avrebbero voluto sapere prima di iniziare i loro progetti.

    2

    4

    6

    8

    10

    12

    14

  • Solitamente le aziende decidono di approcciare i Big Data per uno dei seguenti motivi.

    L'azienda sta cercando di migliorare il livello delle proprie analisi e si rende conto che per raggiungere questo risultato occorre incrementare enormemente la qualit dei dati da analizzare. Di norma, una business unit, come ad esempio il marketing, avvia queste iniziative. L'azienda comprende di poter inglobare i propri prodotti in un livello di servizio offrendo analytics (spesso in tempo reale) in grado di aiutare i clienti a utilizzare i prodotti in modo pi efficiente ed efficace.

    L'azienda intende operare in modo pi rapido, migliore e pi efficace in termini economici sfruttando i Big Data per decisioni informate relative a una specifica business unit o a un processo specifico.

    L'azienda si rende conto che i Big Data sono fondamentali per ogni business unit in azienda e tenta di gettare le basi per una vista globale focalizzata sui dati.

    L'azienda sa di dover iniziare a prepararsi ai Big Data prima che sia troppo tardi, ma in realt non ha ancora capito a cosa servono. L'obiettivo imparare e sperimentare con tali dati.

    Sono tutti ottimi motivi per interessarsi ai Big Data, ma per garantire che i progetti durino nel tempo (e superino l'esame multi-dipartimentale), bisogna avere chiare le motivazioni per il raggiungimento degli obiettivi aziendali prefissati.

    I motivi che spingono le aziende ad implementare progetti Big Data

    Informazioni utili

    6 | Informatica The Big Big Data Workbook

  • Un sondaggio1 indica che il 55% dei progetti Big Data non viene completato e molti altri progetti non raggiungono gli obiettivi. Sebbene questa percentuale di fallimento sia abbastanza frequente in una fase cos prematura di un trend tecnologico, non sarebbe saggio imparare da questi errori.

    Analizziamo le quattro principali ragioni di fallimento dei progetti Big Data.

    Obiettivi vaghi

    Il motivo di fallimento pi citato nel sondaggio "ambito impreciso" del progetto. Troppe aziende puntano su progetti ambiziosi, decisamente troppo ambiziosi, senza obiettivi chiari, per poi fallire quando devono prendere decisioni difficili su cosa importante o meno.

    Perseguire i Big Data solo per avere un progetto Big Data la ricetta perfetta per un disastro. Le complessit di questi progetti richiede una solida dedizione per ottenere un determinato risultato. Senza la certezza degli obiettivi, avere successo impossibile.

    I motivi del fallimento dei progetti Big Data

    1

    1. www.informationweek.com/software/information-management/vague-goals-seed-big-data-failures/d/d-id/1108384

    Informazioni utili

    7 | Informatica The Big Big Data Workbook

  • 2 3

    Aspettative mal gestite

    Tutta la pubblicit attorno ai Big Data rende alcune assunzioni molto pericolose, soprattutto per quanto riguarda i risultati ottenibili dai progetti. Nonostante la tentazione di cedere a grandi promesse in tempi brevi, importante mantenere una vista realistica in merito a previsioni del progetto, durata e quantit di lavoro richiesta per raggiungere gli obiettivi.

    Quando le aspettative relative a impatto e informazioni utili ottenibili sono eccessivamente elevate, ci si ritrova a navigare in terabyte di incognite sconosciute. Se le aspettative per la consegna sono irrealistiche, si rischia di puntare su scadenze e budget completamente sbagliati.

    Sforamenti e ritardi del progetto

    Considerando quanto questa disciplina sia nuova per le aziende, non c' da sorprendersi se la maggior parte dei progetti Big Data costa eccessivamente o richiede troppo tempo. Tipicamente si tratta di una combinazione di aspettative mal gestite e di incomprensioni su come creare un'architettura scalabile.

    Quando vengono assunti rari e costosi sviluppatori Java Hadoop per mastodontiche implementazioni di codifica manuale, le aziende presto realizzano l'impossibilit a metter piede fuori dall'ambiente sandbox senza errori. Di conseguenza, i progetti Big Data difficilmente escono dal laboratorio.

    Informazioni utili

    I motivi del fallimento dei progetti Big Data

    8 | Informatica The Big Big Data Workbook

  • 4Incapacit di ridimensionarsi gi abbastanza complicato trovare cinque buoni sviluppatori Java Hadoop, ma quando i progetti crescono ed necessario passare a 30 sviluppatori Java in un solo anno, la situazione precipita. La cosa peggiore non il rapporto opportunit-costi dei cluster Hadoop inutilizzati, ma il rapporto opportunit-costi relativo a perdita di slancio e tempo.

    Troppo spesso, le aziende mirano a opportunit a breve termine piuttosto che alla sostenibilit a lungo termine. Non possiamo fare a meno di suggerire che sempre possibile evitare tale compromesso e non ci stancheremo mai di sottolineare l'importanza della vista a lungo termine. Affinch i dati siano adeguatamente protetti e gestiti, considerare sempre le implicazioni a lungo termine del progetto.

    I quattro motivi per il fallimento dei Big Data sono preoccupanti e troppo spesso comuni. Quindi, prendiamo in esame come evitarli e come creare un'implementazione duratura.

    Informazioni utili

    I motivi del fallimento dei progetti Big Data

    9 | Informatica The Big Big Data Workbook

  • Come far funzionare il progetto Big DataSe la maggior parte dei progetti Big Data manca di chiarezza e non riesce a dimostrare l'efficacia dell'iniziativa, bisogna agire in prima persona per attirare attenzione e dimostrarne la validit. Di seguito, tre utili suggerimenti per garantire il successo del progetto.

    Stabilire obiettivi chiari e gestire le aspettative

    In caso si abbiano dubbi circa gli obiettivi del progetto, considerare quelli stabiliti per l'infrastruttura dati esistente.

    Se l'azienda necessita gi dei dati per alcuni processi aziendali (come il rilevamento delle frodi o le analisi di mercato), vale la pena prendere in considerazione il modo in cui i Big Data possono rendere questi processi migliori e pi utili. Invece di gettarsi su un problema completamente nuovo, provare a migliorare un processo o un progetto esistente.

    Senza una chiara messa a fuoco e un valore dimostrabile per gli utenti business il progetto non ha senso di esistere.

    Definire metriche che dimostrino il valore del progetto

    Definite metriche chiare per supportare i vostri obiettivi; eviterete una gran quantit di problemi. Stabilendo obiettivi realistici e misurabili, tutti riusciranno a visualizzare i progressi.

    Cosa pi importante, traccerete una direzione da seguire nel lungo termine. Chiedetevi come si misura l'impatto del progetto nel contesto dei vostri obiettivi.

    Questo fondamentale in quanto si presenteranno dei compromessi a breve termine che gli utenti business dovranno razionalizzare. Obiettivi misurabili promuovono l'opportunit di un valore maggiore rispetto a quanto realizzato.

    1 2

    Informazioni utili

    10 | Informatica The Big Big Data Workbook

  • Siate strategici nella scelta dei tool e nella codifica manuale

    Evitate di codificare manualmente tutto direttamente in Hadoop. L'obiettivo non creare un'implementazione funzionante a mani nude da zero, ma consegnare il valore dei Big Data all'azienda.

    Invece di tentare di codificare a mano ogni integrazione, pulire ogni set di dati e codificare manualmente tutti gli analytics, cercare gli strumenti e l'automazione necessari per accelerare tramite questi processi.

    Cosa pi importante, non cadere nel tranello di sprecare rari e costosi talenti nello sviluppo Java per mansioni assegnabili o trasferibili ad altri dipendenti. Le decisioni strategiche sull'utilizzo di scarse risorse per conseguire i propri obiettivi risulta quindi determinante.

    Adottare strumenti in grado di aumentare la produttivit del team di sviluppo sfruttando le competenze e la conoscenza di esperti in materia di ETL, data quality e business intelligence esistenti, consentendo ai vostri professionisti Java di lavorare su una logica specifica per la quale non sono disponibili strumenti.

    Inoltre, poich le tecnologie Hadoop si evolvono ogni giorno, vale la pena considerare un livello di astrazione in grado di proteggere da specifiche in continua evoluzione per le tecnologie sottostanti.

    Ricordare soprattutto che le competenze tecniche ricercate sono scarse, ma gli strumenti sono sempre disponibili.

    3

    Informazioni utili

    Come far funzionare il progetto Big Data

    11 | Informatica The Big Big Data Workbook

  • Scelta del progetto giustoAlla luce delle sfide che affronterete, analizziamo come scegliere il progetto opportuno per l'azienda.

  • Se l'azienda brama cambiamenti e ha gi accettato un framework completo di data governance per migliorare le metodologie di lavoro, probabilmente possibile saltare questa sezione.

    Se invece state considerando un progetto tattico localizzato, adattabile in seguito a tutta l'azienda, continuate la lettura.

    Il progetto giusto prevede i seguenti quattro componenti.

    Valore dimostrabile

    Il progetto giusto quello dove il valore condiviso in modo uniforme tra IT e business unit alla quale si fornisce supporto. Questo significa offrire un valore evidente al dipartimento, alla business unit o al gruppo in modo visibile.

    Sponsorizzazione

    Per il successo del progetto, necessario che gli executive appoggino questa visione. I progetti Big Data richiedono sostenitori e sponsor a tutti noti, intenzionati a difendere il progetto in corso.

    Quindi, ad esempio, se possibile creare analytics eccezionali per la logistica, ma il CMO l'unico a sostenere questo progetto, necessario ripensarlo. Se il sostenitore il marketing, lavorare per soddisfare i requisiti degli analytics di marketing. Il cambiamento non pu essere forzato. Seguire l'influenza e ottenere il massimo valore da essa.

    Caratteristiche del progetto giusto

    1 2

    Scelta del progetto giusto

    13 | Informatica The Big Big Data Workbook

  • Un effetto domino

    L'importanza strategica del primo progetto tattico fondamentale. L'obiettivo non solo provare senza ombra di dubbio che i Big Data aiutano le business unit che stanno supportando, anche accertarsi che il relativo valore sia poi facilmente comunicabile a tutta l'azienda.

    Quindi, durante la scelta del primo progetto, scegliere strategicamente.

    Una volta dimostrato il valore dei Big Data al dipartimento marketing, ad esempio, sar pi semplice ottenere l'approvazione dai team della logistica, altrimenti reticenti.

    Competenze trasferibili

    Come per il punto precedente, il valore del primo progetto deve convincere gli altri dipartimenti aziendali. A tale scopo, dovete assicurarvi di fare tesoro delle capacit e competenze sviluppate con il primo progetto. Pi esplicitamente, bisogna documentare tutto, in modo da poter trasferire le conoscenze al progetto successivo. Ricordate: per puntare al successo, bene puntare tutto sui progetti futuri.

    Prepararsi alla scalabilit, per gestire in futuro un numero maggiore di progetti. Non solo una questione di scalabilit del cluster, ma riguarda la scalabilit delle competenze e delle attivit aziendali. Bisogna trovare altri professionisti Java/Hadoop o trovare modi per ottenere il massimo dalle risorse a disposizione.

    3 4

    Scelta del progetto giusto

    Caratteristiche del progetto giusto

    14 | Informatica The Big Big Data Workbook

  • Considerare l'impatto

    In fase di scelta del progetto successivo, considerare anche in che modo influir sull'azienda. Tre aspetti generali giocano un ruolo determinante nello stabilire se si persegue il giusto progetto Big Data.

    Costo e interruzione

    Tendenzialmente, il costo del progetto si basa sul tempo e sul denaro necessari per metterlo in piedi. In realt, necessario considerare anche la potenziale interruzione che causa.

    A volte l'interruzione procedurale: quando le business unit sono abituate a possedere i propri dati e non intendono concedere il controllo di tali dati a un framework di data governance centralizzato.

    In altri casi tecnologica e relativa alle competenze: quando richiesta l'integrazione di nuove tecnologie nell'infrastruttura esistente e la relativa riorganizzazione o l'aggiornamento delle competenze.

    In ogni caso, necessario prevedere, riconoscere e accertarsi che le interruzioni siano ridotte al minimo oppure comunicare il perch di una interruzione.

    1

    Scelta del progetto giusto

    15 | Informatica The Big Big Data Workbook

  • Considerare l'impatto

    Tempistiche dei vantaggi e dell'impatto Quando si considerano i diversi progetti iniziali, si tender naturalmente verso quelli in grado di offrire l'impatto e il miglioramento aziendale massimo. Tuttavia, anche importante considerare la natura dell'impatto aziendale. La maggior parte del valore sar usufruibile a breve termine o a lungo termine?

    Cosa pi importante, quando gli utenti business potranno beneficiare di questi vantaggi da un punto di vista del business? Ad esempio, possibile introdurre la gestione dei dati master sul data warehouse locale e migliorare decisamente l'efficienza della business intelligence, ma tale valore sar avvertito solo una volta che i business analyst realizzeranno di non dover ripulire di nuovo i dati finanziari.

    Risorse e limitazioni

    Alla luce dell'analisi dei due precedenti fattori, prendere in considerazione le risorse a disposizione. Le suddivideremo in maggior dettaglio pi avanti, ma per adesso considerate l'innovazione offerta dal progetto piuttosto che l'investimento.

    Il conseguimento di tale obiettivo soddisfa entrambi i requisiti: da una parte, si punta sul massimo impatto aziendale, rimanendo comunque strategici in quanto a budget. Sebbene la creazione di un team di data scientist per emulare Google sia allettante, realmente possibile permetterselo? Prendere decisioni intelligenti tra strumenti e personale risulta un fattore determinante per il successo del progetto.

    2 3

    Scelta del progetto giusto

    16 | Informatica The Big Big Data Workbook

  • Progetti di Big Data tattici: alcuni esempiEsiste una vasta gamma di applicazioni per i Big Data. Per quanto possa sembrare esaltante, risulta altrettanto scoraggiante per le persone che non sanno con quale progetto iniziare. Ecco un elenco di progetti di Big Data tattici che per nostra esperienza i clienti hanno intrapreso.

    In caso di ulteriori dubbi sul progetto dal quale iniziare, prendere in considerazione i seguenti esempi per offrire un'idea migliore dei Big Data alla propria azienda.

    Analisi dei rischi e del portafoglio

    Consigli sugli investimenti

    Finance

    Programmi correlati ai veicoli

    Manutenzione predittiva

    Produzione

    Previsioni sulle condizioni del paziente

    Costo totale della cura Scoperta di medicinali

    Sanit

    Assicurazione sanitaria Scambi Ottimizzazione

    tributaria Rilevamento frodi

    Settore pubblico

    Coinvolgimento proattivo del cliente

    Servizi in base alla localit

    Retail

    Tracciamento del comportamento durante il gioco

    Opzioni di cross-sell e up-sell

    Multimediale

    Scelta del progetto giusto

    17 | Informatica The Big Big Data Workbook

  • L'obiettivo di alcuni dei nostri clienti

    Prendiamo in esame nello specifico come alcuni dei nostri clienti descrivono le proprie iniziative. Questo il tipo di messa a fuoco da ricercare per progetti del genere.

    Una grande azienda tecnologica della Silicon Valley punta a risparmiare pi di 10 milioni di USD sui costi in aumento per il data warehouse, sfruttando una combinazione di Hadoop e tecnologia tradizionale di data warehouse, allo scopo di diminuire la crescita nei costi complessivi per terabyte.

    Un grande produttore di mezzi di trasporto punta a ridurre i consumi di carburante dei propri veicoli dell'1% nei prossimi 10 anni, oltre a cercare di ridurre le emissioni di carbonio tossiche estendendo i periodi di manutenzione del 10% e migliorando il chilometraggio dell'1%.

    Un produttore di locomotive intende sbloccare un ulteriore miglio all'ora sulle tratte quotidiane per consentire ai propri clienti di risparmiare quasi 200 milioni di USD all'anno.

    Un'azienda di servizi di pagamento internazionale sta cercando di aumentare il proprio business digitale del 30% personalizzando maggiormente i servizi offerti al cliente, azione che fa parte di una strategia Big Data chiamata "ottimizzazione omni-channel del retail".

    Queste sono alcune delle grandi vittorie di alcuni team Big Data.

    Scelta del progetto giusto

    Progetti di Big Data tattici: alcuni esempi

    18 | Informatica The Big Big Data Workbook

  • Il percorso base per i progetti Big DataPer iniziare a creare le fondamenta di un approccio a livello aziendale ai Big Data, le tre seguenti fasi risultano fondamentali.

    In realt, bisogna tenerle presenti anche per i progetti Big Data tattici. Ciascuna fondamentale per l'integrit di base di un'azienda incentrata sui dati. Per ottenere il massimo vantaggio in termini di costi, seguire questi punti in ordine.

    Ottimizzazione del data warehouse

    Implica l'opzione di memorizzazione ed elaborazione dei dati sulla piattaforma pi economica. L'operazione di norma inizia trasferendo i dati non elaborati o utilizzati di rado e i carichi di lavoro ETL da costosi hardware di data warehouse.

    L'obiettivo evitare costosi upgrade dei data warehouse e iniziare a utilizzare hardware e framework di computing pi economici, come Hadoop, in modo da prepararsi a gestire il volume, la variet e la velocit dei Big Data.

    1

    Scelta del progetto giusto

    19 | Informatica The Big Big Data Workbook

  • Un data lake gestito

    Un data lake gestito un unico punto in cui gestire la domanda e l'offerta di tutti i dati. La parola operativa "gestire". L'obiettivo convertire il disordine multi-strutturato in informazioni adatte allo scopo, attendibili e protette.

    Questo significa creare un data lake che perfezioni, regoli e amministri i dati. Tuttavia, bisogna effettuare tutta una serie di previsioni, in quanto necessario incorporare policy e processi di data governance rigorosi e strategici. Tuttavia senza, il lake correrebbe il rischio di trasformarsi in una palude.

    Intelligence operativa in tempo reale

    In questa fase si creano le tecnologie (analytics, applicazioni consumatrici di dati, interfacce di engagement) utili alle persone per accedere, analizzare e consegnare tutti i dati. Le applicazioni create in questa fase devono essere pratiche e consegnare le informazioni richieste dagli utenti.

    Potrebbero essere un'interfaccia per i rappresentanti dell'assistenza clienti che monitora il comportamento dei clienti su diversi canali e identifica i clienti con maggiore probabilit di abbandono nelle prossime due settimane.

    2 3

    Scelta del progetto giusto

    Il percorso base per i progetti Big Data

    20 | Informatica The Big Big Data Workbook

  • Un percorso in tre passi

    Come gi descritto in precedenza, per ottenere il massimo rapporto costi-vantaggi, si consigliano i passaggi nell'ordine seguente.

    Ridurre i costi infrastrutturali e sostenere l'architettura aziendale.

    Ottimizzazione del data warehouse

    Creazione di un unico punto in cui gestire la domanda e l'offerta di dati.

    Data lake gestito

    Offerta di applicazioni all'avanguardia leader che forniscano le informazioni richieste.

    Analytics in tempo reale

    Scelta del progetto giusto

    21 | Informatica The Big Big Data Workbook

  • Il percorso base per i progetti Big DataModalit secondo le quali i nostri clienti definiscono gli obiettivi base

    Anche i progetti base devono essere specifici per quanto riguarda l'obiettivo finale. In questo caso la specificit non riguarda il denaro e le ore risparmiati, ma i limiti di quanto esattamente viene creato. Considerate i seguenti esempi di progetti di infrastruttura Big Data di alcuni nostri clienti.

    Un'azienda internazionale che conduce centinaia di milioni di transazioni finanziarie in centinaia di paesi ha creato un data hub a livello aziendale. L'obiettivo condurre analisi dei Big Data per identificare le macro-tendenze e i macro-schemi nell'interazione con il cliente.

    Una grande azienda tecnologica ha creato un Cloud di analytics a livello aziendale per ottenere un time-to-market pi veloce per i prodotti regolati dai dati, includendo nuovi set di dati negli analytics utilizzati tra le business unit.

    Un'azienda di consulenza finanziaria globale ha creato un'infrastruttura logica di data warehouse per garantire di poter rendere disponibili informazioni coerenti tra tutte le piattaforme standard (inclusi Hadoop, database operazionali e data warehouse tradizionali) utilizzate dall'azienda.

    In breve: i grandi interventi hanno un grande impatto, ma richiedono le giuste basi.

    Scelta del progetto giusto

    22 | Informatica The Big Big Data Workbook

  • Parte B: la strategiaOra analizziamo gli aspetti pratici, esaminando i requisiti specifici per il prossimo (o il primo) progetto Big Data.

  • 101m75mph

    276m70mph

    501m69mph

    136m72mph

    411m67mph

    59855mph

    Definizione degli obiettiviScriviamo. Come gi descritto in precedenza, la causa numero uno dei fallimenti dei progetti Big Data la mancanza di obiettivi chiari. A questo punto, verifichiamo che il progetto concepito non risenta di ambiguit.

  • Iniziamo con il business in quanto questi obiettivi hanno precedenza rispetto a quelli dell'IT se il progetto deve essere appoggiato in modo esteso.

    Siate molto dettagliati nello stabilire quali sono gli obiettivi che volete che il vostro progetto raggiunga per soddisfare le esigenze del business. Puntare ad obiettivi con un impatto misurabile.

    Nell'esempio di un'interfaccia di assistenza clienti che preveda il tasso di abbandono dei clienti, gli obiettivi per quel progetto non dovrebbero essere elencati come qualcosa di vago, come "migliorare la customer experience".

    Pi sono chiari gli obiettivi, maggiore sar la probabilit di raggiungerli. Cinque obiettivi descritti alla perfezione sono pi preziosi di un obiettivo vago.

    Gli obiettivi del business

    Definizione degli obiettivi

    25 | Informatica The Big Big Data Workbook

  • Gli obiettivi del business

    Elencare, in ordine di importanza, gli obiettivi del progetto Big Data relativi al business e agli utenti business. Inserire pi o meno obiettivi. ad es., ridurre il tasso di abbandono dei clienti

    Stabilire una quantit di tempo minima e una massima per ogni obiettivo da raggiungere. ad es., da tre a sei mesi

    A questo punto, per ogni obiettivo, scrivere una misura del successo utilizzabile per determinare se l'obiettivo stato raggiunto. Idealmente, devono essere metriche o calcoli disponibili. ad es., ridurre il tasso di abbandono medio mensile del X%

    Quanto deve durare il progetto Big Data?

    Il progetto Big Data deve durare quanto necessario per realizzare appieno il suo valore. La nostra esperienza insegna che l'ambito del progetto detta la scadenza.

    Abbiamo lavorato con clienti che hanno consegnato progetti tattici in meno di tre mesi, ma anche con clienti che hanno impiegato tre anni per consegnare programmi base.

    Per i progetti pi lunghi, bisognerebbe puntare a dimostrare il valore del progetto ogni sei mesi. Qualora si adotti un approccio agile al progetto, tale approccio aiuta a presentare le diverse fasi e i diversi traguardi come progetti pi piccoli.

    Una cosa chiara: la durata non deve essere ipotizzata. Stimare il tempo per la consegna in base alla propria esperienza e all'esperienza di altri che hanno intrapreso progetti simili in precedenza. In caso abbiate dei dubbi su chi contattare per fornirvi delle indicazioni utili, potete sempre rivolgervi a noi.

    Definizione degli obiettivi

    26 | Informatica The Big Big Data Workbook

  • Obiettivi dell'IT

    Ora diamo un'occhiata agli obiettivi dell'IT, in quanto pertinenti al progetto.

    Se il progetto riguarda migliorare e velocizzare il lavoro dell'IT, si incontreranno delle difficolt nel venderlo agli utenti business. Per questo motivo, gli obiettivi dell'IT dovrebbero essere comunicati allo stesso momento in cui vengono esposti gli obiettivi per i quali gli utenti business hanno mostrato entusiasmo.

    Fermarsi, collaborare e ascoltare

    Questo manuale stato ideato per promuovere l'inizio di un progetto Big Data, sia che si lavori nel business o nell'IT. In entrambi i casi, non lasciare che gli obiettivi diventino ipotesi. Per ottenere indicazioni specifiche sugli obiettivi da conseguire, iniziate subito a collaborare con un partner che ha l'esperienza necessaria.

    Se il progetto proceder, non sar possibile mandarlo avanti senza una collaborazione strategica.

    Elencare, in ordine di importanza, gli obiettivi del progetto Big Data legati all'IT. Valutate voi se inserire pochi o molti obiettivi. ad es., stabilire processi per acquisizione in tempo reale, bonifica, amministrazione e memorizzazione di dati aggregati sui clienti, dati di utilizzo delle carte di credito, dati grafici sui social e indicatori del tasso di abbandono

    Definizione degli obiettivi

    27 | Informatica The Big Big Data Workbook

  • Obiettivi dell'IT

    Stabilire una quantit di tempo minima e una massima per ogni obiettivo da raggiungere. ad es. da due a quattro mesi

    A questo punto, per ogni obiettivo, scrivere una misura del successo utilizzabile per determinare se l'obiettivo stato raggiunto. Idealmente, devono essere metriche o calcoli disponibili. ad es., tasso di abbandono previsto del X%

    Definizione degli obiettivi

    28 | Informatica The Big Big Data Workbook

  • Definizione delle esigenze sui datiOra che abbiamo delineato obiettivi specifici per le iniziative Big Data, analizziamo l'essenza del progetto: i dati stessi. Qualsiasi sia il progetto, necessario pensare in modo strategico alle informazioni necessarie, quali set di dati soddisfano tale esigenza, in che modo si otterranno tali dati e come saranno utilizzati.

  • Per prima cosa, analizziamo lo scopo principale del progetto Big Data, nello specifico le informazioni che si stanno cercando di fornire all'azienda. Rispondere alle seguenti domande nel modo pi preciso possibile.

    Quali dati sono necessari?

    Per conseguire gli obiettivi aziendali delineati in precedenza, quale aspetto viene indicato dagli utenti aziendali come necessario per prendere una decisione informata? Ad es., tra i clienti pi importanti chi ha il potenziale tasso di abbandono pi elevato e quali comportamenti correlare all'abbandono

    Per offrire tale conoscenza, quali dati possono essere utilizzati? Ad es., cronologia degli acquisti del cliente, dati di revisione, frequenza degli acquisti, tasso di abbandono, frequenza di rimbalzo, qualit del servizio del cliente

    Definizione delle esigenze sui dati

    30 | Informatica The Big Big Data Workbook

  • Quali dati sono necessari?

    Quali sistemi sorgenti contengono tali dati? Ad es., registrazioni dell'assistenza clienti, metriche sulle performance del prodotto, database di attivit del cliente, gestione dei dati master del cliente

    Oltre ai dati gi citati, esistono altre informazioni che potrebbero conferire valore contestuale o supplementare alle analisi? Ad es., dati dei sondaggi dell'assistenza clienti, analisi sui competitor, dati metereologici, dati dei social

    Definizione delle esigenze sui dati

    31 | Informatica The Big Big Data Workbook

  • Quali dati sono necessari?

    Quali set di dati non accessibili potrebbero contenere dati contestuali supplementari? Ad es., dati dei social terze parti, dati di mercato terze parti, dati meteorologici

    Alla ricerca dei dark data

    Quando si considerano i set di dati non accessibili, non limitarsi ai dati all'esterno dell'azienda. Gartner ha riscontrato che la maggior parte delle aziende utilizza solo il 15% dei dati presenti all'interno dell'azienda2. Appfluent, un'azienda che svolge analisi statistiche sull'utilizzo dei data warehouse, riscontra che tra il 30% e il 70% dei dati in un data warehouse dormiente.

    Il resto nascosto in silos, archivi legacy e archivi dati difficili da raggiungere, costosi o complicati da trovare. La loro presenza implica un prezzo per la memorizzazione di tutti questi dati.

    Durante la ricerca dei dati necessari, partire dai dati gi in possesso dell'azienda.

    2. Sito Web Gartner: www.gartner.com/technology/topics/big-data.jsp

    Definizione delle esigenze sui dati

    32 | Informatica The Big Big Data Workbook

  • Cinque considerazioni chiave sui dati

    Una volta delineati i dati da cercare, si avr una vista pi chiara delle sfide specifiche dei Big Data. In particolare, considerare i seguenti cinque elementi chiave prima di procedere, per un'indicazione delle esigenze di ogni set di dati, oltre a quelle per il set di dati Big Data.

    Prepararsi al volume

    Prepararsi ad affrontare la "grandezza" dei dati necessari. Oltre alle dimensioni, classificare i dati in base al loro valore (ad es. transazioni del cliente), al loro utilizzo (frequenza di accesso), alla loro dimensione (gigabyte, terabyte), alla loro complessit (dati macchina, dati relazionali, video...) e a chi pu accedervi (solo i data scientist o utenti aziendali casuali).

    Un inventario accurato e organizzato dei dati aiuter a determinare le modalit di gestione. Valutare la capacit di storage ed elaborazione corrente e adottare i metodi pi economici ed efficienti per renderla scalabile.

    1

    Definizione delle esigenze sui dati

    33 | Informatica The Big Big Data Workbook

  • Cinque considerazioni chiave sui dati

    Considerare la molteplicit

    L'aspetto pi complesso dei Big Data la moltitudine di formati e strutture da riconciliare nelle analisi. Per includere nuovi tipi di dati e strutture (social, sensori, video) con le fonti gi utilizzate (relazionali, mainframe relazionali) sar necessario integrare diverse origini.

    Il tentativo di codifica manuale di ogni singola integrazione cos macchinoso che potrebbe costare tutto il tempo e le risorse in possesso dell'azienda. Sfruttare al massimo gli strumenti di data integration e data quality disponibili per velocizzare il processo e valorizzare le attivit.

    Gestire la velocit

    La combinazione di dati in streaming in tempo reale e dati cronologici solitamente aumenta il potere predittivo degli analytics. Quindi, alcuni dei dati richiesti potrebbero essere preziosi solo se si riversano costantemente nei sistemi.

    Anzi, la maggior parte delle analisi in tempo reale deve basarsi su dati in streaming, spesso da diverse fonti e in diversi formati. Preparare il progetto con la tecnologia analitica di streaming e un'infrastruttura logica per gestire tutti i dati.

    2 3

    Definizione delle esigenze sui dati

    34 | Informatica The Big Big Data Workbook

  • Cinque considerazioni chiave sui dati

    Garantire la veridicit

    Indipendentemente dall'importanza delle analisi, queste risultano inutili se le persone non possono fidarsi dei dati analizzati. Pi dati si analizzano, maggiore l'importanza di mantenere un elevato livello di data quality.

    Per rendere i dati adatti allo scopo, necessario conoscere lo scopo per il quale sono utilizzati. Se un data scientist sta cercando schemi nei dati aggregati di un cliente, la preparazione richiesta sar minima. D'altro canto, i dati di rendicontazione finanziaria e della supply chain dovranno essere maggiormente curati, puliti e certificati in termini di precisione e conformit.

    Creare categorie in base alla quantit di preparazione necessaria, spaziando da dati grezzi a un archivio dati altamente curato e amministrato di dati puliti, attendibili e autorevoli.

    Considerare la conformit

    I diversi set di dati affrontati avranno diverse disposizioni e requisiti di sicurezza. Per ogni set di dati, occorre considerare il lavoro necessario per rendere anonimi i dati in base alle policy di sicurezza.

    In azienda proliferano masse di dati in centinaia di archivi dati. Capire dove si trovano i dati sensibili e accertarsi che siano protetti alla fonte tramite la crittografia, quindi controllare chi vi accede.

    Oltre all'archiviazione sicura e intelligente dei dati sensibili, mascherare i dati con regole predefinite ogni volta che migrano o entrano in ambienti di sviluppo e test.

    Adottare queste cinque considerazioni per ogni set di dati affrontato, per prepararsi alla sfida dei Big Data in modo pi realistico.

    4 5

    Definizione delle esigenze sui dati

    35 | Informatica The Big Big Data Workbook

  • Parte C: la supply chain dei Big Data leanI metodi di business intelligence e data warehouse tradizionali non sono in grado di ridimensionarsi per soddisfare le esigenze delle iniziative Big Data. A questo punto, analizzeremo come ridimensionare il team, i processi e l'infrastruttura.

  • Il team che lavorer al progetto Big Data rappresenta la sfida maggiore, ma anche la principale opportunit. Bisogna trovare il giusto equilibrio tra persone che comprendono gli obiettivi aziendali e persone in grado di ottemperare ai requisiti tecnici.

    Il team

  • Cinque lezioni chiave di team-building

    La maggior parte delle aziende sottovaluta il livello delle competenze necessarie per applicare una nuova tecnologia, come Hadoop.

    I framework di dati distribuiti sono semplicemente troppo difficili da gestire. Dalle competenze Java necessarie a sviluppare su Hadoop alle nuove competenze di data science per le quali sono richieste nuove assunzioni, per far volare il progetto bisogna incorporare nuove competenze diversificate.3

    In fase di creazione del team, seguire i consigli che leggerete successivamente per la vostra strategia di assunzione.

    3. Hadoop, Python, and NoSQL lead the pack for big data jobs, InfoWorld, 5 maggio 2014: www.infoworld.com/t/it-jobs/hadoop-python-and-nosql-lead-the-pack-big-data-jobs-241884)

    Il team

    38 | Informatica The Big Big Data Workbook

  • Cinque lezioni chiave di team-building

    Sfruttare le capacit per le quali sono state assunte le persone

    Uno dei principali errori delle aziende quando assumono data scientist e analisti quantitativi fargli fare il "lavoro sporco". Quando le risorse pi competenti spendono tutto il loro tempo a scrivere a mano codice per le integrazioni e la pulizia dei dati, non solo insorge frustrazione, ma si perde l'occasione di sfruttare le competenze pi difficili da trovare.

    Concentrare le competenze pi rare sulle attivit che richiedono realmente tali capacit. L'ultima cosa che si vuole che le risorse migliori ci abbandonino, cos come evitare che sprechino il loro tempo in lavori comodamente fattibili con altri strumenti.

    Pensare strategicamente alla composizione del team

    Se le cose funzionano, il progetto cresce in portata e risorse. Pensare in modo strategico da subito, per risparmiarsi la dura consapevolezza che alcuni processi non possono essere ridimensionati abbastanza rapidamente per via del numero limitato di persone con le capacit richieste, anche nella Silicon Valley.

    Se la portata del progetto cresce, quali competenze sono facilmente recuperabili in tempo per affrontare le esigenze? Ad esempio, i data scientist sono infinitamente pi difficili da trovare, formare e assumere rispetto agli sviluppatori.4

    L'equilibrio del team fondamentale. L'obiettivo il giusto mix di esperienza di gestione dei dati duramente ottenuta ed entusiasmo per imparare nuovi strumenti. Inoltre, bisogna trovare il giusto equilibrio tra persone con competenze tecniche e persone con esperienza sui domini, per creare modelli adeguati.

    1 2

    4. Big Datas High-Priests of Algorithms, Wall Street Journal, 8 agosto 2014: http://online.wsj.com/articles/academic-researchers-find-lucrative-work-as-big-data-scientists-1407543088

    Il team

    39 | Informatica The Big Big Data Workbook

  • Allineare anticipatamente gli obiettivi del progetto, quindi comunicarli

    Uno degli errori pi comuni delle aziende quando assumono nuovo personale dimenticare di comunicare i reali obiettivi del progetto. Dal primo colloquio fino al lavoro vero e proprio, deve essere chiaro cosa si sta cercando di offrire agli utenti aziendali. Sfruttare l'appoggio degli executive per diffondere la mission e condividere le storie di successo, oltre alle problematiche.

    Senza un solido controllo del valore di business del progetto, i nuovi assunti correranno il rischio di pensare di essere gli unici a occuparsi degli obiettivi IT per il progetto.

    Quando il team cresce, anche l'esigenza di gestirlo aumenta

    Diversamente dalla nuova tecnologia che pu essere distribuita, implementata e poi integrata in modo obiettivo, i neoassunti devono abituarsi al luogo di lavoro, alle mansioni e al motivo per cui le svolgono. Qualcuno deve assumersi l'incarico di gestire la sfida di un nuovo team.

    Elementi quali cultura e coesione non possono essere sottovalutati. Ponderare attentamente come integrare i neoassunti nei processi. Magari non possibile formarli per determinate competenze, ma sicuramente possibile aiutarli a migliorare.

    Cinque lezioni chiave di team-building

    3 4

    Il team

    40 | Informatica The Big Big Data Workbook

  • Il team non pu permettersi di rimanere fermo

    Ogni giorno emergono tecnologie Big Data e quelle gi esistenti si evolvono rapidamente. un periodo estremamente esaltante per le aziende abbastanza intraprendenti da adottare best practice in anticipo, ma rappresenta anche una sfida fondamentale per partire in pole position rispetto alla concorrenza.

    I dipendenti devono sempre restare al passo con la velocit di cambiamento del mondo attorno a loro. La buona notizia che niente motiva di pi le persone della sfida di superare il resto della concorrenza. La sfida sta nell'offrire il training e le informazioni necessari per continuare ad accrescere le capacit del personale e aziendali.

    Cinque lezioni chiave di team-building

    5

    L'importanza dell'essere strategici

    Una scelta importante che si ripeter pi volte consiste nel decidere se creare le proprie capacit utilizzando strumenti automatizzati o sfruttando integrazioni manuali.

    La codifica manuale offre il controllo preciso e completo del prodotto in fase di creazione. Spesso questo aspetto impagabile e necessario per, ad esempio, la redazione di uno script complesso per estrarre metadati in modi prima impossibili.

    Gli strumenti offrono tuttavia maggiore agilit e la capacit di ripetere in modo sostenibile lo stesso processo. Per attivit come data integration e data quality, risultano fondamentali in quanto evitano ad analyst e data scientist di fare il "lavoro sporco".

    Essere realisti sulle proprie risorse: se non possibile creare un team grande e brillante come quello di Google, non sprecare le scarse risorse a disposizione tentando di farlo.

    Il team

    41 | Informatica The Big Big Data Workbook

  • Se (e si spera quando) si prepara un'iniziativa Big Data semplice, necessario implementare un quadro procedurale per la data governance. Infatti, anche se il progetto Big Data punta a offrire valore a un singolo dipartimento, prendere in considerazione la creazione di un consiglio di data governance in miniatura, per scoprire come affrontare le sfide uniche presentate da tale organismo.

    Sostanzialmente, le persone responsabili della data governance in azienda sono gli stessi executive che devono controllare l'approccio aziendale ai dati. Questo comprende anche l'esigenza di data steward: personale funzionale o specifico di un dipartimento a cui viene assegnata la gestione dei dati provenienti da una business unit specifica.

    In effetti, alcuni dei nostri clienti assegnano ruoli di data stewardship in base al dominio dei dati, ovvero una persona addetta ai dati di prodotto, un'altra ai dati del cliente e cos via.

    Organizzazione della governance dei dati

    Il team

    42 | Informatica The Big Big Data Workbook

  • Bisogna puntare sulla creazione di processi che garantiscano la percezione del framework di data governance come un vantaggio pi che un problema. Lavorare in modo attivo per garantire che non si trasformi in un fardello burocratico, verificando che tutti siano impegnati nel conseguimento dei medesimi obiettivi seguendo le stesse finestre temporali.

    Il framework di data governance dovr avere le cinque seguenti caratteristiche.

    Inter-funzionale

    Un consiglio di data governance che comprende diverse figure con ruoli simili risulterebbe inutile. L'obiettivo creare un organismo in grado di rappresentare i punti di vista e le esigenze unici di ogni business unit servita dal progetto Big Data.

    Comunicativo

    Senza una buona comunicazione tra figure professionali, dipartimenti e domini, il progetto probabilmente annegher nella burocrazia e nell'incomprensione e questo succede troppo spesso. Minimizzare ogni problema o risolverlo adeguatamente.

    Il team

    1 2

    Organizzazione della governance dei dati

    43 | Informatica The Big Big Data Workbook

  • Efficiente

    Il processo inter-funzionale non deve essere avvertito come un ostacolo. Offre un'agilit significativa al progetto Big Data per il successo. Quindi, laddove possibile costruire delle regole di reporting delle eccezioni e adottare strumenti di collaborazione, per tenere le linee di comunicazione aperte e utilizzabili.

    Approvato

    Comunicare gli obiettivi principali del progetto in modo efficace e accertarsi che tutti siano coinvolti nel framework di data governance, dedicato al conseguimento di tali obiettivi. Gli obiettivi comuni determinano il concetto di governance e il processo di decision-making.

    Centralizzato

    La sfida pi grande di un framework di data governance si presenta quando viene richiesto di assegnare priorit agli obiettivi di una business unit rispetto alle altre rappresentate nel consiglio. Assicurarsi che le decisioni siano per i vantaggi a lungo termine dell'intero consiglio, anche se comportano vantaggi a breve termine per una business unit.

    Il team

    3 4 5

    Organizzazione della governance dei dati

    44 | Informatica The Big Big Data Workbook

  • Compiliamo di nuovo. Ora che abbiamo identificato le varie insidie e opportunit individuali presentate dal nuovo team, definiamo le caratteristiche effettive di questo team.

    La pagina seguente elenca i ruoli del progetto Big Data in base alle mansioni per le quali i nostri clienti assumono. In base al personale attualmente disponibile e alla quantit di tempo prevista per il progetto (inseriti nella sezione che inizia a pagina 24), elencare il numero di persone da assumere.

    Competenze richieste e competenze gi disponibili

    Il team

    45 | Informatica The Big Big Data Workbook

  • Ruolo Qualcuno pu gi ricoprire questo ruolo?

    Necessaria assunzione per questo ruolo

    In base alla quantit di tempo disponibile, devo assumere X persone

    Data scientist

    Esperto di domini

    Business analyst

    Data analyst

    Data engineer

    Database administrator

    Enterprise architect

    Business solution architect

    Data architect

    Data steward

    Sviluppatore ETL (data integration)

    Sviluppatore di applicazioni

    Sviluppatore di dashboard

    Modeler statistico

    Altro

    Altro

    Altro

    Altro

    Altro

    oppure oppure

    L'esigenza di un pensiero integrato

    Durante la ricerca di nuove persone per un team, non limitarsi a coloro dotati delle giuste qualifiche. Attenzione a non commettere errori: trovare le persone con le giuste qualifiche di per s una sfida, ma bisogna trovare anche persone che sintetizzino obiettivi aziendali e capacit tecniche.

    Sempre pi spesso, per i clienti fondamentale che le persone che lavorano ai progetti di Big Data siano capaci di comprendere le realt aziendali e a eseguire complesse mansioni di data science. Questo tipo di pensiero integrato smisurato e difficile da trovare. Vale la pena una formazione in tal senso.

    Il team

    46 | Informatica The Big Big Data Workbook

  • 41523

    10356

    98276

    10392

    4562318456

    63002

    60303

    15234

    Concetto gi ampiamente discusso, gli strumenti utilizzati hanno un ruolo strategico nell'esecuzione del progetto Big Data. In questa sezione, analizzeremo gli strumenti in possesso di un'azienda e quelli richiesti.

    Gli strumenti

  • Per esperienza, i seguenti strumenti sono fondamentali per l'architettura richiesta per i progetti Big Data (i dettagli di questa architettura sono illustrati pi avanti). Ovviamente, obiettivi e risorse devono determinare la combinazione tecnologica necessaria per uno specifico progetto.

    Scorrere l'elenco degli strumenti e mettere una in corrispondenza di quelli pi importanti e di maggiore rilievo a livello strategico per un progetto specifico.

    Data ingestion

    Il processo di consumo dei dati dei quali si necessita in modo corretto, efficiente e metodico.

    Caricamento in batch possibile accedere a tutti i tipi di dati necessari e scalare in modo efficiente le performance del caricamento in batch negli archivi dati?

    Acquisizione del cambiamento dei dati possibile acquisire le modifiche apportate ai dati nei sistemi sorgenti senza influire sui sistemi di origine?

    Streaming dei datiI dati in tempo reale possono essere raccolti in maniera attendibile e riprodotti in streaming negli archivi dati?

    Archiviazione possibile archiviare e comprimere i dati non utilizzati frequentemente, garantendo al tempo stesso un accesso semplificato ai dati archiviati, quando necessario?

    Dettagli sugli strumenti per i Big Data

    Gli strumenti

    48 | Informatica The Big Big Data Workbook

  • Dettagli sugli strumenti per i Big DataScorrere l'elenco degli strumenti e mettere una in corrispondenza di quelli pi importanti e di maggiore rilievo a livello strategico per un progetto specifico.

    Gestione dei dati

    Tutte le policy, i processi e le prassi richiesti per gestire efficacia, precisione, attendibilit e disponibilit dei dati.

    Integrazione dei dati possibile preparare e consolidare le varie strutture e fonti in un set di dati coeso per l'analisi?

    Data quality possibile effettuare la bonifica dei dati in modo attendibile, effettuare la deduplica e rimuovere gli errori?

    Sicurezza dei dati possibile rilevare e proteggere i dati in tutti gli archivi dati assegnando regole relative a utilizzo, accesso e autorizzazioni?

    Virtual Data Machine possibile creare un livello di astrazione per i dati adattabile in modo flessibile all'elaborazione dati dall'ambiente di implementazione sottostante?

    Gestione dei dati master Esiste una versione consolidata, completa e autorevole della verit, memorizzabile per i vari domini dati?

    Framework dati distribuito possibile utilizzare una tecnologia come Hadoop per ridimensionare in modo economico le esigenze di storage ed elaborazione?

    Data warehouse disponibile una tecnologia di data warehouse in grado di supportare i requisiti di performance, utilizzo e scalabilit per le analisi e le integrazioni Big Data con le infrastrutture Hadoop?

    Gli strumenti

    49 | Informatica The Big Big Data Workbook

  • Scorrere l'elenco degli strumenti e mettere una in corrispondenza di quelli pi importanti e di maggiore rilievo a livello strategico per un progetto specifico.

    Dettagli sugli strumenti per i Big Data

    Consegna dei dati

    Il processo di invio dei dati in possesso ad applicazioni e sistemi che li richiedono.

    Caricamento in batch possibile ridimensionare efficientemente il caricamento in batch dei dati tra sistemi sorgenti, analitici e di back-end operativi?

    Streaming in tempo reale possibile consegnare i dati in streaming in tempo reale ad applicazioni, analytics e sistemi di back-end che li richiedono?

    Data integration hub I dati possono essere resi disponibili tramite un approccio simile a un modello di publish-and-subscribe, per evitare la proliferazione di integrazioni punto-punto?

    Virtualizzazione dei dati possibile consegnare i dati dai sistemi senza sovraccaricarli?

    Elaborazione in base agli eventi possibile rilevare, analizzare e rispondere a minacce, opportunit e altri eventi fondamentali per il business in tempo reale?

    Gli strumenti

    50 | Informatica The Big Big Data Workbook

  • Scorrere l'elenco degli strumenti e mettere una in corrispondenza di quelli pi importanti e di maggiore rilievo a livello strategico per un progetto specifico.

    Analytics

    Gli strumenti e i processi che trasformano i dati grezzi in informazioni utili, schemi, previsioni e calcoli relativi al dominio analizzato.

    Visualizzazione possibile presentare i dati e le scoperte secondo modalit semplici da acquisire e comprendere?

    Analytics avanzati possibile applicare algoritmi analitici innovativi ai set di dati per condurre calcoli complessi?

    Apprendimento automaticoSi possono applicare sofisticati algoritmi di apprendimento automatico per identificare schemi e fare previsioni a un livello tale da non dover gestire la larghezza di banda manualmente?

    Tra questi strumenti e tecnologie, alcuni strumenti come data integration, data quality e master data management sono cos importanti per il percorso Big Data che non richiedono una nuova concezione dello strumento. La quantit di tempo e risorse necessari per creare queste funzionalit autonomamente non compensa le preziose competenze e ore-uomo del progetto Big Data.

    Tenere presente gli obiettivi del progetto e che non richiedono di creare tutto su misura.

    Dettagli sugli strumenti per i Big Data

    Gli strumenti

    51 | Informatica The Big Big Data Workbook

  • I processi Esaminiamo in dettaglio i processi effettivi necessari per affrontare i Big Data. I processi specifici saranno unici per gli obiettivi e i requisiti aziendali. La seguente sezione fornisce una panoramica relativa alle aspettative e agli insegnamenti.

  • L'esperienza insegna che le metodologie agili sono un approccio eccellente per i progetti Big Data. Garantiscono di poter gestire le aspettative, imparare dagli errori e ripetere i propri metodi per migliorare i processi. Detto questo, l'approccio al progetto dipende interamente dall'azienda e dalla situazione.

    In ogni caso, i seguenti otto punti si dimostreranno fondamentali per la supply chain dei Big Data. In qualunque modo vengano seguiti, stabilire processi efficaci per questi punti.

    Accesso ai dati

    La prima sfida acquisire tutti i dati necessari. In alcuni casi, questo implica l'acquisizione dei dati in streaming e in altri casi l'estrazione dei dati da un database. Organizzare processi ripetibili e gestibili in modo da garantire la memorizzazione di questi dati conformemente ai metodi in uso.

    Integrazione dei dati

    La sfida pi complessa dei Big Data la vasta gamma di strutture e formati dei dati. Per condurre in modo sostenibile le analisi, necessario implementare un processo per integrare e normalizzare tutti questi dati. Idealmente, questa operazione dovrebbe comportare un'elaborazione manuale minima.

    Le otto fasi di un progetto Big Data

    I processi

    1 2

    53 | Informatica The Big Big Data Workbook

  • Bonifica dei dati

    Per rendere le analisi attendibili, necessario garantire una certa pulizia dei dati al fine di rimuovere duplicati, errori, imprecisioni e dati incompleti. Il processo deve garantire che gli analisti e i data scientist pi qualificati in realt non spendano tutto il loro tempo in attivit non importanti.

    Gestione dei dati

    Un metodo per mantenere una fonte dati pulita e integrata definire un processo per amministrare i dati. L'obiettivo creare una ricca raccolta di dati consolidati, organizzati per dominio (come ad esempio prodotti, clienti, ecc.) e arricchiti con informazioni utili sui Big Data, che andranno poi ad alimentare tutti gli altri sistemi.

    Protezione dei dati

    Richiede due processi base. Il primo corrisponde alla definizione di regole e prassi di sicurezza, richiamate da ogni set di dati. Il secondo prevede l'identificazione dei dati sensibili e il mascheramento in modo persistente o dinamico, per garantire che tali ruoli e best practice siano applicati in modo uniforme.

    Le otto fasi di un progetto Big Data

    3 4 5

    I processi

    54 | Informatica The Big Big Data Workbook

  • Analisi dei dati

    Il processo per l'analisi dipende dall'analista, dagli strumenti di analytics e dai requisiti, in quanto pertinenti agli obiettivi. L'attitudine a ripetute scoperte e al miglioramento continuo giocheranno un ruolo fondamentale, per rendere il processo migliore, pi rapido, economico e pi scalabile, con il tempo e l'esperienza.

    Analisi delle esigenze aziendali

    Questa fase fondamentale e quasi sempre viene ignorata. Definire un processo chiaro per l'analisi delle esigenze aziendali, anche durante l'analisi dei dati, fondamentale poich perdendo coscienza del business, si rischia di isolare le iniziative, minimizzando l'impatto aziendale.

    Rendere utilizzabili le informazioni

    Come descritto in precedenza in questo documento, deve essere valutato l'impatto aziendale del progetto Big Data. Creare pipeline automatizzate per le risposte registrate e fornirle agli utenti aziendali che ne usufruiscono maggiormente. Ad esempio, i dati sui clienti con probabilit di abbandono pi elevata devono essere resi disponibili agli agenti dell'assistenza clienti tramite un apposito dashboard. Incorporare anche cicli di feedback, per scoprire come sono ricevute le informazioni utili.

    Le otto fasi di un progetto Big Data

    6 7 8

    L'importanza della documentazione

    Per imboccare la giusta strada in un progetto Big Data, bisogna padroneggiare questi otto punti. L'obiettivo stabilire processi chiari, ripetibili, scalabili e in continuo miglioramento. A questo scopo, la documentazione dei processi e dei miglioramenti derivanti sono vitali per il team.

    Competenze, capacit e lezioni del progetto Big Data devono essere rese trasferibili e comunicate frequentemente.

    I processi

    55 | Informatica The Big Big Data Workbook

  • 264

    93

    62

    78

    157

    187

    654

    362

    92

    40

    468

    50

    61

    L'architettura Per rendere la supply chain dei Big Data lean ed efficace, necessario garantire che l'architettura sia solida e costruita strategicamente. La presente sezione illustra le caratteristiche di un'architettura Big Data ideale e come implementarne una tramite un approccio graduale.

  • Durante la creazione dell'architettura per il progetto Big Data, il punto di partenza pi logico la configurazione di un ambiente di sviluppo sandbox nel quale utilizzare i dati di test per garantire la realizzabilit dell'architettura. In questa fase, prendere in considerazione i seguenti punti.

    Iniziare in piccolo

    Partendo con un sandbox ben definito sul quale si detiene il controllo completo, sar possibile ripetere le metodologie fino all'implementazione migliore. Diventare operativi prima possibile e documentare le lezioni apprese a ogni iterazione.

    Le dimensioni contano

    La differenza chiave tra sandbox e implementazione effettiva la dimensione dell'ambiente di produzione, che sar decisamente pi grande. Richiede l'elaborazione automatizzata per acquisire, integrare, ripulire e distribuire l'output. Per questo motivo, necessaria un'infrastruttura molto pi robusta e componenti e processi comprovati realmente attendibili e flessibili in un ambiente di produzione live.

    Fasi preliminari: l'ambiente sandbox

    L'architettura

    57 | Informatica The Big Big Data Workbook

  • Prima dei test, mascherare i dati

    Quando le aziende utilizzano i dati di test, solitamente sfruttano una variante dei dati reali di produzione, per garantire che formati e strutture rappresentino l'ambiente reale. Sfortunatamente se tali dati non vengono mascherati opportunamente, si corre il rischio di lasciare i dati sensibili esposti in un ambiente di test non sicuro.

    Evitare di perdersi nelle traduzioni

    Una delle principali cause di sforamenti del budget di progetto e costosi ritardi nei progetti Big Data deriva dagli errori di codifica manuale ignorati in ambiente sandbox, che si ripresentano al team quando l'architettura entra in produzione. Quindi, qualora si codifichino manualmente parti significative dell'architettura, prevedere il re-factoring di buona parte del codice per soddisfare i requisiti a livello di produzione e gestire le aspettative di conseguenza. In alternativa, utilizzare gli strumenti di produttivit e automazione per evitare il re-factoring del codice, nonch in prima battuta gli errori.

    Fasi preliminari: l'ambiente sandbox

    L'architettura

    58 | Informatica The Big Big Data Workbook

  • Il seguente grafico rappresenta il metodo consigliato per creare l'architettura tecnologica e di processo Big Data ideale.

    Consegna dei dati

    Caricamento in batch

    Data integration hub

    Virtualizzazione dei dati

    Elaborazione in tempo reale e in base

    agli eventi

    Data ingestion

    Caricamento in batch

    Acquisizione del cambiamento dei dati

    Streaming dei dati

    Archiviazione

    Database relazionali Mainframe Documenti ed e-mail Social media, dati terze

    parti, file di log Sensore macchina Cloud pubblico Cloud privato

    Origini dei dati

    L'architettura Big Data ideale

    Data Integration Data quality Virtual Data Machine Sicurezza dei dati Master Data

    Management Storage scalabile

    (ad es., Hadoop) Data warehouse

    Gestione dei dati

    Visualizzazione Applicazioni mobile Analytics Business intelligence Dashboard in tempo reale

    Applicazioni

    L'architettura

    59 | Informatica The Big Big Data Workbook

  • Il piano di progettoAbbiamo ultimato l'analisi di ogni aspetto del percorso per un progetto Big Data. La fase successiva utilizzare questo piano come struttura per gestire il progetto Big Data, dalla concezione fino all'implementazione.

  • Utilizzate questo template per il piano di progetto come base per documentare i dettagli e i vari elementi del progetto Big Data, quindi sfruttare il documento compilato per raccogliere l'approvazione dal resto dell'azienda. Risulter utile anche durante l'approccio con partner esterni.

    Il piano di progetto

    Il piano di progetto

    Identificare gli obiettivi per dipartimento business e IT

    Definire le misure del successo

    Identificare le informazioni necessarie

    Identificare i dati e le fonti per la consegna

    Fase 1: la strategia Fase 2: i dati

    61 | Informatica The Big Big Data Workbook

  • Le persone O Valutazione delle competenze necessarie

    O Valutazione delle competenze disponibili

    Il processo O Accesso ai dati O Integrazione dei dati O Bonifica dei dati O Amministrazione dei dati O Protezione dei dati O Analisi dei dati O Analisi delle esigenze aziendali

    Gli strumenti O Elaborazione distribuita (ad esempio, Hadoop)

    O Data Quality O Data Integration O Master Data Management

    O Data masking O Visualizzazione O Analytics in streaming O Analytics O Apprendimento automatico

    Sviluppare dashboard

    Automatizzare i processi per la consegna dei dati

    Predisporre un processo di feedback

    Fase 3: la supply chain Fase 4: rendere utilizzabili le informazioni acquisite

    Il piano di progetto

    Il piano di progetto

    62 | Informatica The Big Big Data Workbook

  • Utilizzare liste di controllo, principi e linee guida del presente manuale per implementare il potenziale dei Big Data in azienda. Indipendentemente dalla dimensione del progetto, per ora, siamo sicuri che molti clienti siano equipaggiati al meglio per affrontare le molteplici sfide legate a questo progetto.

    Per quanto riguarda le risorse, rimanere strategici e conservare una particolare attenzione per lo sviluppo di processi e competenze, in modo che siano trasferibili, scalabili e in continuo miglioramento. Se l'obiettivo rimane a lungo termine durante questo progetto, l'azienda otterr a lungo andare analisi migliori e decisioni pi informate che durano nel tempo.

    Per vari motivi, il primo progetto Big Data non si dimentica mai. Dagli errori relativi alla creazione del team, si prepara un percorso di valore strategico immenso per l'azienda.

    Navigando ed evitando le molte insidie discusse e mantenendo un forte impegno nei confronti della visione per questo progetto, possibile modificare le modalit operative dell'azienda.

    Sar un grande cambiamento.

    Implemen-tazione

    63 | Informatica The Big Big Data Workbook

  • Se sei uno sviluppatore Informatica, puoi essere anche uno sviluppatore Hadoop. Le nostre versioni trial, i connettori e i servizi sui Big Data ti indirizzeranno nella giusta direzione.

    Fasi successivePronto ad applicare quanto appreso?

    64 | Informatica The Big Big Data Workbook

  • Informazioni su InformaticaAiutiamo le aziende a gestire i dati, in modo da sfruttarli per ottenere un valore di business misurabile. Inoltre, aiutiamo alcune delle aziende pi grandi al mondo a destreggiarsi tra gli errori di gestione dei dati pi comuni e avere successo con progetti Big Data scalabili e ripetibili.

    Parliamone insieme.

    IN18-1014-2730


Recommended