Dalla previsione dei comportamenti criminali alle scoperte mediche basate sui geni, dalle raccomandazioni dei ristoranti basate sulla posizione alla profilazione dei clienti, i benefici dei Big Data nella vita di tutti i giorni stanno diventando evidenti a tutti.
In parallelo crescono anche le preoccupazioni, soprattutto in relazione a possibili usi non graditi delle informazioni personali: l’enorme raccolta di dati e le interrelazioni che possono derivare dall’analisi dei Big Data, possono infatti portare a informazioni dettagliate su luoghi, interessi specifici e comportamenti degli individui, qualcosa che le persone interessate potrebbero percepire come una violazione della loro privacy.
Per limitare i rischi di conformità, bisognerebbe essere in grado di identificare questo tipo di dati già al momento della loro raccolta: questo non è banale nell’approccio Big Data, soprattutto nel modello basato su Data Lake,in cui vengono memorizzati dati semi-strutturati e non strutturati in cui gli attributi iniziali devono ancora essere determinati.
Anche i dati strutturati raccolti legittimamente per l’esecuzione di accordi di natura commerciale, come la fatturazione da parte di un fornitore di servizi di telecomunicazioni, non saranno più utilizzabili per uno scopo non strettamente correlato a tali accordi, come ad esempio l’utilizzo di metodi di analisi Big Data per determinare quali tipi di utenti chiamare nelle varie iniziative di marketing.
Ciò pone un problema oggettivo per l’utilizzo di queste tecnologie analitiche: per questo, il futuro dei progetti Big Data dipenderà molto anche dalla loro capacità di rafforzare la Data Governance e di affrontare i problemi sulla sicurezza dei dati. In caso contrario, si rischierebbe di inibire tali progetti o, quanto meno, di renderli meno efficienti ed interessanti per il business, rallentando di conseguenza i processi di digital transformation.
UN DATA LAKE INTELLIGENTE
Questi rischi possono essere evitati attraverso una visibilità e un controllo dei domini di Big Data al livello più granulare possibile. Per questo, nell’intraprendere un nuovo progetto di Data Lake, è fondamentale dotarsi degli strumenti di governance messi a disposizione dalle piattaforme più avanzate di Big Data management, che consentono di:
– sapere esattamente cosa contengono i Data Lake, attraverso un Catalogo dei Metadati;
– determinare da dove sono stati raccolti i dati e di tracciare come essi vengono usati e per quali processi(Data Lineage);
– scoprire relazioni tra dati di diversi formati e provenienze,grazie a funzionalità di machine learning;
– individuare le informazioni personali da anonimizzare.
Questo non solo per gli archivi di dati strutturati, ma anche per le email, i contenuti da social media, i messaggi istantanei, le transazioni finanziarie e altre fonti non tradizionali, con modalità automatiche che rendono più semplice e meno dispendioso in termini di tempo il lavoro degli analisti.
Grazie all’integrazione di queste tecnologie, una nuova generazione di Data Lake “intelligenti” consentirà di realizzare analisi sempre più accurate e di creare più facilmente report e policy in grado di rispondere a qualsiasi requisito di conformità, trasformando i Big Data grezzi in risorse informative affidabili e di valore per un business sostenibile.