Marco Ilardi imprenditore dìgitale

Big data definizione e cosa sono

bigdata
Di cosa parliamo in questo articolo

Big data cosa sono: big data definizione

In questa prima parte proveremo a dare una big data definizione (big data definition in inglese).

Fin dall’avvento dell’informatica, per i programmatori si è avuta l’esigenza di immagazzinare in database le informazioni elaborate dall’utente.

Il computer infatti, dopo aver elaborato le informazioni previste dal nostro programma perderebbe tutto il lavoro fatto se non immagazzinassimo i risultati.

Pensate ad esempio ad un programma per le banche dove vengono elaborati i conti correnti dei clienti.: se non venissero immagazzinati i movimenti non potremmo mai conoscere il saldo, soprattutto uscendo e rientrando dal programma.

I primi database sono stati i file di testo che però potevano essere consultati solo in maniera sequenziale e quindi molto lenti da leggere e da scrivere.

Si è passati poi ai database relazionali come ad esempio Access o Sql Server, che tramite le query scritte in linguaggio sql consentono di recuperare dati dalle tabelle secondo alcuni criteri dettati appunto dalla quey, la richiesta effettuata dal programmatore.

Questi database però hanno una serie di limitazioni sia in termini di contenuto di dati che di velocità di recupero degli stessi.

E’impensabile infatti gestire ad esempio l’anagrafe di un comune come Milano con un database Access. A parte problemi legati al numero e alla sicurezza dei dati, il recupero degli stessi sarebbe lentissimo.

Per questo motivo si è pensato ai big data come possibile solizione del problema.

Cosa sono i big data?  i big data sono database che possono immagazzinare enormi moli di dati anche non relazionati tra loro, da poter leggere e scrivere ad alta velocità.

Essi vengono utilizzati ad esempio nelle scuole, nelle università, nei programmi di machine learning ed in altre avanzate applicazioni che si occupano di analisi di dati, come ad esempio quelle finanziarie.

In tutti i data asset management delle banche ormai vengono effettuate ogni giorno migliaia di big data analysis.

Analisi dei big data

Nella definizione dei big data si dice spesso che sono caratterizzati dalle tre V

Volume dei big data

I big data sono caratterizzati da enormi volumi di dati: si pensi che un database di big data può contenere terabyte o addirittura petabyte di dati. Ovviamente devono essere installati su server capaci di contenere queste moli di dati e che consentano un accesso rapido alle informazioni con dischi ultraveloci.

Varietà dei big data

Essendo dei dati non strutturati, i database dei big data contengono informazioni di vario genere, da file di testo a pdf a post di facebook a scansioni di documenti. Tutto facilmente accessibile.

Velocità dei big data

La terza e più importante caratteristica dei big data è questa, ossia un database enorme in cui poter scrivere e leggere informazioni di vario genere ad altissima velocità. Senza la velocità il primo e il secondo punto non avrebbero senso e gli stessi big data sarebbero inutili.

In questo modo è possibile sviluppare software chiamati real time analystics, usati ad esempio per le analisi finanziarie in tempo reale, nelle stazioni meteo e nei programmi di intelligenza artificiale.

Gli obiettivi della real time analytics sono senza dubbio il monitoraggio in tempo reale (come nel caso del meteo ad esempio), l’automated decision making (come ad esempio durante una analisi di titoli azionari per decidere se bisogna comprare o vendere in tempi rapidi) oppure l’automation, come ad esempio nelle autovetture a guida autonoma che si preoccupano di parcheggiare l’auto analizzando con telecamere le aree circostanti.

Esempi di database big data

Numerose aziende stanno sviluppando in questi anni database capaci di gestire i big data. Vediamo insieme alcuni esempi dei principali produttori di software mondiali.

Azure Data Lake

Il data lake è un concetto abbastanza recente nel mondo dei big data: consiste in una specie di grande lago in cui vengono ammassati tutti i dati grezzi che poi vengono successivamente catalogati ed organizzati. A differenza di un data warehouse gerarchico che organizza i dati in file e cartelle, un data lake utilizza un’architetture piatta. Ad ogni dato viene assegnato un identificativo univoco e viene etichettato con dei meta tag. Quando si attiva un processo, il data lake viene interrogato e piccole quantità di dati vengono analizzate per rispondere alla richiesta.

Microsoft ha presentato Azure data lake che si basa su questa tecnologia .In pratica  è un Hadoop File System compatibile con HDFS che consente alle offerte Microsoft, come Azure HDInsight, Revolution-R Enterprise, e alle distribuzioni Hadoop, come Hortonworks e Cloudera, di connettersi ad esso.

Apache Spark

Nella piattaforma Apache Spark sono racchiusi un file system, un sistema di machine learning, uno stream processing, e tecnologie di interazione NoSQL e SQL.

Quindi non è un sistema in competizione con Azure Data Lake ma si completano perchè Spark è è stato concepito per lavorare col filesystem Hadoop.

Microsoft Cosmos

E’la piattaforma big data che usa Microsoft per immagazzinare tutti i dati da servizi più disparati come Azure, Bing, AdCenter, Msn, Office 365 Skype e Windows Live.

Si dice che presto questa piattaforma verrà commercializzata da Microsoft attraverso i canali Azure

Sap Hana

Anche Sap ha mosso i suoi passi nel settore dei big data, adeguando il database Hana alle nuove tecnologie di cloud computing.

Da poco infatti Sap ha rilasciato Hana Big Data Intelligence, un’estensione di Hana che permette alla piattaforma di effettuare analisi di business intelligence in-memory, con flussi streaming e con dati provenienti da fonti diverse. L’acquisizione e l’analisi dovrebbero essere più veloci e affidabili, in quanto la nuova caratteristica combina la piattaforma Hana con l’Event Stream Processor, con il software SAP IQ e con le librerie Hadoop se necessario.

Il supporto a Hadoop e l’integrazione con tutte le altre piattaforme SAP dedicate all’analisi dati, permetterà a Hana di andare ben oltre i dati strutturati (come le informazioni finanziarie) su cui la piattaforma ha potuto lavorare fino a ora, consentendo così l’analisi anche di dati che normalmente non trovano una buona rappresentazione nel modello relazionale tradizionale, come, ad esempio, le informazioni destrutturate in tempo reale.

Se ti è piaciuto questo articolo, vedi se ne trovi altri di tuo interesse tra le nostre notizie sul mondo dell’informatica.

Condividi l'articolo
Seguimi sui social