Menu

cosa sono i big data?

Argomenti

Condivi questa pagina

L'analisi dei big data è un processo di analisi di set di dati estesi e diversificati per scoprire modelli nascosti, correlazioni sconosciute, trend di mercato, preferenze dei clienti e altre informazioni utili che possono aiutare le organizzazioni a prendere decisioni aziendali più informate.

Nei prossimi anni, la trasformazione digitale ridefinirà le organizzazioni, poiché la maggior parte del fatturato delle aziende a livello globale ruoterà attorno a prodotti e servizi digitali o basati sul digitale.

Dati strutturati o non strutturati, generati da esseri umani o macchine e archiviati nel data center o nel cloud, rappresentano il nuovo punto di partenza per ottenere un vantaggio competitivo.

La gestione e lo storage dei dati sono parte integrante della strategia dati di un'organizzazione.

Sfide dei big data

I leader IT e i team di analisi subiscono la schiacciante pressione legata all’enorme mole di dati odierni e all’esigenza di sfruttarli al meglio per creare nuovo valore in tutta l'organizzazione avendo a disposizione tempo, competenze e budget limitati. I dati diventano sempre più distribuiti, dinamici e diversificati nei data center e nel cloud. Questa situazione crea problemi non solo ai team di infrastruttura responsabili dell'archiviazione e della protezione dei dati, ma anche a data scientist, ingegneri e architetti che hanno bisogno di raccogliere e analizzare i dati in tempo reale da varie origini dati. A causa di questo problema di proliferazione dei dati, ai team di analisi viene chiesto di limitare l'ambito dei dati da analizzare o di attendere giorni prima di rendere disponibili per l'analisi i dati giusti.

Tecnologie per i big data

I tipi di dati non strutturati e semi-strutturati in genere non si adattano bene ai data warehouse tradizionali, che si basano su database relazionali orientati a set di dati strutturati. Inoltre, i data warehouse potrebbero non essere in grado di gestire le richieste di elaborazione imposte da insiemi di big data che necessitano di aggiornamenti frequenti o continui.

Di conseguenza, molte organizzazioni che raccolgono, elaborano e analizzano big data si affidano a database NoSQL, nonché a Hadoop e ai relativi strumenti complementari, come:

  • YARN. Una tecnologia di gestione dei cluster e una delle funzionalità chiave di Hadoop di seconda generazione
  • MapReduce. Un modello di programmazione e un'implementazione associata per elaborare e generare insiemi di big data con un algoritmo distribuito parallelo su un cluster
  • Apache Spark. Un motore veloce e generico per l'elaborazione di big data, con moduli integrati per streaming, SQL, machine learning ed elaborazione di grafi
  • HBase. Un database open-source non relazionale e distribuito modellato su BigTable di Google
  • Apache Hive. Un progetto software di data warehouse basato su Apache Hadoop per fornire riepiloghi, query e analisi dei dati
  • Kafka. Una piattaforma di elaborazione dei flussi open source sviluppata da Apache Software Foundation
  • Pig. Una tecnologia open-source che offre un meccanismo di alto livello per la programmazione parallela dei processi MapReduce da eseguire sui cluster Hadoop

Gli utenti di analisi big data stanno adottando sempre più frequentemente il concetto di data lake Hadoop, che funge da repository principale per i flussi in entrata di dati non elaborati. In queste architetture, i dati possono essere analizzati direttamente in un cluster Hadoop o eseguiti attraverso un motore di elaborazione come Spark.

Ecosistema dei big data

SegmentVendor principali
Analisi dei big data: distribuzioni software Hadoop/ApacheCloudera, HortonWorks, MapR
Gestione, sicurezza e conformità delle applicazioniSplunk
SparkDataBricks
Database NoSQLAerospike, Cassandra, Couchbase Server, HBase, MarkLogic, MongoDB, Redis labs
Cloud AnalyticsAmazon EMR, Azure HDInsights, Google Cloud Platform
Componenti open sourceDruid, Elasticsearch, Apache Flink, Apache Hive, Apache Kafka, Apache Mesos, Apache Spark, Apache Solr, Apache Hadoop YARN, Apache ZooKeeper

Vantaggi dei big data

Grazie a sistemi e software di analisi specializzati, l'analisi dei big data può aprire la strada a diversi vantaggi aziendali, tra cui nuove opportunità di ricavi, marketing più efficace, servizio clienti più valido, maggiore efficienza operativa e vantaggi competitivi rispetto ai rivali.

Secondo un sondaggio condotto da Datameer nel 2016, il 78% delle aziende concorda sul fatto che i big data possono modificare radicalmente il proprio modo di fare business nei prossimi 1 o 3 anni.

Chi usa i big data?

Le applicazioni di analisi dei big data consentono a data scientist, modellatori predittivi, esperti di statistica e altri professionisti dell'analisi di analizzare volumi crescenti di dati transazionali strutturati, oltre a un mix di dati semi-strutturati e non strutturati, come dati clickstream provenienti da Internet, log di server web, contenuti dei social media, testo di e-mail e risposte a sondaggi dei clienti, registri dettagliati delle chiamate telefoniche da cellulare e machine data acquisiti da sensori connessi all'Internet of Things (IoT).

Gestione e storage dei big data

Ottenere rapidamente informazioni dai dati è fondamentale per capitalizzare le opportunità, migliorare i profitti e gestire meglio il rischio. Questa capacità richiede funzionalità di gestione dei dati di livello enterprise per far fronte a set di dati di grandi dimensioni.

L'accelerazione del data analytics delle macchine in tempo reale aiuta le organizzazioni a rilevare gli attacchi informatici prima che causino danni e a prevenire le frodi senza influire sull'esperienza del cliente.

Estrarre rapidamente informazioni di business intelligence dai dati dei clienti è essenziale per migliorare i livelli di soddisfazione e orientare le future offerte di servizi.

Tuttavia, l'approccio allo storage con commodity per l'analisi dei big data di prima generazione (vale a dire, storage DAS) semplicemente non è scalabile in modo efficiente. Inoltre, non offre l'affidabilità e la flessibilità necessarie man mano che queste applicazioni diventano essenziali per la competitività.

Le piattaforme di analisi dei big data con storage condiviso/storage esterno offrono maggiore scalabilità e performance, spostando i dati senza interruzioni dove sono necessari e garantendo che siano sempre protetti e sicuri.

NetApp e big data

L'innovativa piattaforma per l'analisi dei big data di NetApp offre performance fino a due volte superiori, spostando dati e carichi di lavoro in modo semplice e sicuro verso il cloud oppure ovunque siano necessari, garantendo al contempo che i dati siano sempre sottoposti a backup, protetti e disponibili. Con NetApp puoi ridurre i costi di licenza, i costi hardware e il TCO complessivo fino al 50% aumentando l'utilizzo delle risorse ed eliminando copie dei dati non necessarie.

Drift chat loading