L'analytique Big Data consiste à examiner des datasets volumineux et diversifiés afin d'y détecter des modèles cachés, des corrélations inconnues, des tendances du marché, des préférences clients et d'autres informations utiles qui aident les entreprises à prendre des décisions avisées.
Au cours des prochaines années, la transformation digitale va redessiner les contours de l'économie, car la majeure partie du chiffre d'affaires des entreprises au plan mondial gravitera autour de produits et de services digitaux.
Qu'elles soient structurées ou non, générées par l'homme ou la machine, stockées dans le data center ou le cloud, les données constituent la nouvelle base de l'avantage concurrentiel.
La gestion et le stockage font partie intégrante de la stratégie de données d'une entreprise.
Les responsables IT et les équipes d'analytique sont confrontés à une pression considérable pour exploiter toute la richesse des données de façon à créer de la valeur à tous les niveaux de l'entreprise, le tout avec des contraintes de temps et de budget, et des compétences limitées. Dans les data centers et le cloud, les données sont distribuées, dynamiques et diversifiées. Cette situation impose des challenges non seulement aux équipes d'infrastructure chargées du stockage et de la protection de ces données, mais aussi aux data scientists, aux ingénieurs et aux architectes, qui ont besoin de collecter et d'analyser en temps réel les données issues de différentes sources. Face à ce problème de prolifération des données, les équipes d'analytique sont contraintes de limiter la portée de leurs analyses ou d'attendre plusieurs jours avant que les données appropriées ne soient disponibles pour l'analyse.
Les types de données non structurées et semi-structurées ne sont généralement pas adaptés aux data warehouses classiques, qui reposent sur des bases de données relationnelles orientées datasets structurés. Il se peut aussi que les data warehouses ne puissent pas gérer les demandes de traitement provenant de datasets Big Data qui doivent être mis à jour de manière fréquente ou continue.
C'est pour cette raison que de nombreuses entreprises ont recours à des bases de données NoSQL ou à des outils Hadoop pour collecter, traiter et analyser le Big Data :
Les utilisateurs de l'analytique Big Data se tournent de plus en plus vers un data lake Hadoop servant de référentiel principal pour les flux entrants de données brutes. Dans ces architectures, les données peuvent être analysées directement dans un cluster Hadoop ou s'exécuter à l'aide d'un moteur de traitement tel que Spark.
Segment | Principaux fournisseurs |
---|---|
Distribution logicielle Hadoop/Apache pour l'analytique Big Data | Cloudera, HortonWorks, MapR |
Gestion des applications, sécurité, conformité | Splunk |
Spark | DataBricks |
Bases de données NoSQL | Aerospike, Cassandra, Couchbase Server, HBase, MarkLogic, MongoDB, Redis Labs |
Analytique cloud | Amazon EMR, Azure HDInsight, Google Cloud Platform |
Composants open source | Druid, Elasticsearch, Apache Flink, Apache Hive, Apache Kafka, Apache Mesos, Apache Spark, Apache Solr, Apache Hadoop YARN, Apache ZooKeeper |
Optimisée par des systèmes et des logiciels d'analytique spécialisés, l'analytique Big Data ouvre la voie à de multiples avantages commerciaux, notamment de nouvelles opportunités de revenus, un marketing plus ciblé, un service client optimisé, une meilleure efficacité opérationnelle et un avantage concurrentiel renforcé.
Selon une enquête de Datameer réalisée en 2016, 78 % des entreprises reconnaissent que le Big Data est à même de transformer radicalement leur façon de travailler au cours des trois prochaines années.
Les applications d'analytique Big Data permettent aux data scientists, aux modélisateurs prédictifs, aux statisticiens et à d'autres professionnels du domaine d'analyser des volumes croissants de données transactionnelles structurées, ainsi qu'un mélange de données semi-structurées et non structurées, telles que les données de parcours de navigation sur Internet, les journaux de serveurs Web, le contenu des médias sociaux, les textes d'e-mails, les réponses aux enquêtes, les enregistrements détaillés des appels sur téléphoniques mobiles et les données machine saisies par des capteurs connectés à l'Internet des objets (IOT) .
Pour exploiter ces opportunités, augmenter les bénéfices et améliorer la gestion des risques, il est essentiel d'obtenir rapidement des informations exploitables à partir des données. Pour gérer des datasets volumineux, vous avez besoin de fonctionnalités de gestion des données haute performance.
L'accélération de l'analytique des données machine en temps réel aide les entreprises à détecter les cyberattaques avant qu'elles ne causent des dommages et à empêcher les fraudes, sans impact sur l'expérience client.
Pour améliorer les niveaux de satisfaction et générer de nouvelles offres de services, il est essentiel d'exploiter rapidement les données des clients à des fins de veille stratégique.
Toutefois, les solutions de stockage générique (c'est-à-dire le stockage DAS) de l'analytique Big Data première génération n'offrent pas l'évolutivité, la fiabilité et la flexibilité nécessaires à la prise en charge de ces applications, devenues incontournables pour renforcer la compétitivité.
Les plateformes d'analytique Big Data pour le stockage partagé et externe optimisent l'évolutivité et les performances en déplaçant les données de façon non disruptive, là où vous en avez besoin, tout en les protégeant et en les sécurisant en permanence.
La plateforme innovante d'analytique Big Data de NetApp double les performances en déplaçant les données et les workloads de manière fluide et sécurisée vers le cloud ou là où vous en avez besoin, tout en assurant la sauvegarde, la sécurité et la disponibilité des données. Avec NetApp, vous pouvez réduire jusqu'à 50 % les frais de licence, les coûts matériels et le TCO global en optimisant l'utilisation des ressources et en éliminant les copies de données inutiles.