Menü

Was ist Big Data?

Themen

Diese Seite teilen

Bei der Big-Data-Analyse werden große und unterschiedliche Datensätze untersucht, um verborgene Muster, unbekannte Korrelationen, Markttrends, Kundenpräferenzen und andere nützliche Informationen aufzudecken, die Unternehmen dabei unterstützen, fundierte Geschäftsentscheidungen zu treffen.

In den nächsten Jahren wird die digitale Transformation Unternehmen neu gestalten, da sich die meisten globalen Umsätze auf digitale oder digital verbesserte Produkte und Services beziehen.

Bereits heute stellen Daten einen neuen Wettbewerbsvorteil dar – ganz unabhängig davon, ob sie stark oder gar nicht strukturiert, von Mensch oder Maschine generiert oder im Datacenter oder der Cloud gespeichert sind.

Datenmanagement und Datenspeicherung sind integraler Bestandteil der Datenstrategie eines Unternehmens.

Herausforderungen bei Big Data

IT-Führungskräfte und Analyseteams stehen unter enormem Druck, die Fülle der Daten von heute zu nutzen und sie einzusetzen, um im gesamten Unternehmen neue Werte zu schaffen - und das alles mit begrenzter Zeit, begrenzten Fähigkeiten und begrenztem Budget. Daten werden über Datacenter und die Cloud verteilt, dynamisch und vielfältig. Diese Situation stellt nicht nur Infrastrukturteams, die für die Speicherung und den Schutz dieser Daten verantwortlich sind, sondern auch Datenwissenschaftler, Ingenieure und Architekten vor Herausforderungen, die die Daten aus verschiedenen Datenquellen in Echtzeit erfassen und analysieren müssen. Aufgrund dieses enormen Problems mit der Datenanzahl werden Analyseteams gebeten, den Umfang der zu analysierenden Daten zu begrenzen oder Tage zu warten, bis die richtigen Daten zur Analyse zur Verfügung gestellt werden können.

Big-Data-Technologien

Unstrukturierte und halbstrukturierte Datentypen passen in der Regel nicht gut in herkömmliche Data Warehouses, die auf relationalen Datenbanken basieren, die auf strukturierten Datensätzen basieren. Data Warehouses sind möglicherweise nicht in der Lage, die Verarbeitungsanforderungen von Big Data zu bewältigen, die häufig oder kontinuierlich aktualisiert werden müssen.

Viele Unternehmen, die Big Data sammeln, verarbeiten und analysieren, nutzen daher NoSQL-Datenbanken sowie Hadoop und die zugehörigen Tools wie:

  • YARN Eine Cluster-Managementtechnologie und eine der wichtigsten Funktionen In Hadoop der zweiten Generation
  • MapReduce: Ein Programmiermodell und eine zugehörige Implementierung zur Verarbeitung und Generierung von Big Data Sets mit einem parallelen, verteilten Algorithmus auf einem Cluster
  • Apache Spark. Eine schnelle und allgemeine Engine für die Big-Data-Verarbeitung mit integrierten Modulen für Streaming, SQL, Machine Learning und Graph-Verarbeitung
  • HBase: Eine nicht relationale, verteilte Open-Source-Datenbank nach dem Vorbild von Google BigTable
  • Apache Hive. Ein Data-Warehouse-Softwareprojekt, das auf Apache Hadoop basiert und Datenzusammenfassung, Abfrage und Analyse ermöglicht
  • Kafka. Eine von der Apache Software entwickelte Open-Source-Plattform für die Stream-Verarbeitung Grundlage
  • Schwein. Eine Open-Source-Technologie, die einen allgemeinen Mechanismus für die bietet Parallele Programmierung von MapReduce Jobs, die auf Hadoop ausgeführt werden sollen Cluster

Immer häufiger übernehmen Benutzer von Big-Data-Analysen das Konzept eines Hadoop Data Lake, der als primäres Repository für eingehende Rohdatenströme dient. In solchen Architekturen können Daten direkt in einem Hadoop Cluster analysiert oder über eine Verarbeitungs-Engine wie Spark ausgeführt werden.

Big-Data-Ecosystem

SegmentWichtige Anbieter
Big Data Analytics Hadoop-/Apache-SoftwaredistributionenCloudera, HortonWorks, MapR
Applikationsmanagement, Sicherheit, ComplianceSplunk
SparkDataBricks
NoSQL-DatenbankenAerospike, Cassandra, Couchbase Server, HBase, MarkLogic, MongoDB, Redis Labs
Cloud-AnalysenAmazon EMR, Azure HDInsights, Google Cloud Platform
Open-Source-KomponentenDruid, Elasticsearch, Apache Flink, Apache Hive, Apache Kafka, Apache Mesos, Apache Spark, Apache Solr, Apache Hadoop YARN, Apache ZooKeeper

Vorteile von Big Data

Dank spezieller Analysesysteme und Software können Big-Data-Analysen auf verschiedene geschäftliche Vorteile hinweisen, darunter neue Umsatzchancen, effektiveres Marketing, besserer Kundenservice, verbesserte betriebliche Effizienz und Wettbewerbsvorteile gegenüber Mitbewerbern.

Laut einer Umfrage von Datameer im Jahr 2016 stimmen 78 % der Unternehmen zu, dass Big Data das Potenzial hat, ihre Geschäftsabläufe in den nächsten 1 bis 3 Jahren grundlegend zu verändern.

Wer nutzt Big Data?

Big-Data-Analyseanwendungen ermöglichen Datenwissenschaftlern, prädiktiven Modellierern, Statistikern, Und anderen Analyseexperten, um wachsende Mengen strukturierter Transaktionsdaten zu analysieren sowie eine Mischung aus halb- und unstrukturierten Daten wie Clickstream-Daten im Internet, Webserver-Protokollen, Social-Media-Inhalten, Text aus E-Mails von Kunden und Umfrageantworten, Detaildatensätzen für Mobiltelefongespräche, Und Maschinendaten, die von Sensoren erfasst werden, die mit dem Internet der Dinge (IoT) verbunden sind.

Big-Data-Management und Storage

Die schnelle Gewinnung von Erkenntnissen aus Daten ist entscheidend, um Chancen zu nutzen, Gewinne zu steigern und Risiken besser zu managen. Diese Fähigkeit erfordert Datenmanagement-Funktionen der Enterprise-Klasse, um die umfangreichen Datensätze bewältigen zu können.

Durch die Beschleunigung der Echtzeit-Datenanalyse von Maschinen können Unternehmen Cyberangriffe erkennen, bevor sie Schaden anrichten, und Betrug verhindern, ohne die Kundenerfahrung zu beeinträchtigen.

Die schnelle Ableitung von Business Intelligence aus Kundendaten ist für die Verbesserung der Kundenzufriedenheit und die Leitung zukünftiger Serviceangebote unerlässlich.

Der herkömmliche Storage-Ansatz der ersten Generation für Big-Data-Analysen (DAS-Storage) lässt sich jedoch nicht effizient skalieren. Und sie bietet nicht die erforderliche Zuverlässigkeit und Flexibilität, da diese Applikationen für die Wettbewerbsfähigkeit unverzichtbar werden.

Gemeinsam genutzter Storage/externe Storage Big-Data-Analyseplattformen bieten mehr Skalierbarkeit und Performance, unterbrechungsfreies Verschieben von Daten an den gewünschten Ort und Gewährleistung, dass sie stets geschützt und sicher sind.

NetApp und Big Data

Die innovative Big-Data-Analyseplattform von NetApp bietet eine bis zu doppelt so hohe Performance, die Daten und Workloads nahtlos und sicher in die Cloud oder an jedem Ort verschiebt und sicherstellt, dass Daten stets gesichert, gesichert und verfügbar sind. Mit NetApp können Sie Lizenzgebühren, Hardwarekosten und die TCO insgesamt um bis zu 50 % senken, indem Sie die Ressourcenauslastung erhöhen und unnötige Datenkopien vermeiden.

Drift chat loading