ビッグデータとは

トピック

このページを共有

ビッグデータ分析とは、大規模で多様なデータセットを調査して、隠れたパターン、未知の相関関係、市場の動向、顧客の好み、その他の有益な情報を明らかにするプロセスであり、情報に基づいた的確なビジネス上の意思決定を支援します。

今後数年の間に、デジタル変革は、デジタルまたはデジタル機能を強化した製品やサービスを中心とした世界的なビジネス収益源の大部分として、組織を一変させるでしょう。

人間やマシンによって生成され、データセンターやクラウドに保管される構造化データや非構造化データは、優れた競争力の新たな基盤となります。

データ管理とデータストレージは、組織のデータ戦略に不可欠な要素です。

ビッグデータの課題

IT リーダーや分析チームは、限られた時間とスキルと予算の中で膨大なデータを活用し、組織全体に新たな価値を生み出さなければならないという大きなプレッシャーにさらされています。データは、データセンターとクラウドの間で動的かつ多様に分散されるようになりつつあります。この状況は、データの格納と保護を担当するインフラチームだけでなく、さまざまなデータソースからデータをリアルタイムで収集して分析する必要があるデータサイエンティスト、エンジニア、アーキテクトにも大きな課題をもたらしています。このような膨大なデータスプロールの問題により、分析対象のデータの範囲を制限したり、適切なデータを分析に利用できるようになるまで数日かかるよう分析チームに依頼されます。

ビッグデータテクノロジー

一般に、非構造化データと半構造化データのタイプは、構造化データセットを指向するリレーショナルデータベースに基づく従来のデータウェアハウスには適していません。また、データウェアハウスは、頻繁または継続的に更新する必要のある一連のビッグデータに伴う処理要求に対応できない場合もあります。

その結果、ビッグデータを収集、処理、分析する多くの組織は、 NoSQL データベースや Hadoop 、以下のようなコンパニオンツールを利用することになります。

YARN：クラスタ管理テクノロジで、第 2 世代 Hadoopの主要な機能の 1 つ
MapReduce：クラスタ上で並列分散アルゴリズムを使用してビッグデータセットを処理および生成するためのプログラミングモデルと関連する実装
Apache Spark：ストリーミング、 SQL 、機械学習、グラフ処理用の組み込みモジュールを備えた、ビッグデータ処理用の高速で汎用のエンジン
Hbase：Google の Bigtable に従ってモデル化されたオープンソースの非リレーショナル分散データベース
Apache Hive：データ集約、クエリ、分析のための、Apache Hadoop 上に構築されたデータウェアハウスソフトウェアプロジェクト
Kafka：Apache Software Foundationが開発したオープンソースのストリーム処理プラットフォーム
Pig：Hadoop 上で実行される MapReduce ジョブの並列プログラミングクラスタのための、高度なメカニズムを提供するオープンソーステクノロジ

さらに多くの場合、ビッグデータ分析のユーザは、生データの受信ストリームのプライマリリポジトリとして機能する Hadoop データレイクの概念を採用しています。このようなアーキテクチャでは、データを Hadoop クラスタ内で直接分析したり、 Spark などの処理エンジンを通じて実行したりできます。

ビッグデータエコシステム

セグメント	主要ベンダー
ビッグデータ分析Hadoop / Apacheソフトウェアディストリビューション	Cloudera、HortonWorks、MapR
アプリケーション管理、セキュリティ、コンプライアンス	Splunk
Spark	DataBricks
NoSQLデータベース	Aerospike、Cassandra、Couchbase Server、HBase、 MarkLogic、MongoDB、Redis のラボ
クラウド分析	Amazon EMR、Azure HDInsights、Google Cloud Platform
オープンソースのコンポーネント	Druid、Elasticsearch、Apache Flink、Apache Hive、 Apache Kafka、Apache Mesos、Apache Spark、Apache Solr、Apache Hadoop YARN、Apache ZooKeeper

ビッグデータのメリット

ビッグデータ分析では、専門的な分析システムとソフトウェアを活用して、新しい収益機会、効果的なマーケティング、顧客サービスの向上、運用効率の向上、競合他社と比較した競争上の優位性など、さまざまなビジネス上のメリットを特定できます。

2016 年の Datamer の調査によると、 78% の企業が、ビッグデータは今後 1 年から 3 年にわたってビジネスのやり方を根本的に変える可能性があると考えています。

ビッグデータの使用者

ビッグデータ分析アプリケーションにより、データサイエンティスト、予測モデラ、統計担当者、さらに、構造化されたトランザクションデータの増加量を分析し、インターネットクリックストリームデータ、 Web サーバログ、ソーシャルメディアコンテンツ、顧客の E メールやアンケート回答のテキスト、携帯電話のコール詳細レコードやモノのインターネット（ IoT）に接続されたセンサーで収集されたマシンデータなど、半構造化データと非構造化データを混在させて分析する分析専門家もいます。

データ管理とストレージ

機会の活用、収益の向上、リスク管理の向上には、データから分析情報を迅速に取得することが不可欠です。このような機能を利用するには、膨大なデータセットに対応できるエンタープライズクラスのデータ管理機能が必要です。

リアルタイムのマシンデータ分析を高速化することで、サイバー攻撃を未然に検知し、顧客体験に影響を与えずに不正行為を防止することができます。

顧客データからビジネスインテリジェンスを迅速に引き出すことは、満足度の向上と将来のサービス提供の促進に不可欠です。

しかし、第 1 世代のビッグデータ分析汎用ストレージアプローチ（ DAS ストレージ）では、効率的に拡張することはできません。また、これらのアプリケーションは競争力を高めるために不可欠なものになるため、必要な信頼性と柔軟性を提供するものではありません。

共有ストレージ / 外部ストレージビッグデータ分析プラットフォームは、拡張性とパフォーマンスを向上させ、必要な場所にデータを無停止で移動し、常に保護され、安全な状態に保ちます。

ネットアップとビッグデータ

ネットアップの革新的なビッグデータ分析プラットフォームは、パフォーマンスを最大 2 倍まで高め、データとワークロードをシームレスかつ安全にクラウドまたは必要な場所に移動し、データのバックアップ、セキュリティ、可用性を常に維持します。ネットアップなら、リソース使用率を高めて不要なデータコピーを排除することで、ライセンス料金、ハードウェアコスト、全体的な TCO を 50% も削減できます。