菜单

什么是大数据?

主题

分享该页面

大数据分析是指检查各种大型数据集以发现隐藏模式、未知关联关系、市场趋势、客户偏好和其他可帮助组织做出更明智业务决策的有用信息的过程。

在未来几年里,随着全球大部分商业收入都集中在数字或数字增强型产品和服务上,数字化转型将对各个组织起到重塑作用。

无论是人工还是机器产生的结构化或非结构化数据,也不管是存储在数据中心还是云端,数据都将成为取得竞争优势的新基础。

数据管理数据存储对于组织的数据策略不可或缺。

大数据挑战

面对巨大的压力,IT 主管和分析团队迫切需要在有限的时间内,运用有限的技能和预算驾驭当今的海量数据,并利用这些数据为整个企业创造新的价值。数据中心和云中的数据越来越呈现分布式、动态性和多样化的特点。这种情况不仅给负责存储和保护这些数据的基础架构团队带来挑战,也给需要从各种数据源中实时收集和分析数据的数据科学家、工程师和架构师带来了挑战。由于存在海量数据无序增长的问题,分析团队需要限制被分析数据的范围,或者需要等待数天,直到正确的数据可供分析。

大数据技术

非结构化和半结构化数据类型通常不适合使用传统的数据仓库,这种数据仓库是基于面向结构化数据集的关系数据库。数据仓库也可能无法处理需要频繁或持续更新的大数据集的处理需求。

因此,许多收集、处理和分析大数据的组织都纷纷采用 NoSQL 数据库和 Hadoop 及其配套工具,例如:

  • YARN。一种集群管理技术,第二代 Hadoop 的关键功能之一
  • MapReduce。一种在集群上使用并行、分布式算法处理和生成大数据集的编程模型和关联实现
  • Apache Spark。一个快速且通用的大数据处理引擎,具有用于流式传输、SQL、机器学习和图形处理的内置模块
  • HBase。一个以 Google Bigtable 为模型的开源的非关系分布式数据库
  • Apache Hive。一个以 Apache Hadoop 为基础构建的数据仓库软件项目,用于提供数据汇总、查询和分析
  • Kafka。一个由 Apache Software Foundation 开发的开源流处理平台
  • Pig。一种为在 Hadoop 集群上执行的 MapReduce 作业提供高级并行编程机制的开源技术

大数据分析用户越来越频繁地采用 Hadoop 数据湖的概念,在这个概念中,Hadoop 数据湖充当着原始数据传入流的主存储库。在此类架构中,可以直接在 Hadoop 集群中分析数据,也可以通过 Spark 等处理引擎运行数据。

大数据生态系统

细分市场主要供应商
大数据分析 Hadoop/Apache 软件分发Cloudera、HortonWorks、MapR
应用程序管理、安全性与合规性Splunk
SparkDataBricks
NoSQL 数据库Aerospike、Cassandra、Couchbase Server、HBase、MarkLogic、MongoDB、Redis 实验室
云分析Amazon EMR、Azure HDInsights、Google Cloud Platform
开源组件Druid、Elasticsearch、Apache Flink、Apache Hive、Apache Kafka、Apache Mesos、Apache Spark、Apache Solr、Apache Hadoop YARN、Apache ZooKeeper

大数据的优势

在专业分析系统和软件的驱动下,大数据分析可以指明获得各种业务优势的途径,包括新的创收机会、更有效的营销、更优质的客户服务、改进的运营效率以及竞争优势。

Datameer 在 2016 年进行的一项调查显示,78% 的企业认为大数据有可能在未来 1 到 3 年内从根本上改变它们开展业务的方式。

谁使用大数据?

借助大数据分析应用程序,数据科学家、预测建模师、统计学家和其他分析专业人员能够分析规模不断增长的结构化事物数据,以及混合的半结构化和非结构化数据,如互联网点击流数据、Web 服务器日志、社交媒体内容、客户电子邮件和调查回复中的文本、手机通话详细记录,以及连接到物联网 (IoT) 的传感器捕获的机器数据。

大数据管理和存储

快速地从数据中获取见解对于充分利用机会、提高利润和更好地管理风险至关重要。这种能力需要企业级数据管理功能来处理庞大的数据集。

加速实时机器数据分析可帮助组织在网络攻击造成损失之前及时发现它们并防止欺诈,但丝毫不影响客户体验。

从客户数据中快速获取业务智能对于提高满意度和指导未来的服务产品至关重要。

然而,第一代大数据分析商用存储方式(即 DAS 存储)根本无法高效扩展。当这些应用程序成为竞争力的关键时,它并不能提供所需的可靠性和灵活性。

共享存储/外部存储大数据分析平台可提供更强的可扩展性和性能,无中断地将数据移动到需要的位置,并确保数据始终受到安全保护。

NetApp 和大数据

NetApp 富有创新精神的大数据分析平台可交付两倍的性能,将数据和工作负载安全无缝地移动到云中或任何需要的位置,并确保数据始终得到备份,安全可用。借助 NetApp 技术,您可以提高资源利用率,消除不必要的数据副本,从而将许可证费用、硬件成本和总体 TCO 降低多达 50%。

Drift chat loading