빅데이터란?

항목

이 페이지 공유하기

빅데이터 분석은 다양한 대규모 데이터 세트를 검사하여 숨겨진 패턴, 알려지지 않은 상관 관계, 시장 동향, 고객 선호도 및 기타 유용한 정보를 발견하고 조직이 보다 정확한 정보를 바탕으로 비즈니스 의사 결정을 내릴 수 있도록 도움을 주는 프로세스입니다.

글로벌 비즈니스 수익의 대부분이 디지털 또는 디지털로 향상된 제품과 서비스를 중심으로 이루어짐에 따라 조직은 향후 몇 년간 디지털 혁신을 통해 재편될 것입니다.

정형 또는 비정형, 사람 또는 기계에 의해 생성되고 데이터 센터 또는 클라우드에 저장되는 데이터는 경쟁 우위의 새로운 기반이 됩니다.

데이터 관리 및 데이터 저장은 조직의 데이터 전략에 필수적인 요소입니다.

빅데이터의 당면 과제

IT 리더와 분석 팀은 제한된 시간, 기술 및 예산으로 오늘날의 풍부한 데이터를 활용하고 조직 전체에 새로운 가치를 창출하기 위해 이를 적용해야 한다는 엄청난 압박을 받고 있습니다. 데이터는 데이터 센터 및 클라우드 전반에서 분산되고 동적으로 변경되며 다양해지고 있습니다. 이러한 상황은 데이터를 저장하고 보호해야 하는 인프라 팀뿐만 아니라 다양한 데이터 소스에서 실시간으로 데이터를 수집하고 분석해야 하는 데이터 과학자, 엔지니어, 설계자에게도 큰 과제를 안겨주고 있습니다. 이처럼 방대한 데이터의 무분별한 확장 문제로 인해 분석 팀은 분석할 데이터의 범위를 제한하거나 올바른 데이터를 분석에 사용할 수 있게 되기까지 며칠을 기다려야 합니다.

빅데이터 기술

비정형 및 반정형 데이터 유형은 일반적으로 정형 데이터 세트에 주력하는 관계형 데이터베이스에 기반을 둔 기존의 데이터 웨어하우스에는 적합하지 않습니다. 또한, 데이터 웨어하우스는 자주 또는 지속적으로 업데이트해야 하는 빅데이터 세트에서 발생하는 처리 요구를 해결하지 못할 수도 있습니다.

그 결과, 빅데이터를 수집, 처리 및 분석하는 많은 조직이 NoSQL 데이터베이스와 함께 Hadoop 및 다음과 같은 툴을 동반 사용합니다.

YARN. 클러스터 관리 기술이자 2세대 Hadoop의 주요 기능 중 하나
MapReduce. 클러스터에서 병렬 분산 알고리즘을 사용하여 빅데이터 세트를 처리하고 생성하기 위한 프로그래밍 모델 및 관련 구현
Apache Spark. 스트리밍, SQL, 머신 러닝, 그래프 처리를 위한 모듈이 내장된 빠르고 일반적인 빅데이터 처리 엔진
HBase. Google의 Bigtable을 기반으로 한 오픈 소스 비관계형 분산 데이터베이스
Apache Hive. 데이터 요약, 쿼리 및 분석을 제공하기 위해 Apache Hadoop을 기반으로 구축된 데이터 웨어하우스 소프트웨어 프로젝트
Kafka. Apache Software Foundation에서 개발한 오픈 소스 스트림 처리 플랫폼
Pig. Hadoop 클러스터에서 실행되는 MapReduce 작업의 병렬 프로그래밍에 고급 메커니즘을 제공하는 오픈 소스 기술

점점 더 많은 빅데이터 분석 사용자가 원시 데이터의 수신 스트림에 대한 기본 저장소 역할을 하는 Hadoop 데이터 레이크의 개념을 채택하고 있습니다. 이러한 아키텍처에서는 데이터를 Hadoop 클러스터에서 직접 분석하거나 Spark와 같은 처리 엔진을 통해 실행할 수 있습니다.

빅데이터 에코시스템

부문	주요 공급업체
빅데이터 분석용 Hadoop/Apache 소프트웨어 배포판	Cloudera, HortonWorks, MapR
애플리케이션 관리, 보안, 규정 준수	Splunk
Spark	DataBricks
NoSQL 데이터베이스	Aerospike, Cassandra, Couchbase Server, HBase, MarkLogic, MongoDB, Redis Labs
클라우드 분석	Amazon EMR, Azure HDInsights, Google Cloud Platform
오픈 소스 구성요소	Druid, Elasticsearch, Apache Flink, Apache Hive, Apache Kafka, Apache Mesos, Apache Spark, Apache Solr, Apache Hadoop YARN, Apache ZooKeeper

빅데이터의 이점

전문 분석 시스템 및 소프트웨어를 기반으로 하는 빅데이터 분석은 새로운 수익 창출 기회, 보다 효과적인 마케팅, 더 나은 고객 서비스, 운영 효율성 향상, 경쟁 우위 선점 등 다양한 비즈니스 이점을 제공할 수 있습니다.

2016년 Datameer가 실시한 설문조사에 따르면 78%의 기업이 빅데이터가 향후 1~3년 동안 비즈니스 운영 방식을 근본적으로 변화시킬 가능성이 있다는 데 동의했습니다.

빅데이터의 사용자는 누구입니까?

데이터 과학자, 예측 모델 작성자, 통계학자 및 기타 분석 전문가가 빅데이터 분석 애플리케이션을 통해 점점 더 많은 양의 정형 트랜잭션 데이터와 인터넷 클릭스트림 데이터, 웹 서버 로그, 소셜 미디어 콘텐츠, 고객 이메일의 텍스트 및 설문조사 응답, 휴대폰 통화 세부 내역, 사물 인터넷(IoT)에 연결된 센서로 캡처한 기계 데이터와 같은 반정형 및 비정형 데이터를 분석할 수 있습니다.

빅데이터 관리 및 저장

데이터에서 인사이트를 빠르게 확보하는 것은 기회를 활용하고, 수익을 개선하며, 위험을 효율적으로 관리하는 데 매우 중요합니다. 이를 위해서는 방대한 데이터 세트를 처리할 수 있는 엔터프라이즈급 데이터 관리 기능이 필요합니다.

실시간 머신 데이터 분석을 가속하면 조직은 피해를 입기 전에 사이버 공격을 탐지하고 고객 경험에 영향을 주지 않으면서 사기를 방지할 수 있습니다.

고객 데이터로부터 비즈니스 인텔리전스를 신속하게 도출하는 것은 만족도 수준을 개선하고 향후 서비스 제공을 이끄는 데 필수입니다.

하지만 1세대 빅데이터 분석 상용 스토리지 접근 방식인 DAS 스토리지는 효율적으로 확장되지 않습니다. 또한, 이러한 애플리케이션이 경쟁력의 필수 요소로 자리 잡으면서 필요해진 안정성과 유연성을 제공하지도 못합니다.

공유 스토리지/외부 스토리지 빅데이터 분석 플랫폼을 사용하면 더 높은 확장성과 성능을 제공하고 데이터를 필요한 곳으로 중단 없이 이동하고 항상 안전하게 보호할 수 있습니다.

NetApp과 빅데이터

NetApp의 혁신적인 빅데이터 분석 플랫폼은 최대 2배 향상된 성능을 제공하며, 데이터와 워크로드를 클라우드 또는 필요한 곳으로 원활하고 안전하게 이동하고 항상 데이터의 백업, 보안 및 가용성을 보장합니다. NetApp을 사용하면 리소스 활용률을 높이고 불필요한 데이터 복사본을 제거하여 라이센스 비용, 하드웨어 비용 및 전체 TCO를 50%까지 낮출 수 있습니다.