Menu

O que é Big Data?

Tópicos

Compartilhe esta página

O Big Data Analytics é o processo de examinar conjuntos de dados grandes e variados para descobrir padrões ocultos, correlações desconhecidas, tendências de mercado, preferências do cliente e outras informações úteis que podem ajudar as organizações a tomar decisões de negócios mais informadas.

Nos próximos anos, a transformação digital reformulará as organizações como a maioria dos centros de receita de negócios globais em torno de produtos e serviços digitais ou digitalmente aprimorados.

Estruturados ou não estruturados, gerados por humanos ou máquinas e armazenados no data center ou na nuvem, os dados são a nova base de vantagem competitiva.

O gerenciamento e o storage de dados são parte integrante da estratégia de dados da organização.

Desafios de Big Data

As equipes de análise e líderes DE TI estão sob enorme pressão para aproveitar a riqueza dos dados atuais e aplicá-la a fim de criar novo valor em toda a organização, tudo isso com tempo, habilidades e orçamento limitados. Os dados estão se tornando distribuídos, dinâmicos e diversos nos data centers e na nuvem. Essa situação está impondo desafios não só para as equipes de infraestrutura responsáveis pelo armazenamento e proteção desses dados, mas também para cientistas, engenheiros e arquitetos de dados, que precisam coletar e analisar os dados em tempo real de várias fontes de dados. Devido a esse grande problema de proliferação de dados, as equipes de análise são convidadas a limitar o escopo dos dados que estão sendo analisados ou a esperar dias antes que os dados certos possam ser disponibilizados para análise.

Tecnologias de Big Data

Tipos de dados não estruturados e semi-estruturados normalmente não se encaixam bem em data warehouses tradicionais, que são baseados em bancos de dados relacionais orientados a conjuntos de dados estruturados. Os data warehouses também podem não ser capazes de lidar com as demandas de processamento apresentadas por conjuntos de big data que precisam ser atualizados com frequência ou continuamente.

Como resultado, muitas organizações que coletam, processam e analisam Big Data recorrem a bancos de dados NoSQL, bem como ao Hadoop e suas ferramentas complementares, como:

  • FIOS. Uma tecnologia de gerenciamento de clusters e um dos principais recursos do Hadoop de segunda geração
  • MapReduce. Um modelo de programação e uma implementação associada para processar e gerar conjuntos de big data com um algoritmo paralelo distribuído em um cluster
  • Apache Spark. Um mecanismo rápido e geral para o Big Data Processing, com módulos integrados para streaming, SQL, aprendizado de máquina e processamento de gráficos
  • Base. Um banco de dados distribuído, não relacional e de código aberto modelado segundo o Bigtable do Google
  • Apache Hive. Um projeto de software de data warehouse criado em cima do Apache Hadoop para fornecer sumarização, consulta e análise de dados
  • Kafka. Uma plataforma de processamento de fluxo de código aberto desenvolvida pela Apache Software Foundation
  • Porco. Uma tecnologia de código aberto que oferece um mecanismo de alto nível para a programação paralela de tarefas MapReduce a serem executadas em clusters Hadoop

Cada vez mais, os usuários de big data analytics estão adotando o conceito de um data Lake Hadoop que serve como o repositório principal para fluxos de entrada de dados brutos. Em tais arquiteturas, os dados podem ser analisados diretamente em um cluster Hadoop ou executados em um mecanismo de processamento como o Spark.

Ecossistema de Big Data

SegmentoFornecedores-chave
Distribuições do Hadoop/Apache SoftwareCloudera, HortonWorks, MAPR
Gerenciamento de aplicativos, segurança, conformidadeSplunk
FaíscaDataBricks
Bancos de dados NoSQLAerospin, Cassandra, servidor Couchbase, HBase, MarkLogic, MongoDB, Redis Labs
Análises de nuvemAmazon EMR, Azure HDInsights e Google Cloud Platform
Componentes de código abertoDruid, Elasticsearch, Apache Flink, Apache Hive, Apache Kafka, Apache Mesos, Apache Spark, Apache Solr, Apache Hadoop YARN, Apache Zookeeper

Benefícios do Big Data

Impulsionada por sistemas de análise especializados e software, a análise de big data pode apontar o caminho para vários benefícios comerciais, incluindo novas oportunidades de receita, marketing mais eficaz, melhor atendimento ao cliente, melhor eficiência operacional e vantagens competitivas em relação aos concorrentes.

De acordo com uma pesquisa da Datameer em 2016, 78% das empresas concordam que o Big Data tem o potencial de mudar fundamentalmente a forma como fazem negócios nos próximos 1 a 3 anos.

Quem usa Big Data?

As aplicações de análise de big data permitem cientistas de dados, modeladores preditivos, estatísticos, e outros profissionais de análise para analisar volumes crescentes de dados de transações estruturadas, além de uma combinação de dados semi-estruturados e não estruturados, como dados de fluxo de cliques na Internet, logs de servidor da Web, conteúdo de Mídia social, texto de e-mails de clientes e respostas de pesquisas, Registros de detalhes de chamadas de telefone móvel, e dados de máquina capturados por sensores conetadosà Internet das coisas (IoT).

Gerenciamento e storage de Big Data

Obter rapidamenteinsights dos dadosé crucial para capitalizar oportunidades, melhorar os lucros e gerenciar melhor os riscos. Essa capacidade requer funcionalidades de gerenciamento de dados de nível empresarial para lidar com grandes conjuntos de dados.

Acelerar a análise de dados de máquina em tempo real ajuda as organizações a detectar ataques cibernéticos antes que eles causem danos e evitar fraudes sem afetar a experiência do cliente.

Extrair rapidamente a inteligência de negócios dos dados dos clientes é essencial para melhorar os níveis de satisfação e orientar futuras ofertas de serviços.

No entanto, a abordagem de storage comum de big data analytics (ou seja, storage DAS) de primeira geração não é dimensionada com eficiência. E não fornece a confiabilidade e a flexibilidade necessárias, pois essas aplicações se tornam essenciais para a competitividade.

As plataformas de análise de big data de storage compartilhado/storage externo fornecem mais escalabilidade e performance, movendo os dados para onde forem necessários sem interrupções e garantindo que eles estejam sempre protegidos e seguros.

NetApp e Big Data

A inovadora plataforma de big data analytics daNetApp oferece até o dobro da performance, migrando dados e workloads de forma otimizada e segura para a nuvem ou onde necessário, garantindo o backup, a segurança e a disponibilidade dos dados. Com o NetApp, você pode reduzir as taxas de licença, os custos de hardware e o TCO geral em até 50%, aumentando a utilização de recursos e eliminando cópias desnecessárias de dados.

Drift chat loading