Menú

¿Qué son los Big Data?

Temas

Compartir esta página

El análisis de los big data es el proceso de examinar conjuntos de macrodatos variados para descubrir patrones ocultos, correlaciones desconocidas, tendencias del mercado, preferencias de clientes y otra información útil que puede ayudar a las organizaciones a tomar decisiones de negocio mejor informadas.

En los próximos años, la transformación digital remodelará las organizaciones, ya que la mayoría de los ingresos comerciales globales se centrarán en productos y servicios digitales o mejorados digitalmente.

Los datos, tanto estructurados como no estructurados, generados por humanos o por máquinas, almacenados en el centro de datos o en la nube, son la nueva base de la ventaja competitiva.

La gestión de datos y el almacenamiento de datos son parte integrante de la estrategia de datos de una organización.

Retos de los Big Data

Los responsables de la tecnología y los equipos de análisis están bajo una enorme presión para aprovechar la gran cantidad de datos actual y aplicarlos para crear un nuevo valor en toda la organización, todo ello con un tiempo, capacitación y presupuesto limitados. Los datos se están volviendo distribuidos, dinámicos y diversos en los centros de datos y la nube.. Esta situación plantea retos no solo para los equipos de infraestructura responsables del almacenamiento y la protección de estos datos, sino también para los científicos, ingenieros y arquitectos de datos, que necesitan recopilar y analizar los datos en tiempo real desde diversas fuentes de datos. Debido a este gran problema de proliferación de datos, se pide a los equipos de análisis que limiten el alcance de los datos que se están analizando o que esperen días antes de que los datos adecuados puedan estar disponibles para su análisis.

Tecnologías de Big Data

Los tipos de datos no estructurados y semiestructurados normalmente no encajan bien en los almacenes de datos tradicionales, que se basan en bases de datos relacionales orientadas a conjuntos de datos estructurados. Es posible que los almacenes de datos tampoco puedan gestionar las demandas de procesamiento que plantean los conjuntos de big data que deben actualizarse con frecuencia o de forma continua.

Como resultado, muchas organizaciones que recopilan, procesan y analizan big data recurren a bases de datos NoSQL, así como a Hadoop y herramientas como las siguientes:

  • YARN. Una tecnología de gestión de clústeres y una de las funciones clave en el Hadoop de segunda generación
  • MapReduce. Un modelo de programación y una implementación asociada para procesar y generar conjuntos de big data con un algoritmo paralelo y distribuido en un clúster.
  • Apache Spark. Un motor rápido y general para el procesamiento de big data, con módulos integrados para streaming, SQL, aprendizaje automático y procesamiento de gráficos
  • HBase. Una base de datos distribuida de código abierto, no relacional y basada en el modelo Bigtable de Google
  • Apache Hive. Un proyecto de software de almacén de datos creado sobre Apache Hadoop para proporcionar resúmenes de datos, consultas y análisis
  • Kafka. Una plataforma de procesamiento de flujos de código abierto desarrollada por Apache Software Fundación
  • Pig. Una tecnología de código abierto que ofrece un mecanismo de alto nivel para la programación paralela de trabajos de MapReduce que se ejecutan en clústeres de Hadoop

Cada vez con más frecuencia, los usuarios de análisis de big data están adoptando el concepto de un lago de datos de Hadoop que sirve de repositorio principal para flujos entrantes de datos sin formato. En estas arquitecturas, los datos se pueden analizar directamente en un clúster de Hadoop o ejecutarse a través de un motor de procesamiento como Spark.

Ecosistema de big data

Segmento Proveedores clave
Análisis de Big Data Hadoop/Distribuciones de software Apache Cloudera, HortonWorks,  MapR
Gestión de aplicaciones, seguridad y cumplimiento de normativas Splunk
Spark DataBricks
Bases de datos NoSQL Aerospike, Cassandra, Couchbase Server, HBase, MarkLogic, MongoDB, Redis Labs
Análsis en la nube Amazon EMR, Azure HDInsights, Google Cloud Platform
Componentes de código abierto Druid, Elasticsearch, Apache Flink, Apache Hive, Apache Kafka, Apache Mesos, Apache Spark, Apache Solr, Apache Hadoop YARN, Apache ZooKeeper

Ventajas de los Big Data

Impulsados por sistemas de análisis y software especializados, los análisis de big data pueden apuntar a diversos beneficios empresariales, incluidas nuevas oportunidades de ingresos, una comercialización más eficaz, un mejor servicio al cliente, una eficiencia operativa mejorada y ventajas competitivas frente a los rivales.

Según una encuesta realizada por Datameer en 2016, el 78 % de las empresas están de acuerdo en que los big data tienen el potencial de cambiar de raíz  la forma de hacer negocios en los próximos 1 a 3 años.

¿Quién utiliza Big Data?

Las aplicaciones de análisis de big data permiten a los científicos de datos, modeladores predictivos, estadísticos y otros profesionales del análisis analizar volúmenes crecientes de datos de transacciones estructuradas, además de una combinación de datos semiestructurados y no estructurados, como datos de flujo de clics de Internet, registros de servidores web, contenido de redes sociales, texto de correos electrónicos de clientes y respuestas a encuestas, registros detallados de llamadas de teléfonos móviles y datos de máquinas capturados por sensores conectados al Internet de las cosas (IoT).

Almacenamiento y gestión de Big Data

Obtener rápidamente información de los datos es crucial para aprovechar las oportunidades, mejorar los beneficios y gestionar mejor los riesgos. Esta capacidad requiere funcionalidades de gestión de datos de nivel empresarial para poder hacer frente a los conjuntos de big data.

La aceleración del análisis de datos de máquinas en tiempo real ayuda a las organizaciones a detectar los ciberataques antes de que causen daños y a evitar el fraude sin afectar a la experiencia del cliente.

La obtención rápida de inteligencia empresarial a partir de los datos de los clientes es esencial para mejorar los niveles de satisfacción y orientar las futuras ofertas de servicios.

Sin embargo, el enfoque de almacenamiento básico de análisis de big data de primera generación (es decir, almacenamiento DAS) simplemente no se escala de forma eficiente. Y no proporciona la fiabilidad y la flexibilidad necesarias a medida que estas aplicaciones se vuelven esenciales para la competitividad.

Las plataformas de análisis de big data de almacenamiento compartido/externo ofrecen más escalabilidad y rendimiento, trasladando los datos sin interrupciones donde sea necesario y asegurándose de que siempre estén protegidos y seguros.

NetApp y Big Data

La innovadora plataforma de análisis de big data de NetApp ofrece hasta el doble de rendimiento, mueve datos y cargas de trabajo de forma segura y sin problemas a la nube o donde sea necesario y se asegura de que los datos siempre están respaldados, seguros y disponibles. Con NetApp, puedes reducir las tarifas de licencia, los costes de hardware y el coste total de propiedad en un 50 %, aumentando la utilización de los recursos y eliminando las copias innecesarias.

Drift chat loading