Gestión de datos de nueva generación para la IA

empleados sentados dentro de la habitación con escritorios y monitores

Contenido

Compartir esta página

ONTAP
AI

Krish Vitaldevara

2024-09-24

2,484 visualizaciones

Todos los sectores y las aplicaciones actuales están experimentando una rápida transformación impulsada por avances en la computación acelerada, el aprendizaje profundo y la inteligencia artificial. La siguiente fase de esta transformación requiere una infraestructura de datos inteligente que pueda acercar la inteligencia artificial y la computación a los datos empresariales.

Los retos de integrar datos con flujos de trabajo de IA

Cuando hablo con nuestros clientes, los retos que comentan consisten en la integración de sus datos y sus flujos de trabajo de IA empresarial. El núcleo de su problema es aplicar la tecnología de IA a los datos que ya tienen, ya sea en la nube, on-premises o, más probablemente, en ambos.

Imagina que eres un ingeniero de datos. Dispones de un modelo de lenguaje grande (LLM) de código abierto para entrenar tus datos corporativos de modo que el equipo de Marketing pueda crear mejores activos, y el equipo de Atención al cliente puede proporcionar chatbots orientados al cliente. Los datos se reparten por tus diferentes sistemas de almacenamiento, y no sabes qué está dónde. Exportas, mueves y centralizas tus datos para el entrenamiento, con todas las ineficiencias de tiempo y capacidad que eso implica. Creas tu modelo, pero el historial y el contexto de los datos que usaste se han perdido, por lo que no hay manera de rastrear el modelo hasta la fuente. Y todos esos datos se almacenan on-premises, pero el entrenamiento se está llevando a cabo en la nube, donde están las GPU.

Estos retos son bastante comunes para los ingenieros de datos y los científicos de datos con los que hablamos. NetApp ya está abordando muchos de estos retos. Pero a medida que el entrenamiento de modelos avanza y crece la necesidad de datos para entrenar, estos problemas se magnificarán.

Qué necesita la última generación de cargas de trabajo de IA

Conforme se dan forma a la nueva generación de entrenamiento y ajuste de las cargas de trabajo, los límites de la infraestructura existente correrán el riesgo de ralentizar la innovación. Entre los retos está una infraestructura de datos que permita el escalado y la optimización de la IA; una gestión de datos que informe a los flujos de trabajo de IA dónde residen los datos y cómo se pueden usar; y servicios de datos asociados que ayuden a los científicos de datos a proteger los flujos de trabajo de IA y mantener limpios sus modelos.

Infraestructura de datos escalable

A medida que los modelos de IA se vuelven más complejos, también aumentan sus requisitos computacionales. Las empresas necesitan una infraestructura que pueda escalarse y que proporcione el alto rendimiento necesario para tareas de IA intensivas, como el entrenamiento y el ajuste de grandes modelos de lenguaje. Al mismo tiempo, optimizar el uso de recursos que no son de almacenamiento, como maximizar el uso de las GPU, es crucial para una operaciones de IA rentables, ya que los recursos infrautilizados pueden suponer un aumento de los gastos. Maximizar el uso de GPU es crucial para las operaciones de IA rentables y para lograrlo es necesario un rendimiento del almacenamiento mejorado tanto en las operaciones de lectura como de escritura. Y, por último, los datos de entrenamiento normalmente se almacenan on-premises, mientras que los modelos de IA suelen entrenarse en la nube, por lo que las cargas de trabajo de IA suelen abarcar tanto on-premises como diversos entornos de nube. Esto quiere decir que la infraestructura debe proporcionar una gestión y movilidad de datos perfectas entre estos sistemas.

Gestión de datos universal

Las cargas de trabajo de IA suelen requerir acceso a grandes cantidades de datos, que pueden diseminarse por la empresa con diferentes sistemas y formatos. Este reto es aún mayor a medida que las empresas utilizan sus datos propietarios repartidos por toda su infraestructura de datos para casos de uso de ajuste y generación mejorada por recuperación (RAG). Los silos de datos dificultan añadir y analizar datos de forma eficaz para la IA. Y para gestionar el ciclo de vida de los datos de IA, desde la ingesta hasta el procesamiento y el almacenamiento, hace falta soluciones de gestión de datos sofisticadas capaces de gestionar la complejidad y el volumen de los datos no estructurados. Para que la IA sea eficaz, los datos relevantes deben ser accesibles y detectables con facilidad, lo que requiere potentes herramientas de gestión de metadatos y de exploración de datos.

Servicios de datos inteligentes

Con el auge de la IA, hay una mayor necesidad de contar con una seguridad y gobernanza robustas para proteger los datos sensibles y cumplir con los requisitos normativos, especialmente frente a amenazas como el ransomware. Los modelos creados a partir de datos envenenados o de manipulación intencional tienen el potencial de dañar considerablemente las operaciones empresariales que confían cada vez más en la IA. Y, como sucede con cualquier carga de trabajo empresarial, los datos deben estar disponibles y protegidos frente a desastres naturales o interrupciones del sistema para poder continuar las operaciones y evitar costosos tiempos de inactividad.

Cómo ayuda NetApp con las cargas de trabajo de IA

Hoy por hoy, NetApp es un líder reconocido en infraestructuras de IA. Durante más de una década, los clientes innovadores han estado extrayendo información impulsada por la IA de los datos gestionados por las soluciones de NetApp. Como partner desde hace mucho tiempo de NVIDIA, NetApp ha suministrado a NVIDIA las arquitecturas DGX SuperPOD y NetApp^® AIPod^™ certificadas y ha visto una rápida adopción de los flujos de trabajo de IA de las ofertas de nube propias en hiperescalares. Como líder en almacenamiento de datos no estructurados, los clientes confían en NetApp para sus activos de datos más valiosos.

¿Cómo logramos este nivel de confianza? A través de una innovación constante. A medida que los clientes nos confían sus datos, veremos aún más oportunidades que les pueden ayudar a poner en funcionamiento cargas de trabajo de alto rendimiento e IA. Por este motivo, presentamos una nueva arquitectura desagregada que permitirá a nuestros clientes continuar superando los límites del rendimiento y la escala. Un motor de gestión de metadatos mejorado que ayuda a los clientes a entender todos los activos de datos de la organización para que puedan simplificar el entrenamiento de modelos y el ajuste preciso. Además, un conjunto integrado de servicios de datos ayuda a gestionar esos datos y esa infraestructura, protegiéndolos de las amenazas naturales y de origen humano. Todo basado en NetApp ONTAP ^®, la arquitectura de almacenamiento unificado líder, para proporcionar una arquitectura unificada que integre toda la infraestructura de datos. El ADN de NetApp siempre nos ha hecho evolucionar y adoptar nuevas tecnologías, y seguir manteniendo la seguridad robusta, las funciones empresariales y la facilidad de uso en la que confían nuestros clientes. Estoy encantado de ofrecerte un adelanto de lo que está a la vuelta de la esquina sobre ONTAP.

La visión de NetApp sobre la gestión de datos para impulsar la IA

Nuestra visión de un motor de gestión de datos de IA unificado revolucionará la forma en que las organizaciones abordan el enfoque de la IA y aprovechan su potencial. Nuestro motor de gestión de datos estará diseñado para eliminar los silos de datos al proporcionar una vista unificada de los activos de datos, automatizando la captura de cambios en los datos para una inferencia rápida e integrándose estrechamente con herramientas de IA para flujos de trabajo de IA integrales. NetApp también innova en la capa de la infraestructura con sistemas escalables de alto rendimiento y en la capa de inteligencia con gobernanza y seguridad basadas en políticas.

Innovaciones planificadas

Arquitectura de almacenamiento desagregada. Para mejorar el rendimiento del sistema y reducir los costes, NetApp está desarrollando una arquitectura de almacenamiento que permite un uso compartido más eficiente de los back-end de almacenamiento. El objetivo de esta arquitectura es optimizar el uso de los recursos de red y flash, permitiendo un enfoque más flexible y rentable del almacenamiento. Esta innovación facilitará una mejora significativa en el rendimiento total en el clúster, al tiempo que reduce el espacio en rack y el uso de energía. La arquitectura está diseñada para permitir un escalado independiente de los recursos de computación y almacenamiento, lo que resulta especialmente beneficioso para cargas de trabajo de IA que requieren altos niveles de flexibilidad y escalabilidad.
Mejoras en el rendimiento. NetApp se compromete a ofrecer un rendimiento líder en el sector mediante las próximas mejoras en los sistemas de la serie NetApp AFF y el software ONTAP. Estas mejoras se orientan a gestionar con facilidad las cargas de trabajo de IA más intensas, de forma que las empresas puedan ejecutar sus estrategias de IA sin cuellos de botella en el rendimiento. Las mejoras incluirán funcionalidades avanzadas para gestionar y procesar grandes conjuntos de datos, esenciales para tareas como el entrenamiento generativo de IA y LLM.
Integración de datos fluida. El motor de gestión de datos de IA se ha diseñado para ofrecer una visión cohesiva y completa de los activos de datos de la organización. Este enfoque unificado es fundamental para la integración de datos en configuraciones on-premises, entornos de nube y plataformas con hiperescalares. Al facilitar la integración de datos fluida, NetApp hace que las organizaciones puedan gestionar todo el ciclo de vida de los datos de IA de forma más efectiva, desde la recopilación de datos inicial hasta la puesta en marcha y el análisis de modelos. Con este nuevo motor de gestión de datos de IA, solo NetApp podrá ofrecer a los clientes una vista unificada, estructurada y capaz de realizar consultas de todos sus activos de datos de ONTAP. Así es, tanto si los activos de datos están estructurados como no estructurados, y estén donde estén: on-premises, en la nube, o repartidos entre on-premises y alguno de nuestros partners hiperescalares: Amazon, Microsoft y Google.
Incrustación de vectores y bases de datos. El motor de gestión de datos de IA capturará automáticamente los cambios en los datos, generará incrustaciones de vectores altamente comprimidas y los almacenará en una base de datos vectorial integrada, lo que hará que los datos estén disponibles en las búsquedas y las cargas de trabajo de inferencia RAG. Todo ello se realiza de forma automática, inline y en contexto para simplificar y mejorar la eficiencia.
Integración de ecosistemas de IA. Al reconocer la importancia de un flujo de trabajo unificado de IA, nos centramos en integrar nuestros servicios de datos con el ecosistema más amplio de herramientas de IA. Esta integración simplificará todo el flujo de trabajo de IA, desde el etiquetado de datos y el entrenamiento de modelos hasta la orquestación y la puesta en marcha. Con la creación de un flujo de trabajo fluido, estamos ayudando a las organizaciones a reducir la complejidad de los proyectos de IA y a acelerar la rentabilidad de la inversión.
Una IA responsable. Con la creciente conciencia de las implicaciones éticas de la IA, NetApp está poniendo un fuerte énfasis en las prácticas responsables de la IA. La compañía está desarrollando fucniones integradas de trazabilidad y gobernanza de datos de modelos que permitirán a las organizaciones implementar soluciones de IA que no solo sean efectivas sino también éticas y transparentes.

Conclusión

En NetApp, prevemos un futuro en el que los científicos de datos puedan sentarse frente a la herramienta de IA que elijan y ajustar un modelo utilizando un catálogo de datos que cubra todo su patrimonio de datos. No necesitarán saber dónde están almacenados; el catálogo tendrá ese dato. Y el catálogo incluso bloqueará datos demasiado sensibles para el entrenamiento de modelos. Los datos de entrenamiento se capturarán en el estado con una copia NetApp Snapshot™ de punto en el tiempo que ahorra espacio para que los científicos de datos siempre puedan volver atrás y analizar los datos en su estado original si necesitan comprender las decisiones de un modelo. Y podrán hacerlo desde la nube que elijan, sin importar si los datos de entrenamiento se encuentran en esa misma nube, en otra u on-premises. Mientras tanto, la infraestructura que sirve los datos proporcionará la escala y el rendimiento necesarios para saturar por completo el resto de la infraestructura de IA, haciendo el mejor uso de esos recursos críticos y entregando modelos ajustados rápidamente. Este futuro no es ni descabellado ni lejano. NetApp ya ha construido gran parte de esta infraestructura y está preparada para la siguiente etapa de la IA.

Nos mantenemos firmes en nuestro compromiso de mejorar las capacidades de ONTAP, con el objetivo de satisfacer y superar las demandas de las empresas impulsadas por la IA. Al crear un entorno de datos unificado, mejorar la integración de herramientas de IA, automatizar la gestión inteligente de datos y priorizar el rendimiento y la escalabilidad, consolidamos nuestro liderazgo en el almacenamiento y la gestión de datos para IA. Estos avances estratégicos están diseñados para simplificar las complejidades de los proyectos de IA, ampliar la accesibilidad a los datos, mejorar la disponibilidad y seguridad de los datos y reducir los costes asociados, haciendo así que las tecnologías de IA sean más accesibles para las distintas organizaciones. Si te interesa obtener más información sobre los próximos desarrollos para NetApp ONTAP y nuestro motor de gestión de datos de IA, lee el whitepaper: ONTAP, pionero en la gestión de datos en la era del aprendizaje profundo.

Descargo de responsabilidad: esta publicación del blog analiza la visión de NetApp sobre la innovación futura, parte de la cual puede referirse a ofertas aún no lanzadas. NetApp comparte esta información únicamente con fines informativos y no debe utilizarse para la toma de decisiones de compra. NetApp no hace ningún compromiso y no tiene obligación alguna de desarrollar o entregar ningún producto o servicio, o cualquier función, material, código o funcionalidad relacionados. NetApp no se compromete ni tiene la obligación de desarrollar ni entregar ningún producto o servicio, ni ninguna característica, material, código o funcionalidad relacionada. El desarrollo, el lanzamiento y el calendario de cualquier característica o funcionalidad de los productos y servicios de NetApp quedan a tu entera discreción. La estrategia de NetApp, sus posibles desarrollos futuros, las directrices de sus productos y plataformas, y su funcionalidad están sujetos a cambios sin previo aviso. Declinamos cualquier obligación de actualizar la información contenida en esta entrada del blog, ya sea como resultado de nueva información, eventos futuros o por cualquier otro motivo. Ningún sistema de detección o recuperación de ransomware puede garantizar completamente la seguridad frente a un ataque de ransomware. Si bien es posible que un ataque pase desapercibido, la tecnología de NetApp actúa como una importante capa adicional de defensa. Toda la información se proporciona sin garantía ni responsabilidad alguna para NetApp.

Krish Vitaldevara

Krish es vicepresidente sénior de Plataformas Principales en NetApp. El equipo de Plataformas Principales es responsable de la plataforma de almacenamiento unificado, la plataforma de gestión, la Oficina de Experiencia del Cliente y la Oficina del Director de Diseño, y permite la entrega de diversas ofertas de NetApp en entornos on-premises, nube híbrida y servicios de datos. Krish tiene un MBA de la Universidad de Santa Clara y un master en Ingeniería de Sistemas de Información de la Universidad Estatal de Arizona. Krish también es un reconocido innovador y hacker con más de 30 patentes, principalmente en sistemas distribuidos, modelos de detección de spam y el uso de grafos y redes para la detección de anomalías.

Ver todas las publicaciones de Krish Vitaldevara

Siguientes pasos

Blogs

Mantente al tanto de las últimas tendencias y avances en la nube, on-premises y en cualquier otra parte. Aquí es donde todo se vuelve real. La guinda del pastel.

Comienza a leer

Comunidad

Explora una amplia gama de foros abiertos en los que puedes plantear y responder preguntas y conocer a fondo las tecnologías de NetApp que más te interesan.

Únete al debate