Todos los sectores y las aplicaciones actuales están experimentando una rápida transformación impulsada por avances en la computación acelerada, el aprendizaje profundo y la inteligencia artificial. La siguiente fase de esta transformación requiere una infraestructura de datos inteligente que pueda acercar la inteligencia artificial y la computación a los datos empresariales.
Cuando hablo con nuestros clientes, los retos que comentan consisten en la integración de sus datos y sus flujos de trabajo de IA empresarial. El núcleo de su problema es aplicar la tecnología de IA a los datos que ya tienen, ya sea en la nube, on-premises o, más probablemente, en ambos.
Imagina que eres un ingeniero de datos. Dispones de un modelo de lenguaje grande (LLM) de código abierto para entrenar tus datos corporativos de modo que el equipo de Marketing pueda crear mejores activos, y el equipo de Atención al cliente puede proporcionar chatbots orientados al cliente. Los datos se reparten por tus diferentes sistemas de almacenamiento, y no sabes qué está dónde. Exportas, mueves y centralizas tus datos para el entrenamiento, con todas las ineficiencias de tiempo y capacidad que eso implica. Creas tu modelo, pero el historial y el contexto de los datos que usaste se han perdido, por lo que no hay manera de rastrear el modelo hasta la fuente. Y todos esos datos se almacenan on-premises, pero el entrenamiento se está llevando a cabo en la nube, donde están las GPU.
Estos retos son bastante comunes para los ingenieros de datos y los científicos de datos con los que hablamos. NetApp ya está abordando muchos de estos retos. Pero a medida que el entrenamiento de modelos avanza y crece la necesidad de datos para entrenar, estos problemas se magnificarán.
Conforme se dan forma a la nueva generación de entrenamiento y ajuste de las cargas de trabajo, los límites de la infraestructura existente correrán el riesgo de ralentizar la innovación. Entre los retos está una infraestructura de datos que permita el escalado y la optimización de la IA; una gestión de datos que informe a los flujos de trabajo de IA dónde residen los datos y cómo se pueden usar; y servicios de datos asociados que ayuden a los científicos de datos a proteger los flujos de trabajo de IA y mantener limpios sus modelos.
Infraestructura de datos escalable
A medida que los modelos de IA se vuelven más complejos, también aumentan sus requisitos computacionales. Las empresas necesitan una infraestructura que pueda escalarse y que proporcione el alto rendimiento necesario para tareas de IA intensivas, como el entrenamiento y el ajuste de grandes modelos de lenguaje. Al mismo tiempo, optimizar el uso de recursos que no son de almacenamiento, como maximizar el uso de las GPU, es crucial para una operaciones de IA rentables, ya que los recursos infrautilizados pueden suponer un aumento de los gastos. Maximizar el uso de GPU es crucial para las operaciones de IA rentables y para lograrlo es necesario un rendimiento del almacenamiento mejorado tanto en las operaciones de lectura como de escritura. Y, por último, los datos de entrenamiento normalmente se almacenan on-premises, mientras que los modelos de IA suelen entrenarse en la nube, por lo que las cargas de trabajo de IA suelen abarcar tanto on-premises como diversos entornos de nube. Esto quiere decir que la infraestructura debe proporcionar una gestión y movilidad de datos perfectas entre estos sistemas.
Gestión de datos universal
Las cargas de trabajo de IA suelen requerir acceso a grandes cantidades de datos, que pueden diseminarse por la empresa con diferentes sistemas y formatos. Este reto es aún mayor a medida que las empresas utilizan sus datos propietarios repartidos por toda su infraestructura de datos para casos de uso de ajuste y generación mejorada por recuperación (RAG). Los silos de datos dificultan añadir y analizar datos de forma eficaz para la IA. Y para gestionar el ciclo de vida de los datos de IA, desde la ingesta hasta el procesamiento y el almacenamiento, hace falta soluciones de gestión de datos sofisticadas capaces de gestionar la complejidad y el volumen de los datos no estructurados. Para que la IA sea eficaz, los datos relevantes deben ser accesibles y detectables con facilidad, lo que requiere potentes herramientas de gestión de metadatos y de exploración de datos.
Servicios de datos inteligentes
Con el auge de la IA, hay una mayor necesidad de contar con una seguridad y gobernanza robustas para proteger los datos sensibles y cumplir con los requisitos normativos, especialmente frente a amenazas como el ransomware. Los modelos creados a partir de datos envenenados o de manipulación intencional tienen el potencial de dañar considerablemente las operaciones empresariales que confían cada vez más en la IA. Y, como sucede con cualquier carga de trabajo empresarial, los datos deben estar disponibles y protegidos frente a desastres naturales o interrupciones del sistema para poder continuar las operaciones y evitar costosos tiempos de inactividad.
Hoy por hoy, NetApp es un líder reconocido en infraestructuras de IA. Durante más de una década, los clientes innovadores han estado extrayendo información impulsada por la IA de los datos gestionados por las soluciones de NetApp. Como partner desde hace mucho tiempo de NVIDIA, NetApp ha suministrado a NVIDIA las arquitecturas DGX SuperPOD y NetApp® AIPod™ certificadas y ha visto una rápida adopción de los flujos de trabajo de IA de las ofertas de nube propias en hiperescalares. Como líder en almacenamiento de datos no estructurados, los clientes confían en NetApp para sus activos de datos más valiosos.
¿Cómo logramos este nivel de confianza? A través de una innovación constante. A medida que los clientes nos confían sus datos, veremos aún más oportunidades que les pueden ayudar a poner en funcionamiento cargas de trabajo de alto rendimiento e IA. Por este motivo, presentamos una nueva arquitectura desagregada que permitirá a nuestros clientes continuar superando los límites del rendimiento y la escala. Un motor de gestión de metadatos mejorado que ayuda a los clientes a entender todos los activos de datos de la organización para que puedan simplificar el entrenamiento de modelos y el ajuste preciso. Además, un conjunto integrado de servicios de datos ayuda a gestionar esos datos y esa infraestructura, protegiéndolos de las amenazas naturales y de origen humano. Todo basado en NetApp ONTAP ®, la arquitectura de almacenamiento unificado líder, para proporcionar una arquitectura unificada que integre toda la infraestructura de datos. El ADN de NetApp siempre nos ha hecho evolucionar y adoptar nuevas tecnologías, y seguir manteniendo la seguridad robusta, las funciones empresariales y la facilidad de uso en la que confían nuestros clientes. Estoy encantado de ofrecerte un adelanto de lo que está a la vuelta de la esquina sobre ONTAP.
Nuestra visión de un motor de gestión de datos de IA unificado revolucionará la forma en que las organizaciones abordan el enfoque de la IA y aprovechan su potencial. Nuestro motor de gestión de datos estará diseñado para eliminar los silos de datos al proporcionar una vista unificada de los activos de datos, automatizando la captura de cambios en los datos para una inferencia rápida e integrándose estrechamente con herramientas de IA para flujos de trabajo de IA integrales. NetApp también innova en la capa de la infraestructura con sistemas escalables de alto rendimiento y en la capa de inteligencia con gobernanza y seguridad basadas en políticas.
Innovaciones planificadas
En NetApp, prevemos un futuro en el que los científicos de datos puedan sentarse frente a la herramienta de IA que elijan y ajustar un modelo utilizando un catálogo de datos que cubra todo su patrimonio de datos. No necesitarán saber dónde están almacenados; el catálogo tendrá ese dato. Y el catálogo incluso bloqueará datos demasiado sensibles para el entrenamiento de modelos. Los datos de entrenamiento se capturarán en el estado con una copia NetApp Snapshot™ de punto en el tiempo que ahorra espacio para que los científicos de datos siempre puedan volver atrás y analizar los datos en su estado original si necesitan comprender las decisiones de un modelo. Y podrán hacerlo desde la nube que elijan, sin importar si los datos de entrenamiento se encuentran en esa misma nube, en otra u on-premises. Mientras tanto, la infraestructura que sirve los datos proporcionará la escala y el rendimiento necesarios para saturar por completo el resto de la infraestructura de IA, haciendo el mejor uso de esos recursos críticos y entregando modelos ajustados rápidamente. Este futuro no es ni descabellado ni lejano. NetApp ya ha construido gran parte de esta infraestructura y está preparada para la siguiente etapa de la IA.
Nos mantenemos firmes en nuestro compromiso de mejorar las capacidades de ONTAP, con el objetivo de satisfacer y superar las demandas de las empresas impulsadas por la IA. Al crear un entorno de datos unificado, mejorar la integración de herramientas de IA, automatizar la gestión inteligente de datos y priorizar el rendimiento y la escalabilidad, consolidamos nuestro liderazgo en el almacenamiento y la gestión de datos para IA. Estos avances estratégicos están diseñados para simplificar las complejidades de los proyectos de IA, ampliar la accesibilidad a los datos, mejorar la disponibilidad y seguridad de los datos y reducir los costes asociados, haciendo así que las tecnologías de IA sean más accesibles para las distintas organizaciones. Si te interesa obtener más información sobre los próximos desarrollos para NetApp ONTAP y nuestro motor de gestión de datos de IA, lee el whitepaper: ONTAP, pionero en la gestión de datos en la era del aprendizaje profundo.
Descargo de responsabilidad: esta publicación del blog analiza la visión de NetApp sobre la innovación futura, parte de la cual puede referirse a ofertas aún no lanzadas. NetApp comparte esta información únicamente con fines informativos y no debe utilizarse para la toma de decisiones de compra. NetApp no hace ningún compromiso y no tiene obligación alguna de desarrollar o entregar ningún producto o servicio, o cualquier función, material, código o funcionalidad relacionados. NetApp no se compromete ni tiene la obligación de desarrollar ni entregar ningún producto o servicio, ni ninguna característica, material, código o funcionalidad relacionada. El desarrollo, el lanzamiento y el calendario de cualquier característica o funcionalidad de los productos y servicios de NetApp quedan a tu entera discreción. La estrategia de NetApp, sus posibles desarrollos futuros, las directrices de sus productos y plataformas, y su funcionalidad están sujetos a cambios sin previo aviso. Declinamos cualquier obligación de actualizar la información contenida en esta entrada del blog, ya sea como resultado de nueva información, eventos futuros o por cualquier otro motivo. Ningún sistema de detección o recuperación de ransomware puede garantizar completamente la seguridad frente a un ataque de ransomware. Si bien es posible que un ataque pase desapercibido, la tecnología de NetApp actúa como una importante capa adicional de defensa. Toda la información se proporciona sin garantía ni responsabilidad alguna para NetApp.
Krish es vicepresidente sénior de Plataformas Principales en NetApp. El equipo de Plataformas Principales es responsable de la plataforma de almacenamiento unificado, la plataforma de gestión, la Oficina de Experiencia del Cliente y la Oficina del Director de Diseño, y permite la entrega de diversas ofertas de NetApp en entornos on-premises, nube híbrida y servicios de datos. Krish tiene un MBA de la Universidad de Santa Clara y un master en Ingeniería de Sistemas de Información de la Universidad Estatal de Arizona. Krish también es un reconocido innovador y hacker con más de 30 patentes, principalmente en sistemas distribuidos, modelos de detección de spam y el uso de grafos y redes para la detección de anomalías.