Menu

Gerenciamento de dados de nova geração para IA: o

: mecanismo de gerenciamento de dados de nova geração levará a IA a novos patamares

funcionários sentados dentro da sala com mesa de trabalho e monitores
Conteúdo

Compartilhe esta página

Krish Vitaldevara
Krish Vitaldevara
1,459 visualizações

Todos os setores e aplicativos modernos estão passando por uma transformação rápida com tecnologia avançada de computação acelerada, deep learning e inteligência artificial. A próxima fase dessa transformação requer uma infraestrutura de dados inteligente que aproxime a IA e a computação dos dados empresariais.

Os desafios da integração de dados com workflows de IA

Quando falo com nossos clientes, os desafios deles envolvem a integração de seus dados e seus workflows de IA empresariais. O principal problema deles é a aplicação da tecnologia de IA aos dados que já têm, seja na nuvem, no local ou, mais provavelmente, os dois.

Imagine que você é um engenheiro de dados. Você obtém um modelo de linguagem grande (LLM) de código aberto para treinar em seus dados corporativos para que a equipe de marketing possa construir melhores ativos e a equipe de atendimento ao cliente possa fornecer chatbots voltados para o cliente. Os dados se espalham pelos diferentes sistemas de storage, e você não sabe o que está onde. Você exporta, move e centraliza seus dados para fins de treinamento com todas as ineficiências de tempo e capacidade associadas. Você constrói seu modelo, mas o histórico e o contexto dos dados usados são perdidos, então não há como rastrear seu modelo de volta para a fonte. E todos esses dados são armazenados no local, mas seu treinamento ocorre na nuvem onde as GPUs estão presentes.

Esses desafios são bastante comuns para os engenheiros de dados e cientistas de dados com os quais falamos. A NetApp já está enfrentando muitos desses desafios. Mas à medida que o treinamento de modelos se torna mais avançado e a necessidade aumenta para que cada vez mais dados sejam treinados, esses problemas serão ampliados.

O que a próxima geração de workloads de IA precisa?

À medida que a próxima geração de workloads de ajuste fino e treinamento em IA se forma, os limites da infraestrutura existente correrão o risco de desacelerar a inovação. Alguns desafios incluem a infraestrutura de dados que permite o dimensionamento e a otimização da IA, o gerenciamento de dados para informar workflows de IA onde os dados estão e como eles podem ser usados e os serviços de dados associados que ajudam os cientistas de dados a proteger os workflows de IA e manter os modelos limpos.

Infraestrutura de dados dimensionável

À medida que os modelos de IA se tornam mais complexos, seus requisitos computacionais aumentam. As empresas precisam de uma infraestrutura que possa escalar e fornecer o alto desempenho necessário para tarefas intensivas de IA, como treinamento e ajuste fino de modelos de idiomas grandes. Ao mesmo tempo, otimizar o uso de recursos que não são de storage, como maximizar o uso de GPU, é essencial para operações de IA econômicas, porque os recursos subutilizados podem resultar em despesas maiores. Maximizar o uso de GPU é essencial para operações de IA econômicas. Além disso, a capacidade de alcançá-lo requer taxa de transferência de storage aprimorada para operações de leitura e gravação. E, por fim, os dados de treinamento geralmente são armazenados no local, enquanto os modelos de IA geralmente são treinados na nuvem. Isso significa que os workloads de IA geralmente abrangem ambientes locais e de várias nuvens. Isso significa que a infraestrutura precisa fornecer mobilidade e gerenciamento de dados aprimorados em todos esses sistemas.

Gerenciamento universal de dados

Os workloads de IA geralmente exigem acesso a grandes quantidades de dados, que podem ser espalhados por uma empresa em diferentes sistemas e formatos. Esse desafio se torna ainda maior à medida que as empresas usam seus dados proprietários espalhados por toda a infraestrutura de dados para ajustar e recuperar casos de uso de geração aumentada (RAG). Os silos de dados dificultam a agregação e a análise de dados com eficiência na IA. E gerenciar o ciclo de vida dos dados de IA, da ingestão ao processamento e ao storage, exige soluções sofisticadas de gerenciamento de dados adequados para a complexidade e o volume de dados não estruturados. Para que a IA seja eficaz, os dados relevantes precisam ser facilmente localizáveis e acessíveis, o que requer ferramentas avançadas de gerenciamento de metadados e exploração de dados.

Serviços de dados inteligentes

Com o aumento da IA, há cada vez mais necessidade de governança e segurança robustas para proteger dados confidenciais e atender a requisitos regulatórios, especialmente diante de ameaças como ransomware. Modelos criados a partir de dados sujos ou com adulteração intencional têm o potencial de causar grandes danos às operações de negócios que dependem cada vez mais da IA. E, assim como qualquer workload empresarial, os dados precisam estar disponíveis e protegidos contra desastres naturais e interrupções dos sistemas para continuar as operações e evitar inatividade dispendiosa.

Como a NetApp dá suporte aos workloads de IA hoje

Hoje, a NetApp é líder reconhecida em infraestrutura de IA. Há mais de uma década, clientes inovadores extraem insights baseados em IA de dados gerenciados em soluções da NetApp . Como uma parceira de longa data da NVIDIA, a NetApp entregou arquiteturas certificadas de NVIDIA DGX SuperPOD e AIPod do NetApp ® e assistiu à rápida adoção dos workflows de IA nas ofertas de nuvem dos hyperscalers. Os clientes confiam na NetApp, um líder em storage não estruturado, com seus ativos de dados mais valiosos.

Como conseguimos alcançar esse nível de confiança? Através da inovação implacável. À medida que os clientes nos confiam seus dados, vemos ainda mais oportunidades para ajudá-los a operacionalizar a IA e os workloads de alto desempenho. É por isso que estamos introduzindo uma nova arquitetura desagregada que permitirá que nossos clientes continuem ultrapassando os limites do desempenho e da escala. Um mecanismo de gerenciamento de metadados aprimorado ajuda os clientes a entender todos os ativos de dados em sua organização para simplificar o treinamento do modelo e o ajuste fino. E um conjunto integrado de serviços de dados ajuda a gerenciar esses dados e a infraestrutura, protegendo-os de ameaças naturais e humanas. Tudo desenvolvido com o NetApp ONTAP ®, a arquitetura de storage unificado líder do setor, para fornecer uma arquitetura unificada que integra toda a sua infraestrutura de dados. O DNA principal da NetApp sempre nos permitiu evoluir e adotar novas tecnologias, mantendo a segurança robusta, os recursos empresariais e a facilidade de uso de que nossos clientes dependem. Estou animado em trazer uma prévia do futuro do ONTAP.

A visão da NetApp para o gerenciamento de dados impulsionar a IA

Nossa visão de um mecanismo unificado de gerenciamento de dados de IA revolucionará a forma como as organizações se aproximam e aproveitam o poder da IA. Nosso mecanismo de gerenciamento de dados foi desenvolvido para eliminar silos de dados com uma visão unificada dos ativos dos dados, automatizando a captura de alterações nos dados para inferência rápida e integração perfeita com ferramentas de IA para workflows de IA completos. A NetApp também está inovando na camada de infraestrutura com sistemas escaláveis e de alto desempenho e na camada de inteligência com governança e segurança baseadas em políticas.

Inovações planejadas

  • Arquitetura de storage desagregada. Para aprimorar a taxa de transferência do sistema e reduzir custos, a NetApp está desenvolvendo uma arquitetura de storage que permite o compartilhamento mais eficiente de back-ends de storage. Esta arquitetura tem como objetivo otimizar a utilização de recursos de rede e flash, permitindo uma abordagem mais flexível e econômica ao storage. Essa inovação facilitará uma melhoria significativa na taxa de transferência agregada no cluster, ao mesmo tempo em que reduzirá o espaço em rack e a utilização de energia. A arquitetura foi projetada para permitir o dimensionamento independente de recursos de computação e storage, o que é particularmente benéfico para workloads de IA que exigem altos níveis de flexibilidade e escalabilidade.
  • Melhorias de desempenho. A NetApp está comprometida em fornecer desempenho líder do setor por meio de suas próximas melhorias nos sistemas da série NetApp AFF e no software ONTAP. Essas melhorias são voltadas para o gerenciamento dos workloads de IA mais intensos com facilidade. Assim, as empresas podem executar suas estratégias de IA sem gargalos de performance. As melhorias incluirão recursos avançados para gerenciar e processar grandes conjuntos de dados, que são essenciais para tarefas como IA generativa e treinamento de LLM.
  • Integração otimizada de dados. O mecanismo de gerenciamento de dados de IA foi desenvolvido para oferecer uma visão abrangente e coesa dos ativos de dados da organização. Essa abordagem unificada é essencial para a integração de dados em configurações locais, ambientes de nuvem e plataformas de hyperscaler. Ao facilitar a integração otimizada dos dados, a NetApp permite que as organizações gerenciem todo o ciclo de vida dos dados da IA com mais eficiência, da coleta inicial de dados à implantação e análise do modelo. Com esse novo mecanismo de gerenciamento de dados de IA, somente a NetApp poderá oferecer aos clientes uma visualização unificada e estruturada, que permite a consulta de todos os ativos de dados do ONTAP. Isso é verdade se os ativos de dados estão estruturados ou não estruturados, onde quer que eles estejam: no local, na nuvem ou no local e em qualquer um de nossos parceiros de hyperscaler, Amazon, Microsoft e Google.
  • Incorporação de vetores e bancos de dados. O mecanismo de gerenciamento de dados de IA capturará automaticamente as alterações nos dados, gerará codificações vetoriais altamente comprimidas e as armazenará em um banco de dados vetorial integrado, tornando esses dados disponíveis para pesquisas e workloads de inferência RAG. Tudo isso é feito automaticamente, em linha e no local para simplicidade e eficiência.
  • Integração do ecossistema de IA. Reconhecendo a importância de um workflow unificado de IA, nos concentramos na integração de nossos serviços de dados com o ecossistema mais amplo de ferramentas de IA. Essa integração otimizará todo o fluxo de trabalho de IA, desde a etiquetagem de dados e o treinamento de modelos até a orquestração e a implantação. Ao criar um fluxo de trabalho otimizado, ajudamos as organizações a reduzir a complexidade dos projetos de IA e acelerar o retorno do investimento.
  • AI responsável. Com a crescente conscientização sobre as implicações éticas da IA, a NetApp está dando grande ênfase às práticas de IA responsáveis. A empresa está desenvolvendo recursos integrados de rastreabilidade de dados e governança que permitirão às organizações implementar soluções de IA que não só sejam eficazes, mas também éticas e transparentes.

Conclusão

Na NetApp, prevemos um futuro no qual os cientistas de dados podem usar a sua ferramenta de AI preferida e ajustar um modelo usando um catálogo de dados que abrange todo o data estate. Eles não precisarão saber onde eles estão armazenados, o catálogo terá esse detalhe. E o catálogo até bloqueará dados que são muito sensíveis para treinamento de modelos. Os dados de treinamento serão capturados no estado com uma cópia NetApp Snapshot™ point-in-time com uso eficiente de espaço para que os cientistas de dados possam sempre voltar e analisar os dados em seu estado original se precisarem entender as decisões de um modelo. E eles poderão fazer tudo isso a partir da nuvem de sua escolha, não importa se os dados de treinamento estão na mesma nuvem, em outra nuvem ou armazenados no local. Enquanto isso, a infraestrutura que atende aos dados fornecerá a escala e o desempenho necessários para saturar totalmente o restante da infraestrutura de IA, aproveitando esses recursos críticos e fornecendo modelos ajustados rapidamente. Este futuro não está longe. A NetApp já construiu grande parte dessa infraestrutura e está se desenvolvendo para a próxima etapa da IA hoje.

Estamos inabaláveis em nossa busca para fazer avançar as capacidades do ONTAP, com o objetivo de atender e superar as demandas de empresas orientadas por IA. Ao criar um ambiente de dados unificado, aprimorar a integração de ferramentas de IA, automatizar o gerenciamento inteligente de dados e priorizar o desempenho e a escalabilidade, reforçamos nossa posição de liderança em storage e gerenciamento de dados para IA. Esses avanços estratégicos foram desenvolvidos para simplificar as complexidades dos projetos de IA, expandir a acessibilidade de dados, aprimorar a disponibilidade e a segurança dos dados e reduzir os custos associados, tornando as tecnologias de IA mais acessíveis a diversas organizações. Para saber mais sobre os próximos desenvolvimentos para o NetApp ONTAP e nosso mecanismo de gerenciamento de dados de IA, leia o documento: ONTAP – um gerenciamento de dados pioneiro na era do deep learning

Disclaimer: Este post discute a visão da NetApp para a inovação futura e pode incluir referências a ofertas não lançadas. A NetApp está compartilhando essas informações apenas para fins informativos, e não se deve usá-las como base para a tomada de decisões de compra. A NetApp não se compromete e não tem nenhuma obrigação de desenvolver ou fornecer quaisquer produtos ou serviços, ou quaisquer recursos, material, código ou funcionalidade relacionados. O desenvolvimento, o lançamento e o cronograma de quaisquer recursos ou funcionalidades dos produtos e serviços da NetApp permanecem a critério exclusivo da NetApp. A estratégia da NetApp e possíveis desenvolvimentos futuros, direções de produto e plataforma e funcionalidade estão todos sujeitos a alterações sem aviso prévio. Nós nos isentamos de qualquer obrigação de atualizar as informações contidas neste post, seja como resultado de novas informações, eventos futuros ou de outra forma. Nenhum sistema de detecção ou recuperação de ransomware pode garantir completamente a segurança de um ataque de ransomware. Embora seja possível que um ataque não seja detectado, a tecnologia da NetApp atua como uma importante camada adicional de defesa. Todas as informações são fornecidas sem qualquer garantia e sem gerar qualquer obrigação para a NetApp.

Krish Vitaldevara

Krish é vice-presidente sênior de Core Platforms da NetApp. A equipe do Core Platforms é responsável pela plataforma unificada de storage, plataforma de gerenciabilidade, Customer Experience Office (CXO) e Chief Design Office (CDO), além de permitir o fornecimento de várias ofertas da NetApp no local, na nuvem híbrida e em serviços de dados. Krish possui MBA pela Santa Clara University e mestrado em engenharia de sistemas de informação pela Arizona State University. Krish é também um inovador e hacker comprovado com mais de 30 patentes principalmente em sistemas distribuídos e modelos de detecção de spam que usam gráficos e redes para a detecção de anomalias.

Ver todas as publicações de Krish Vitaldevara

Próximas etapas

Drift chat loading