Gestion des données nouvelle génération pour l'IA

employés assis à l'intérieur de la chambre avec bureau et moniteurs

Sommaire

Partager cette page

ONTAP
AI

Krish Vitaldevara

2024-09-24

1,900 vues

Tous les secteurs et applications modernes connaissent une transformation rapide optimisée par les avancées en matière de calcul accéléré, de deep learning et d'intelligence artificielle. La phase suivante de cette transformation nécessite une infrastructure intelligente de données capable de rapprocher l'IA et les ressources de calcul des données d'entreprise.

Les défis de l'intégration des données avec les workflows d'IA

Lorsque je parle à nos clients, leurs défis concernent l'intégration de leurs données et de leurs workflows d'IA d'entreprise. Le cœur du problème consiste à appliquer la technologie d'IA aux données dont ils disposent déjà, que ce soit dans le cloud, sur site ou plus probablement les deux.

Imaginons que vous soyez ingénieur des données. Vous utilisez un grand modèle de langage (LLM) open source que vous entraînez avec les données de votre entreprise afin d'augmenter la valeur des ressources marketing et permettre à l'équipe du service client de fournir des chatbots en contact direct avec les clients. Les données sont réparties entre plusieurs systèmes de stockage, et vous ne savez pas où elles se trouvent. Vous exportez, déplacez et centralisez vos données à des fins d'entraînement avec toutes les pertes de temps et de capacité que cela implique. Vous construisez votre modèle, mais l'historique et le contexte des données que vous avez utilisées sont perdus. Il n'y a donc aucun moyen de remonter à la source de votre modèle. Et toutes ces données sont stockées sur site, mais l'entraînement a lieu dans le cloud où résident vos processeurs graphiques.

Ces défis sont assez courants pour les ingénieurs de données et les data scientists auxquels nous nous adressons. NetApp permet déjà d'en surmonter un grand nombre. Mais avec l'entraînement des modèles plus avancé et un besoin toujours croissant de données pour l'entraînement, les difficultés vont s'amplifier.

Quels sont les besoins de la nouvelle génération de workloads d'IA ?

Comme les workloads nouvelle génération d'entraînement et d'affinage de l'IA prennent forme, les limites de l'infrastructure existante risquent de ralentir l'innovation. Parmi les défis à relever, on peut citer l'infrastructure de données qui permet l'évolutivité et l'optimisation de l'IA, la gestion des données pour indiquer aux workflows d'IA où se trouvent les données et comment les utiliser, ainsi que les services de données associés qui aident les data scientists à protéger les workflows d'IA et à maintenir la propreté de leurs modèles.

Infrastructure de données évolutive

À mesure que les modèles d'IA deviennent plus complexes, leurs exigences de calcul augmentent. Les entreprises ont besoin d'une infrastructure capable d'évoluer et de fournir les hautes performances requises pour les tâches d'IA intensives, telles que l'entraînement et le réglage fin des grands modèles de langage. Parallèlement, l'optimisation de l'utilisation des ressources autres que le stockage, notamment des processeurs graphiques, est essentielle à la rentabilité des opérations d'IA, car les ressources sous-exploitées peuvent entraîner une augmentation des dépenses. L'optimisation de l'utilisation des processeurs graphiques est essentielle pour réaliser des opérations d'IA à moindre coût. Pour y parvenir, il faut un débit de stockage amélioré pour les opérations de lecture et d'écriture. Enfin, les données d'entraînement sont généralement stockées sur site, tandis que les modèles d'IA sont souvent entraînés dans le cloud. Ainsi, les workloads d'IA s'étendent souvent entre les environnements sur site et cloud. Cela signifie que l'infrastructure doit assurer la mobilité et la gestion transparente des données sur ces systèmes.

Gestion universelle des données

Les workloads d'IA nécessitent souvent l'accès à des volumes massifs de données, parfois dispersées dans l'entreprise et dans des systèmes et formats différents. Ce défi devient encore plus complexe lorsque les entreprises utilisent leurs données propriétaires réparties dans leur infrastructure de données pour des cas d'utilisation de réglage fin et de génération augmentée par récupération (RAG). Les silos compliquent l'agrégation et l'analyse efficaces des données pour l'IA. Et la gestion du cycle de vie des données d'IA, de l'ingestion au stockage, en passant par le traitement, nécessite des solutions avancées de gestion des données capables de gérer la complexité et le volume des données non structurées. Pour que l'IA soit efficace, les données pertinentes doivent être facilement détectables et accessibles, ce qui nécessite des outils puissants de gestion des métadonnées et d'exploration des données.

Services de données intelligents

Avec la montée en puissance de l'IA, il est de plus en plus nécessaire d'avoir une sécurité et une gouvernance robustes pour protéger les données sensibles et se conformer aux exigences réglementaires, en particulier face aux menaces telles que les ransomwares. Les modèles construits à partir de données infectées ou intentionnellement falsifiées peuvent causer des dommages délétères aux opérations métier qui reposent de plus en plus sur l'IA. Comme pour tout workload d'entreprise, les données doivent être disponibles et protégées contre les catastrophes naturelles et les pannes du système pour assurer la continuité des opérations et éviter les temps d'indisponibilité coûteux.

Comment NetApp prend-il en charge les workloads d'IA ?

Aujourd'hui, NetApp est un leader reconnu en matière d'infrastructure d'IA. Depuis plus de dix ans, des clients innovants utilisent les informations optimisées par l'IA à partir des données gérées par des solutions NetApp. En tant que partenaire de longue date de NVIDIA, NetApp a fourni des architectures certifiées NVIDIA DGX SuperPOD et NetApp^® AIPod^™ et a constaté une adoption rapide des workflows d'IA sur des offres cloud propriétaires chez les hyperscalers. En tant que leader du stockage des données non structurées, les clients font confiance à NetApp pour leurs ressources de données les plus précieuses.

Comment sommes-nous parvenus à ce niveau de confiance ? En innovant sans relâche. Alors que les clients nous confient leurs données, nous constatons encore plus d'opportunités pour les aider à implémenter l'IA et les workloads haute performance. C'est pourquoi nous lançons une nouvelle architecture désagrégée qui permettra à nos clients de repousser les limites de la performance et de l'évolutivité. Un moteur amélioré de gestion des métadonnées les aide à comprendre toutes les données de leur entreprise afin de simplifier l'entraînement et les réglage fin des modèles. Un ensemble intégré de services de données permet de gérer ces données et cette infrastructure, et de les protéger des menaces d'origine naturelle ou humaine. Tout cela repose sur NetApp ONTAP^®, l'architecture de stockage unifiée de référence, et intègre l'ensemble de votre infrastructure de données. L'ADN de NetApp nous a toujours permis d'évoluer et d'adopter de nouvelles technologies tout en maintenant la sécurité, les fonctionnalités d'entreprise et la facilité d'utilisation sur lesquelles nos clients comptent. Je suis ravi de vous donner un aperçu d'ONTAP.

Notre vision de la gestion des données pour doper l'IA

Notre vision d'un moteur de gestion des données IA unifié va révolutionner l'approche et l'exploitation de la puissance de l'IA. Notre moteur de gestion des données sera conçu pour éliminer les silos de données en offrant une vue unifiée des ressources de données, en automatisant la capture des modifications des données pour une inférence rapide et en intégrant étroitement les outils d'IA pour les workflows d'IA de bout en bout. NetApp innove au niveau de la couche d'infrastructure avec des systèmes évolutifs hautes performances, ainsi qu'au niveau de la couche d'intelligence, une gouvernance et une sécurité basées sur des règles.

Des innovations planifiées

Architecture de stockage désagrégée. Pour améliorer le débit du système et réduire les coûts, NetApp développe une architecture de stockage qui permet un partage plus efficace des systèmes back-end de stockage. Cette architecture a pour objectif d'optimiser l'utilisation des ressources réseau et Flash, offrant ainsi une approche du stockage plus flexible et plus économique. Cette innovation facilite une amélioration significative du débit global sur le cluster, tout en réduisant l'espace rack et la consommation d'énergie. L'architecture est conçue pour faire évoluer les ressources de calcul et de stockage de manière indépendante, ce qui est particulièrement avantageux pour les charges de travail d'IA qui exigent des niveaux élevés de flexibilité et d'évolutivité.
Améliorations des performances. NetApp s'engage à fournir des performances de pointe grâce aux prochaines améliorations apportées aux systèmes de la gamme NetApp AFF et au logiciel ONTAP. Ces améliorations visent à gérer facilement les workloads d'IA les plus exigeants afin que les entreprises puissent exécuter leurs stratégies d'IA sans goulots d'étranglement au niveau des performances. Les améliorations incluront des fonctionnalités avancées pour la gestion et le traitement de grands ensembles de données, essentielles pour des tâches telles que l'IA générative et l'entraînement LLM.
Intégration transparente des données. Le moteur de gestion des données d'IA est conçu pour offrir une vue cohérente et complète des données de l'entreprise. Cette approche unifiée est essentielle pour l'intégration des données entre les paramètres sur site, les environnements cloud et les plateformes d'hyperscaler. En facilitant l'intégration transparente des données, NetApp permet aux entreprises de gérer plus efficacement l'ensemble du cycle de vie des données d'IA, de la collecte initiale des données au déploiement et à l'analyse des modèles. Avec ce nouveau moteur de gestion des données d'IA, seul NetApp sera en mesure d'offrir aux clients une vue unifiée, structurée et interrodable de l'ensemble de leurs données ONTAP. C'est vrai que les données sont structurées ou non, où qu'elles se trouvent : sur site, dans le cloud ou sur site et dans l'un de nos partenaires hyperscalers, Amazon , Microsoft et Google.
Intégration de vecteurs et bases de données. Le moteur de gestion des données d'IA capture automatiquement les modifications apportées à vos données, génère des codes vectoriels hautement compressés et les stocke dans une base de données vectorielle intégrée. Ces données sont ainsi disponibles pour les recherches et les workloads d'inférence RAG. Toutes ces tâches sont réalisées automatiquement, à la volée, pour plus de simplicité et d'efficacité.
Intégration avec l'écosystème d'IA. Conscients de l'importance d'un workflow d'IA unifié, nous nous concentrons sur l'intégration de nos services de données avec un écosystème d'outils d'IA plus vaste. Cette intégration rationalise l'intégralité du workflow d'IA, de l'étiquetage des données à l'entraînement des modèles, en passant par l'orchestration et le déploiement. En créant un workflow transparent, nous aidons les entreprises à réduire la complexité de leurs projets d'IA et à accélérer le retour sur investissement.
Une IA responsable. Conscient des implications éthiques de l'IA, NetApp met fortement l'accent sur des pratiques responsables en matière d'IA. L'entreprise développe des fonctionnalités de gouvernance et de traçabilité des données basées sur des modèles intégrés qui permettront aux entreprises d'implémenter des solutions d'IA non seulement efficaces, mais aussi éthiques et transparentes.

Conclusion

Chez NetApp, nous prévoyons un avenir dans lequel les data scientists pourront utiliser l'outil d'IA de leur choix et affiner un modèle en utilisant un catalogue de données qui couvre l'intégralité de leur patrimoine. Ils n'auront pas besoin de savoir où elles sont stockées : le catalogue aura ces détails. Le catalogue bloquera même les données trop sensibles pour l'entraînement des modèles. Les données d'entraînement seront capturées à l'aide d'une copie Snapshot™ NetApp compacte et instantanée, de sorte que les data scientists pourront toujours revenir en arrière et analyser les données à leur état d'origine s'ils ont besoin de comprendre les décisions d'un modèle. Ils pourront réaliser toutes ces tâches à partir du cloud de leur choix, que les données d'entraînement se trouvent dans le même cloud, dans un autre ou sur site. Parallèlement, l'infrastructure servant aux données offrira l'évolutivité et les performances nécessaires pour optimiser complètement le reste de l'infrastructure d'IA, en faisant le meilleur usage possible de ces ressources stratégiques et en fournissant rapidement des modèles précis. Cet avenir n’est ni utopique ni lointain. NetApp a déjà mis en place une grande partie de cette infrastructure et prépare dès aujourd'hui la prochaine étape de l'IA.

Nous poursuivons sans relâche nos efforts pour améliorer les fonctionnalités d'ONTAP, dans le but de répondre et de dépasser les exigences des entreprises basées sur l'IA. Nous renforçons notre position de leader en matière de stockage et de gestion de données pour l'IA en créant un environnement de données unifié, en améliorant l'intégration des outils d'IA, en automatisant la gestion intelligente des données et en donnant la priorité aux performances et à l'évolutivité. Ces avancées stratégiques visent à simplifier la complexité des projets d'IA, à accroître l'accessibilité des données, à améliorer la disponibilité et la sécurité des données, ainsi qu'à réduire les coûts associés, rendant les technologies d'IA plus accessibles. Pour en savoir plus sur les développements à venir de NetApp ONTAP et de notre moteur de gestion des données d'IA, lisez le livre blanc ONTAP, une solution révolutionnaire de gestion des données à l'ère du deep learning

Avis de non-responsabilité : cet article de blog aborde la vision de NetApp en matières d'innovations futures (certaines peuvent concerner des offres encore non commercialisées). NetApp partage ces informations à des fins d'information uniquement. Ces informations ne doivent pas être utilisées pour prendre des décisions d'achat. NetApp ne s'engage pas et n'a aucune obligation de développer ou de fournir des produits ou services, ou toute fonctionnalité, matériel, code ou fonctionnalité connexe. Le développement, la publication et le calendrier de toute fonctionnalité des produits et services NetApp restent à la seule discrétion de NetApp. La stratégie de NetApp et ses éventuels développements futurs, l'orientation des produits et des plateformes, ainsi que les fonctionnalités sont susceptibles d'être modifiés sans préavis. Nous déclinons toute obligation de mettre à jour les informations contenues dans ce blog, que ce soit à la suite de nouvelles informations, d'événements futurs ou autre. Aucun système de détection de ransomware ou de restauration ne peut garantir une sécurité totale en cas d'attaque. Bien qu'une attaque puisse ne pas être détectée, la technologie NetApp constitue un niveau de sécurité supplémentaire important. Toutes les informations sont fournies sans aucune garantie et sans engager la responsabilité de NetApp.

Krish Vitaldevara

Krish Vitaldevara est vice-président pour les plateformes de base chez NetApp. L'équipe Core Platforms est responsable de la plateforme de stockage unifié, de la plateforme de gestion, du Customer Experience Office (CXO) et du Chief Design Office (CDO). Elle permet également de proposer diverses offres NetApp pour les environnements sur site, dans le cloud hybride et dans les services de données. Krish Vitaldevara est titulaire d'un MBA de l'Université de Santa Clara et d'une maîtrise en ingénierie des systèmes d'information de l'Université d'État de l'Arizona. Il est également un innovateur et un hacker avéré avec plus de 30 brevets principalement dans les systèmes distribués, les modèles de détection de spam, et l'utilisation de graphes et de réseaux pour la détection d'anomalies.

Afficher tous les posts par Krish Vitaldevara

Pour aller plus loin…

Blogs

Découvrez les dernières tendances et développements dans le cloud, sur site ou dans les environnements hybrides. La réalité va dépasser vos attentes.

Lire

Communauté

Explorez un large éventail de forums ouverts sur lesquels vous pouvez poser des questions, partager des réponses et vous familiariser avec l'ensemble des technologies NetApp qui vous intéressent le plus.

Participer à la discussion