Dank der Fortschritte durch beschleunigtes Computing, Deep Learning und künstliche Intelligenz durchlaufen alle Branchen und moderne Applikationen eine schnelle Transformation. Die nächste Phase dieser Transformation erfordert eine intelligente Dateninfrastruktur, die KI und Computing näher an Unternehmensdaten bringen kann.
Wenn ich mit unseren Kunden spreche, umfassen die genannten Herausforderungen die Integration von Daten und KI-Workflows. Der Kern ihres Problems besteht darin, KI-Technologie auf die bereits vorhandenen Daten anzuwenden – in der Cloud, On-Premises oder wahrscheinlicher beides.
Stellen Sie sich vor, Sie sind Data Engineer. Sie nutzen ein Open-Source-LLM (Large Language Model), um Ihre Unternehmensdaten zu trainieren, sodass das Marketingteam bessere Ressourcen aufbauen kann. Das Kundenservice-Team kann Chatbots für Kunden bereitstellen. Die Daten sind über Ihre verschiedenen Storage-Systeme verteilt, ohne dass Sie wissen, wo sie sich befinden. Dabei exportieren und verschieben und zentralisieren Sie Ihre Daten zu Trainingszwecken und verursachen dabei alle damit verbundenen Zeit- und Kapazitätsineffizienzen. Sie bauen Ihr Modell, aber der Verlauf und der Kontext der von Ihnen verwendeten Daten gehen verloren, so dass es keine Möglichkeit gibt, Ihr Modell zurück zur Quelle zu verfolgen. All diese Daten werden lokal gespeichert, aber das Training findet in der Cloud statt, wo Ihre GPUs gespeichert sind.
Diese Herausforderungen sind für die Data Engineers und Data Scientists, mit denen wir zu tun haben, recht verbreitet. Viele dieser Herausforderungen lassen sich bereits von NetApp bewältigen. Mit zunehmender Komplexität beim Modelltraining und immer mehr Trainingsdaten werden diese Probleme jedoch noch größer.
Next-Generation-KI-Training und Fine-Tuning von Workloads nimmt Gestalt an, und die Grenzen der vorhandenen Infrastruktur laufen Gefahr, die Innovation zu verlangsamen. Zu den Herausforderungen zählen eine Dateninfrastruktur, mit der Skalierung und Optimierung für KI möglich sind; ein Datenmanagement, um KI-Workflows darüber zu informieren, wo Daten gespeichert sind und wie sie verwendet werden können; und zugehörige Datenservices, mit denen Data Scientists KI-Workflows schützen und ihre Modelle sauber halten können.
Skalierbare Dateninfrastruktur
Mit der zunehmenden Komplexität von KI-Modellen steigen auch die Computing-Anforderungen. Unternehmen benötigen eine Infrastruktur, die skalierbar ist und die eine hohe Performance bietet, z. B. für intensive KI-Aufgaben, wie Training und Fine-Tuning großer Sprachmodelle. Gleichzeitig ist eine Optimierung der nicht-Storage-Ressourcenauslastung – beispielsweise die Maximierung der GPU-Auslastung – von entscheidender Bedeutung für kostengünstige KI-Abläufe, da nicht ausgelastete Ressourcen zu höheren Ausgaben führen können. Die GPU-Nutzung zu maximieren ist für einen kostengünstigen KI-Betrieb entscheidend. Um dies zu erreichen, ist ein verbesserter Storage-Durchsatz für Lese- und Schreibvorgänge erforderlich. Trainingsdaten werden in der Regel lokal gespeichert, während KI-Modelle häufig in der Cloud trainiert werden. KI-Workloads werden daher oft über On-Premises- und verschiedene Cloud-Umgebungen hinweg verteilt. Das bedeutet, dass die Infrastruktur eine nahtlose Datenmobilität und problemloses Management über diese Systeme hinweg gewährleisten muss.
Universelles Datenmanagement
KI-Workloads erfordern oft den Zugriff auf riesige Datenmengen, die über das gesamte Unternehmen in unterschiedlichen Systemen und Formaten verteilt werden können. Diese Herausforderung wird immer größer, da Unternehmen ihre proprietären Daten, die über ihre Dateninfrastruktur verteilt sind, für Anwendungsfälle wie Fine-Tuning und Retrieval-Augmented Generation (RAG) nutzen. Datensilos erschweren die effektive Aggregation und Analyse von Daten für KI. Für die Verwaltung des Lebenszyklus von KI-Daten – von der Aufnahme über die Verarbeitung bis hin zum Storage – sind ausgereifte Datenmanagementlösungen erforderlich, die die Komplexität und Menge unstrukturierter Daten bewältigen. Damit KI effektiv eingesetzt werden kann, müssen die relevanten Daten einfach auffindbar und zugänglich sein. Hierfür sind leistungsstarke Tools für das Meta-Datenmanagement und die Datenexploration erforderlich.
Intelligente Datenservices
Mit dem Aufstieg von KI besteht ein zunehmender Bedarf an robuster Sicherheit und Governance für den Schutz sensibler Daten und die Einhaltung gesetzlicher Anforderungen, insbesondere angesichts von Bedrohungen wie Ransomware. Modelle, die aus „vergifteten“ Daten oder vorsätzlicher Manipulation erstellt wurden, können den Geschäftsabläufen, die sich zunehmend auf KI verlassen, große Schäden anrichten. Wie bei allen Enterprise-Workloads müssen Daten vor Naturkatastrophen und Systemausfällen geschützt sein, um den Betrieb fortsetzen zu können und kostspielige Ausfallzeiten zu verhindern.
Heute gilt NetApp als führender Anbieter von KI-Infrastrukturen. Seit über zehn Jahren gewinnen innovative Kunden KI-gestützte Erkenntnisse aus Daten, die auf NetApp Lösungen gemanagt werden. Als langjähriger Partner von NVIDIA hat NetApp zertifizierte NVIDIA DGX SuperPOD und NetApp AIPod™ Architekturen bereitgestellt und eine schnelle Einführung von KI-Workflows bei den First-Party-Cloud-Angeboten der Hyperscaler beobachtet. Als einer der führenden Anbieter von Storage-Lösungen für unstrukturierte Daten vertrauen Kunden NetApp ihre wertvollsten Datenbestände.
Wie haben wir dieses Maß an Vertrauen erreicht? Durch kompromisslose Innovation. Wenn Kunden uns ihre Daten anvertrauen, sehen wir noch mehr Chancen, um sie bei der Operationalisierung von KI- und High-Performance-Workloads zu unterstützen. Aus diesem Grund führen wir eine neue, disaggregierte Architektur ein, mit der unsere Kunden auch weiterhin die Grenzen von Performance und Skalierung neu verschieben können. Eine verbesserte Metadaten-Management-Engine hilft Kunden, alle Daten-Assets ihres Unternehmens zu verstehen, sodass das Modelltraining und Fine-Tuning vereinfacht werden können. Zudem helfen integrierte Datenservices dabei, Daten und Infrastruktur zu managen, um sie vor natürlichen und menschlichen Bedrohungen zu schützen. All dies basiert auf der führenden Unified Storage-Architektur von NetApp ONTAP und bietet eine Unified Architecture, die Ihre gesamte Dateninfrastruktur integriert. Dank der zentralen Leitlinie von NetApp konnten wir stets neue Technologien weiterentwickeln und einführen und gleichzeitig die robuste Sicherheit, Enterprise-Funktionen und Benutzerfreundlichkeit erhalten, der unsere Kunden vertrauen. Ich freue mich, Ihnen eine Vorschau darauf geben zu können, was Sie von ONTAP zukünftig erwarten können.
Unsere Vision einer einheitlichen KI-Datenmanagement-Engine wird den KI-Ansatz von Unternehmen und wie sie ihr Potenzial ausschöpfen revolutionieren. Unsere Datenmanagement-Engine wird Datensilos beseitigen, indem sie eine einheitliche Übersicht der Daten-Assets bietet, die Erfassung von Datenänderungen für schnelle Inferenz automatisiert und enge Integration in KI-Tools für End-to-End-KI-Workflows ermöglicht. Darüber hinaus führt NetApp Innovationen auf Infrastrukturebene mit skalierbaren, hochperformanten Systemen und auf der Intelligence-Ebene mit richtlinienbasierten Governance- und Sicherheitsfunktionen ein.
Geplante Innovationen
Wir bei NetApp sehen eine Zukunft vorher, in der Data Scientists sich ihr bevorzugtes KI-Tool aussuchen können und ein Modell mithilfe eines Datenkatalogs fine-tunen können, der den gesamten Datenbestand umfasst. Sie müssen nicht wissen, wo die Daten gespeichert sind – der Katalog wird über diese Details verfügen. Der Katalog blockiert sogar Daten, die für das Modelltraining zu sensibel sind. Die Trainingsdaten werden mit einer platzsparenden, zeitpunktgenauen NetApp Snapshot™ Kopie erfasst, damit die Data Scientists jederzeit zurückwechseln und die Daten im Originalzustand analysieren können, wenn sie die Entscheidungen eines Modells verstehen müssen. Sie können all das mit der Cloud ihrer Wahl erledigen, unabhängig davon, ob sich die Trainingsdaten in derselben oder in einer anderen Cloud befinden oder lokal gespeichert sind. Gleichzeitig bietet die Dateninfrastruktur, die die Daten bereitstellt, die nötige Skalierbarkeit und Performance, um den Rest der KI-Infrastruktur vollständig zu sättigen, damit diese kritischen Ressourcen optimal genutzt werden können und fein abgestimmte Modelle schnell zur Verfügung stehen. Diese Zukunft ist nicht weit hergeholt oder fern. NetApp hat bereits einen Großteil dieser Infrastruktur geschaffen und baut heute an der nächsten Phase der KI weiter.
Wir streben nach Weiterentwicklung der Möglichkeiten von ONTAP, mit dem Ziel, die Anforderungen von KI-gestützten Unternehmen zu erfüllen und zu übertreffen. Durch die Schaffung einer einheitlichen Datenumgebung, die Verbesserung der KI-Tool-Integration, die Automatisierung des intelligenten Datenmanagements sowie die Priorisierung von Performance und Skalierbarkeit stärken wir unsere Führungsposition bei Storage und Management für KI. Diese strategischen Neuerungen wurden entwickelt, um die Komplexität von KI-Projekten zu vereinfachen, die Datenverfügbarkeit zu erweitern, die Datenverfügbarkeit und -Sicherheit zu verbessern und die damit verbundenen Kosten zu senken. Dadurch werden KI-Technologien für unterschiedlichste Unternehmen leichter zugänglich. Weitere Informationen zu den kommenden Entwicklungen bei NetApp ONTAP und unserer KI-Datenmanagement-Engine finden Sie im Whitepaper ONTAP - zukunftsweisendes Datenmanagement im Zeitalter von Deep Learning.
Haftungsausschluss: Dieser Blogbeitrag beschreibt die Vision von NetApp für zukünftige Innovationen. Einige davon betreffen möglicherweise unveröffentlichte Angebote. NetApp gibt diese Informationen ausschließlich zu Informationszwecken weiter. Diese Informationen sind daher nicht als Grundlage für Kaufentscheidungen gedacht. NetApp übernimmt keine Verpflichtung und ist nicht verpflichtet, Produkte oder Services oder damit verbundene Funktionen, Materialien, Codes oder Funktionen zu entwickeln oder bereitzustellen. Entwicklung, Release und Timing aller Features oder Funktionen für NetApp Produkte und Services liegen im alleinigen Ermessen von NetApp. Die Strategie von NetApp und mögliche zukünftige Entwicklungen, Produkt- und Plattformausrichtungen sowie Funktionalitäten können ohne Ankündigung Änderungen unterliegen. Wir sind nicht verpflichtet, die in diesem Blog-Beitrag enthaltenen Informationen zu aktualisieren, sei es aufgrund neuer Informationen, zukünftiger Ereignisse oder aus anderen Gründen. Ransomware-Erkennung und Recovery-Systeme können keine vollkommene Sicherheit nach einem Ransomware-Angriff gewährleisten. Ein Angriff bleibt möglicherweise unentdeckt, aber die NetApp Technologie fungiert als wichtige zusätzliche Verteidigungsebene. Alle Informationen werden ohne Gewährleistung und ohne Haftung seitens NetApp zur Verfügung gestellt.
Krish ist Senior Vice President for Core Platforms bei NetApp. Das Core Platforms Team ist für die Unified Storage-Plattform, die Manageability-Plattform, Customer Experience Office (CXO) und Chief Design Office (CDO) verantwortlich und ermöglicht die Bereitstellung verschiedener NetApp Angebote über On-Premises, Hybrid Cloud und Datenservices hinweg. Krish erwarb einen MBA an der Santa Clara University sowie einen Master-Abschluss in Information Systems Engineering an der Arizona State University. Krish ist außerdem ein bewährter Innovator und Hacker mit mehr als 30 Patenten, hauptsächlich in verteilten Systemen und Spam-Erkennungsmodellen, die Graphen und Netzwerke zur Erkennung von Anomalien verwenden.