Menü

Optimieren Sie Ihre AI-Journey mit dem NetApp DataOps Toolkit

Inhalt

Diese Seite teilen

Max Amende
Max Amende

Damit Unternehmen im AI-Umfeld erfolgreich sind, bedarf es vieler Experimente mit verschiedenen Daten/Modellen/Algorithmen. Die meisten davon werden zu einem frühen Zeitpunkt scheitern, aber eben die erfolgreichen sind es, die die AI-Journey in Unternehmen voranbringen. Obwohl immer mehr MLOps Tools auf dem Markt kommen, fokussieren sich die meisten auf das iterative Training von AI-Modellen und nicht auf das Management der Daten.

Enterprise Storage Plattformen wie NetApp ONTAP stellen viele wertvolle Data Management Funktionen für eine erfolgreiche AI-Journey zur Verfügung. Allerdings stellen solche Plattformen in der Regel Data Scientists und Data Engineers vor Herausforderungen. Einerseits erfordert die Bedienung von Enterprise-Storage-Plattformen spezielles Fachwissen, andererseits sind die AI-Abteilungen oft einer anderen internen Organisation zugeordnet, als die Spezialisten für den Betrieb der Storage Systeme. Außerdem sind vielen AI-Spezialisten die Funktionen von Enterprise Storage Plattformen unbekannt, genauso wie die daraus resultierenden Vorteilen für eine erfolgreiche AI-Journey.

Um eben diese beiden Bereiche zusammenzubringen und die Arbeit zu vereinfachen, haben wir das NetApp DataOps Toolkit entwickelt. Das Toolkit ermöglicht es Data Scientists und Data Engineers auf einfache Weise, von NetApps marktführenden Datenmanagement-Fähigkeiten zu profitieren, ohne dass sie zu Storage-Sepzialisten werden müssen. Das Toolkit ist vollständig Open Source und lässt sich in jeder Python-Umgebung verwenden. Mit nur einer Zeile Python-Code können Volumes in wenigen Sekunden erstellt oder gelöscht werden. In den meisten Umgebungen dauern solche Schritte Stunden oder sogar Tage, da sie von einem Storage-Administrator durchgeführt werden müssen. Das NetApp DataOps Toolkit trägt so dazu bei, Prozesse erheblich effizienter zu gestalten und die Produktivität von Data Scientists und Data Engineers zu steigern.

Ein schnellerer, einfacherer und effizienterer AI-Workflow

Funktionen wie Snapshots und FlexClones haben sich seit Jahrzehnten bei Storage-Experten als wertvolle Werkzeuge für ein effektives Data Management erwiesen. Anstelle einer vollständigen Kopie der Daten merkt sich das Speichersystem lediglich, in welchen Blocks zu welchem Zeitpunkt welche Daten gespeichert wurden. Erst wenn sich die Daten gegenüber dem Original unterscheiden, werden die neuen Daten auf das Speichersystem geschrieben. Dadurch dauern Snapshots und FlexClones nur wenige Sekunden, egal ob es sich um wenige Megabyte oder viele Terrabyte handelt. Außerdem werden Snapshots und FlexClones inkrementell ausgeführt. Das Speichersystem merkt sich also nur die Unterschiede zum vorigen Snapshot/FlexClone.

Training host, Workflow driven: A step in automated workflow. User driven (interactive): Performed by a user working in the UI

Ein Anwendungsfall für Snapshots, der sich als sehr wertvoll für Data Scientists und Data Engineers erwiesen hat, ist das Versionieren von Datensätzen. Wenn Data Scientists länger an einem Projekt arbeiten, ist es wichtig, dass sie in regelmäßigen Abständen die Daten aktualisieren. Andernfalls können Probleme wie Model Drift auftreten, noch bevor das Projekt abgeschlossen wurde. Traditionell lösen Data Scientists dies, indem sie in regelmäßig eine vollständige Kopie der aktuellen Daten erstellen und notieren, welcher Datenstand mit welcher Version des Codes zu welchen Ergebnissen geführt hat. Allerdings erfordert dieser Ansatz viel Zeit und belegt große Speicherkapazitäten.

Mit dem NetApp DataOps Toolkit lässt sich diese Aufgabe mithilfe einer einzigen Zeile Python-Code in wenigen Sekunden erledigen, indem ein Snapshot erstellt wird.

Data Scientist A, Experiment #1. Data Scientist B, Experiment #2. Data Scientist C, Experiment #3. Gold Source

Eine weitere Herausforderung besteht darin, dass Data Scientists und Data Engineers in Teams gleichzeitig mit dem gleichen Datensatz arbeiten müssen. Normalerweise wird für jedes Teammitglied eine Kopie der „Golden-Source“, also des Originaldatensatzes, erstellt, um zu verhindern, dass jemand den Datensatz versehentlich verändert oder löscht. Dies stellt kein Problem dar, wenn der Datensatz nur wenige Gigabyte groß ist. Allerdings sehen wir aufgrund des aktuellen Trends zur Generative AI eine stetige Zunahme der Datensatzgrößen. Bei einem Datensatz im dreistelligen Terrabyte-Bereich ist das Erstellen mehrerer Kopien äußerst ineffizient und zeitaufwendig.

Mit dem NetApp DataOps Toolkit kann diese Aufgabe mit nur einer Zeile Python Code in wenigen Sekunden erledigt werden, in ein FlexClone erstellt wird. Für die Benutzer der Datensatzklone fühlt es sich an, als ob sie mit dem Original arbeiten, ohne jedoch befürchten zu müssen, die „Golden-Source“ versehentlich zu verändern. Gleichzeitig benötigen die Klone anfangs keinen zusätzlichen Speicherplatz, da nur die Unterschiede zum Original gespeichert werden.

Weitere Informationen zum NetApp DataOps Toolkit finden Sie unter: https://github.com/NetApp/netapp-dataops-toolkit

Max Amende

Max Amende ist seit 2020 bei NetApp und arbeitet als Technical Solutions Specialist für AI/ML und Analytics. Durch seine praktischen Erfahrungen im Bereich Data Science und IT-Infrastruktur ist es sein Ziel, die Lösungen und Vorteile der beiden Bereiche zu kombinieren. Er berät Kunden dabei, wie sie ihre AI-Journey erfolgreich und effizient gestalten können.

Alle Beiträge von Max Amende anzeigen

Hilfreiche Links

Drift chat loading