AI向けの次世代データ管理| NetAppブログ

このページを共有

ONTAP
AI

Krish Vitaldevara

2024-09-24

1,900 人が閲覧

アクセラレーションコンピューティング、ディープラーニング、人工知能の進歩によって、あらゆる業界と最新のアプリケーションが急速な変革を遂げています。この変革の次のフェーズでは、AIとコンピューティングをエンタープライズデータの近くに配置できるインテリジェントなデータインフラが必要です。

データをAIワークフローに統合する際の課題

私がお客様と話すとき、お客様が直面する課題は、データとエンタープライズAIワークフローの統合です。同社の問題の核心は、クラウド、オンプレミス、またはその両方に存在する可能性が高いデータにAIテクノロジを適用することです。

あなたがデータエンジニアであるとします。オープンソースのLLM（Large Language Model）を活用して企業データをトレーニングし、マーケティングチームがより優れた資産を構築し、カスタマーサービスチームが顧客向けチャットボットを提供できるようにします。データはさまざまなストレージシステムに分散しているため、どこに何があるのかわかりません。トレーニング目的のためにデータのエクスポート、移動、集中管理を行う際には、関連する時間と容量の非効率性が伴います。モデルを構築しても、使用したデータの履歴とコンテキストが失われるため、モデルをソースに戻す方法はありません。これらのデータはすべてオンプレミスに保存されますが、トレーニングはGPUが配置されているクラウドで行われます。

これらの課題は、NetAppが担当するデータエンジニアやデータサイエンティストにはよくあることです。NetAppはこれらの課題の多くにすでに対応しています。しかし、モデルのトレーニングが高度になり、トレーニングに必要なデータが増えるにつれて、これらの問題は拡大していきます。

次世代のAIワークロードには何が必要か？

次世代のAIトレーニングとワークロードの微調整が形作られる中、既存のインフラに限界があるとイノベーションが遅れるリスクがあります。課題には、AIの拡張と最適化を可能にするデータインフラ、データの保存場所と使用方法をAIワークフローに通知するデータ管理、データサイエンティストがAIワークフローを保護し、モデルをクリーンに保つのに役立つ関連データサービスなどがあります。

拡張性に優れたデータインフラ

AIモデルが複雑になるにつれて、コンピューティング要件も増大していきます。企業には、大規模な言語モデルのトレーニングや微調整など、集中的なAIタスクに必要な拡張性と高いパフォーマンスを提供できるインフラが必要です。同時に、リソースの使用率が低いとコストが増加する可能性があるため、対費用効果の高いAI運用には、ストレージ以外のリソース使用率の最適化（GPU使用率の最大化など）が不可欠です。GPU利用率を最大限に高めることは、対費用効果の高いAI処理には欠かせません。GPU利用率を最大限に高めるには、読み取り処理と書き込み処理の両方でストレージスループットを向上させる必要があります。最後に、トレーニングデータは通常オンプレミスに格納されますが、AIモデルはクラウドでトレーニングされることが多いため、AIワークロードはオンプレミスとさまざまなクラウド環境にまたがることがよくあります。つまり、これらのシステム間でシームレスなデータ移動と管理を実現できるインフラが必要です。

汎用性に優れたデータ管理

AIワークロードでは、多くの場合、膨大な量のデータへのアクセスが必要になりますが、データは企業内にさまざまなシステムや形式で分散している可能性があります。この課題は、企業がデータインフラ全体に分散した独自のデータを使用して、微調整と検索拡張生成（RAG）のユースケースを実現するにつれて、さらに深刻になります。データがサイロ化すると、AIのためにデータを効果的に集約して分析することが困難になります。また、AIデータの取り込みから処理、ストレージまでのライフサイクルを管理するには、非構造化データの複雑さと量を管理できる高度なデータ管理ソリューションが必要です。AIを効果的に活用するには、関連するデータを簡単に検出してアクセスできる必要があります。そのためには、強力なメタデータ管理ツールとデータ探索ツールが必要です。

インテリジェントなデータサービス

AIの普及に伴い、特にランサムウェアのような脅威に直面した場合、機密データを保護し、規制要件に準拠するための堅牢なセキュリティとガバナンスに対するニーズが高まっています。汚染されたデータや意図的な改ざんから構築されたモデルは、AIへの依存度が高まる業務に大きな損害を与える可能性があります。また、他のエンタープライズワークロードと同様に、運用を継続し、コストのかかるダウンタイムを回避するには、データの可用性を確保し、自然災害やシステム停止からデータを保護する必要があります。

NetAppが現在のAIワークロードをサポートする仕組み

現在、NetAppはAIインフラのリーダーとして認知されています。10年以上にわたり、NetAppソリューションで管理されるデータからAIを活用した分析情報を引き出してきた革新的なお客様がいます。NVIDIAとの長年のパートナーであるNetAppは、認定済みのNVIDIA DGX SuperPODおよびNetApp^®AIPod^™アーキテクチャを提供し、ハイパースケーラのファーストパーティクラウド製品にAIワークフローを迅速に採用しています。非構造化データストレージのリーダーとして、お客様は最も価値のあるデータ資産に関してNetAppを信頼しています。

どのようにしてこのレベルの信頼を獲得したのでしょうか？これは絶え間ないイノベーションによるものです。お客様がデータを私たちに任せるようになると、AIやハイパフォーマンスワークロードの運用を支援する機会がさらに増えることになります。そこでNetAppは、お客様がパフォーマンスと拡張性の限界を押し広げることを可能にする、新しい分離型アーキテクチャを導入します。強化されたメタデータ管理エンジンにより、組織内のすべてのデータ資産を把握できるため、モデルのトレーニングと微調整を簡易化できます。また、統合された一連のデータサービスにより、データとインフラを管理し、自然な脅威や人間による脅威から保護できます。業界をリードするユニファイドストレージアーキテクチャであるNetApp ONTAP^®を基盤とし、すべてのデータインフラを統合するユニファイドアーキテクチャを提供します。NetAppの核となるDNAは、お客様が信頼する堅牢なセキュリティ、エンタープライズ機能、使いやすさを維持しながら、常に新しいテクノロジを進化させ、採用することを可能にしてきました。ONTAPの最新情報をご紹介できることを楽しみにしています。

AIを推進するためのデータ管理に関するNetAppのビジョン

AIの統合データ管理エンジンというNetAppのビジョンは、企業によるAIのアプローチと活用方法に革命をもたらします。NetAppのデータ管理エンジンは、データ資産の統合ビューの提供、データの変更点のキャプチャの自動化による迅速な推論、AIツールとの緊密な統合によるエンドツーエンドのAIワークフローによって、データのサイロ化を解消するように設計されています。NetAppは、拡張性に優れたハイパフォーマンスシステムを備えたインフラレイヤと、ポリシーベースのガバナンスとセキュリティを備えたインテリジェンスレイヤでも革新を進めています。

計画されたイノベーション

分離型ストレージアーキテクチャ：NetAppでは、システムスループットの向上とコスト削減のために、ストレージバックエンドの効率的な共有を可能にするストレージアーキテクチャを開発しています。このアーキテクチャは、ネットワークリソースとフラッシュリソースの利用率を最適化することを目的としており、より柔軟で対費用効果の高いストレージアプローチを可能にします。このイノベーションにより、クラスタ全体の総スループットが大幅に向上し、同時にラックスペースと消費電力が削減されます。このアーキテクチャは、コンピューティングリソースとストレージリソースを個別に拡張できるように設計されているため、高度な柔軟性と拡張性が必要なAIワークロードに特に適しています。
パフォーマンスの強化：NetAppは、今後予定されているNetApp AFFシリーズシステムとONTAPソフトウェアの機能強化を通じて、業界をリードするパフォーマンスの提供に取り組んでいます。これらの機能強化は、最も負荷の高いAIワークロードを簡単に管理できるように調整されているため、企業はパフォーマンスのボトルネックを発生させることなくAI戦略を実行できます。強化された機能には、生成AIやLLMトレーニングなどのタスクに不可欠な大規模データセットの管理と処理のための高度な機能が含まれます。
シームレスなデータ統合：AIデータ管理エンジンは、組織のデータ資産をまとめて包括的に把握できるように設計されています。この統合されたアプローチは、オンプレミス設定、クラウド環境、ハイパースケーラプラットフォームにわたるデータの統合に欠かせません。NetAppはシームレスなデータ統合を促進することで、初期データの収集からモデルの導入と分析に至るまで、AIデータのライフサイクル全体をより効果的に管理できるようにします。この新しいAIデータ管理エンジンでは、すべてのONTAPデータ資産の統合された構造化されたクエリ可能なビューをお客様に提供できるのはNetAppだけです。オンプレミス、クラウド、オンプレミス、ハイパースケーラパートナーであるAmazon、Microsoft、 Googleなど、データ資産の場所がどこであっても、データ資産が構造化されているか非構造化されているかにかかわらず、これは事実です。
ベクター埋め込みとデータベース。AIデータ管理エンジンは、データへの変更を自動的に取得し、高度に圧縮されたベクトル埋め込みを生成して、統合されたベクトルデータベースに格納することで、そのデータを検索やRAG推論ワークロードに利用できるようにします。これらすべての処理は、簡易性と効率性を高めるために、インラインで自動的に実行されます。
AIエコシステムの統合：ユニファイドAIワークフローの重要性を認識し、データサービスと幅広いAIツールエコシステムの統合に注力しています。この統合により、データのラベル付けやモデルのトレーニングからオーケストレーションと導入まで、AIワークフロー全体が合理化されます。シームレスなワークフローを作成することで、企業がAIプロジェクトの複雑さを軽減し、価値実現までの時間を短縮できるよう支援しています。
AIの責任、AIの倫理的影響に対する意識が高まる中、NetAppは責任あるAIの実践に重点を置いています。同社は、効果的であるだけでなく倫理的で透明性の高いAIソリューションの実装を可能にする統合モデルデータトレーサビリティとガバナンス機能を開発しています。

まとめ

NetAppでは、データサイエンティストが自社のAIツールを選択し、データ資産全体を網羅するデータカタログを使用してモデルを微調整できる未来が予測されています。保存場所を知る必要はありません。カタログにはその詳細が表示されます。また、モデルのトレーニングには機密性の高いデータもカタログでブロックされます。トレーニングデータは、スペース効率に優れたポイントインタイムNetApp Snapshot™コピーを使用してその状態でキャプチャされるため、データサイエンティストはいつでも元の状態に戻り、モデルの決定を理解する必要がある場合にデータを分析できます。また、トレーニングデータが同じクラウドにあるか、別のクラウドにあるか、オンプレミスに保存されているかに関係なく、これらすべてを任意のクラウドから実行できます。一方、データを提供するインフラは、AIインフラの残りの部分を完全に飽和状態にするために必要な拡張性とパフォーマンスを提供し、これらの重要なリソースを最大限に活用して、微調整されたモデルを迅速に提供します。この未来は遠いものでも遠くないものでもありません。NetAppはこのインフラの多くをすでに構築しており、現在AIの次のステージに向けて構築しています。

私たちは、AIを活用した企業の要求を満たし、それを上回ることを目指して、ONTAPの機能を進化させようと、揺るぎない努力を続けています。NetAppは、統合データ環境の構築、AIツールの統合の強化、インテリジェントなデータ管理の自動化、パフォーマンスと拡張性の優先順位付けを通じて、AI向けデータストレージとデータ管理におけるリーダーシップを強化しています。これらの戦略的な進歩は、AIプロジェクトの複雑さの軽減、データへのアクセス性の向上、データの可用性とセキュリティの向上、関連コストの削減を目的としています。これにより、さまざまな組織がAIテクノロジを利用しやすくすることができます。NetApp ONTAPとNetAppのAIデータ管理エンジンの今後の開発の詳細については、ホワイトペーパー『ONTAP–ディープラーニング時代の先駆的なデータ管理』をご覧ください。

免責事項：このブログ記事では、将来のイノベーションに関するNetAppのビジョンについて説明します。その一部は未リリースの製品に関連する可能性があります。NetAppは、情報提供のみを目的としてこの情報を共有しています。この情報を購入の判断材料として使用しないでください。NetAppは、製品またはサービス、または関連する機能、資料、コード、または機能を開発または提供する義務を負いません。NetAppの製品およびサービスの機能の開発、リリース、およびタイミングは、NetAppの独自の裁量に委ねられます。NetAppの戦略および将来の開発、製品およびプラットフォームの方向性、および機能は、すべて予告なく変更される場合があります。私たちは、新しい情報、将来のイベントなどの結果として、このブログ投稿に含まれる情報を更新する義務を負いません。ランサムウェアの検出やリカバリのシステムは、ランサムウェア攻撃からの安全性を完全に保証できません。攻撃が検出されない可能性はありますが、NetAppテクノロジは重要な追加防御レイヤとして機能します。すべての情報はいかなる保証もなく提供され、NetAppが責任を負うこともありません。

Krish Vitaldevara

Krishは、NetAppのコアプラットフォーム担当シニアバイスプレジデントを務めています。コアプラットフォームチームは、ユニファイドストレージプラットフォーム、管理プラットフォーム、カスタマーエクスペリエンスオフィス（CXO）、チーフデザインオフィス（CDO）を担当し、オンプレミス、ハイブリッドクラウド、データサービスにわたってさまざまなNetAppソリューションの提供を可能にします。サンタクララ大学でMBAを、アリゾナ州立大学で情報システム工学の修士号を取得しています。Krishはまた、分散システム、スパム検出モデル、異常検出のためのグラフとネットワークを使用した30以上の特許を持つ、実績のあるイノベーターおよびハッカーでもあります。

Krish Vitaldevaraの投稿をすべて見る

次のステップ

ブログ

クラウドからオンプレミスまで、様々なストレージやテクノロジの最新トレンドや開発状況に関する情報を入手しませんか？あらゆる分野の最新動向をご紹介します。

ブログを読む

コミュニティ

幅広いトピックスのオープンフォーラムで質問を投稿したり、回答を共有したりできます。また、お客様にとって最も関心の高い、NetAppのテクノロジの効果的な活用について知ることもできます。

ディスカッションに参加する