メニュー

AI向けの次世代データ管理エンジン

 : 次世代データ管理エンジンがAIを新たなレベルへと引き上げる

デスクとモニターを備えた部屋の中に座っている従業員
目次

このページを共有

Krish Vitaldevara
Krish Vitaldevara
1,450 人が閲覧

アクセラレーション コンピューティング、ディープラーニング、人工知能の進歩によって、あらゆる業界と最新のアプリケーションが急速な変革を遂げています。この変革の次のフェーズでは、AIとコンピューティングをエンタープライズ データの近くに配置できるインテリジェントなデータインフラが必要です。

データをAIワークフローに統合する際の課題

私がお客様と話すとき、お客様が直面する課題は、データとエンタープライズAIワークフローの統合です。同社の問題の核心は、クラウド、オンプレミス、またはその両方に存在する可能性が高いデータにAIテクノロジを適用することです。

あなたがデータ エンジニアであるとします。オープンソースのLLM(Large Language Model)を活用して企業データをトレーニングし、マーケティング チームがより優れた資産を構築し、カスタマー サービス チームが顧客向けチャットボットを提供できるようにします。データはさまざまなストレージ システムに分散しているため、どこに何があるのかわかりません。トレーニング目的のためにデータのエクスポート、移動、集中管理を行う際には、関連する時間と容量の非効率性が伴います。モデルを構築しても、使用したデータの履歴とコンテキストが失われるため、モデルをソースに戻す方法はありません。これらのデータはすべてオンプレミスに保存されますが、トレーニングはGPUが配置されているクラウドで行われます。

これらの課題は、NetAppが担当するデータ エンジニアやデータ サイエンティストにはよくあることです。NetAppはこれらの課題の多くにすでに対応しています。しかし、モデルのトレーニングが高度になり、トレーニングに必要なデータが増えるにつれて、これらの問題は拡大していきます。

次世代のAIワークロードには何が必要か?

 次世代のAIトレーニングとワークロードの微調整が形作られる中、既存のインフラに限界があるとイノベーションが遅れるリスクがあります。課題には、AIの拡張と最適化を可能にするデータインフラ、データの保存場所と使用方法をAIワークフローに通知するデータ管理、データ サイエンティストがAIワークフローを保護し、モデルをクリーンに保つのに役立つ関連データサービスなどがあります。

拡張性に優れたデータインフラ

AIモデルが複雑になるにつれて、コンピューティング要件も増大していきます。企業には、大規模な言語モデルのトレーニングや微調整など、集中的なAIタスクに必要な拡張性と高いパフォーマンスを提供できるインフラが必要です。同時に、リソースの使用率が低いとコストが増加する可能性があるため、対費用効果の高いAI運用には、ストレージ以外のリソース使用率の最適化(GPU使用率の最大化など)が不可欠です。GPU利用率を最大限に高めることは、対費用効果の高いAI処理には欠かせません。GPU利用率を最大限に高めるには、読み取り処理と書き込み処理の両方でストレージ スループットを向上させる必要があります。最後に、トレーニング データは通常オンプレミスに格納されますが、AIモデルはクラウドでトレーニングされることが多いため、AIワークロードはオンプレミスとさまざまなクラウド環境にまたがることがよくあります。つまり、これらのシステム間でシームレスなデータ移動と管理を実現できるインフラが必要です。

汎用性に優れたデータ管理

AIワークロードでは、多くの場合、膨大な量のデータへのアクセスが必要になりますが、データは企業内にさまざまなシステムや形式で分散している可能性があります。この課題は、企業がデータインフラ全体に分散した独自のデータを使用して、微調整と検索拡張生成(RAG)のユースケースを実現するにつれて、さらに深刻になります。データがサイロ化すると、AIのためにデータを効果的に集約して分析することが困難になります。また、AIデータの取り込みから処理、ストレージまでのライフサイクルを管理するには、非構造化データの複雑さと量を管理できる高度なデータ管理ソリューションが必要です。AIを効果的に活用するには、関連するデータを簡単に検出してアクセスできる必要があります。そのためには、強力なメタデータ管理ツールとデータ探索ツールが必要です。

インテリジェントなデータサービス

AIの普及に伴い、特にランサムウェアのような脅威に直面した場合、機密データを保護し、規制要件に準拠するための堅牢なセキュリティとガバナンスに対するニーズが高まっています。汚染されたデータや意図的な改ざんから構築されたモデルは、AIへの依存度が高まる業務に大きな損害を与える可能性があります。また、他のエンタープライズ ワークロードと同様に、運用を継続し、コストのかかるダウンタイムを回避するには、データの可用性を確保し、自然災害やシステム停止からデータを保護する必要があります。

NetAppが現在のAIワークロードをサポートする仕組み

現在、NetAppはAIインフラのリーダーとして認知されています。10年以上にわたり、NetAppソリューションで管理されるデータからAIを活用した分析情報を引き出してきた革新的なお客様がいます。NVIDIAとの長年のパートナーであるNetAppは、認定済みのNVIDIA DGX SuperPODおよびNetApp®AIPodアーキテクチャを提供し、ハイパースケーラのファーストパーティ クラウド製品にAIワークフローを迅速に採用しています。非構造化データ ストレージのリーダーとして、お客様は最も価値のあるデータ資産に関してNetAppを信頼しています。

どのようにしてこのレベルの信頼を獲得したのでしょうか?これは絶え間ないイノベーションによるものです。お客様がデータを私たちに任せるようになると、AIやハイパフォーマンス ワークロードの運用を支援する機会がさらに増えることになります。そこでNetAppは、お客様がパフォーマンスと拡張性の限界を押し広げることを可能にする、新しい分離型アーキテクチャを導入します。強化されたメタデータ管理エンジンにより、組織内のすべてのデータ資産を把握できるため、モデルのトレーニングと微調整を簡易化できます。また、統合された一連のデータ サービスにより、データとインフラを管理し、自然な脅威や人間による脅威から保護できます。業界をリードするユニファイド ストレージ アーキテクチャであるNetApp ONTAP®を基盤とし、すべてのデータインフラを統合するユニファイド アーキテクチャを提供します。NetAppの核となるDNAは、お客様が信頼する堅牢なセキュリティ、エンタープライズ機能、使いやすさを維持しながら、常に新しいテクノロジを進化させ、採用することを可能にしてきました。ONTAPの最新情報をご紹介できることを楽しみにしています。

AIを推進するためのデータ管理に関するNetAppのビジョン

AIの統合データ管理エンジンというNetAppのビジョンは、企業によるAIのアプローチと活用方法に革命をもたらします。NetAppのデータ管理エンジンは、データ資産の統合ビューの提供、データの変更点のキャプチャの自動化による迅速な推論、AIツールとの緊密な統合によるエンドツーエンドのAIワークフローによって、データのサイロ化を解消するように設計されています。NetAppは、拡張性に優れたハイパフォーマンス システムを備えたインフラレイヤと、ポリシー ベースのガバナンスとセキュリティを備えたインテリジェンス レイヤでも革新を進めています。

計画されたイノベーション

  • 分離型ストレージ アーキテクチャ:NetAppでは、システム スループットの向上とコスト削減のために、ストレージ バックエンドの効率的な共有を可能にするストレージ アーキテクチャを開発しています。このアーキテクチャは、ネットワーク リソースとフラッシュ リソースの利用率を最適化することを目的としており、より柔軟で対費用効果の高いストレージ アプローチを可能にします。このイノベーションにより、クラスタ全体の総スループットが大幅に向上し、同時にラック スペースと消費電力が削減されます。このアーキテクチャは、コンピューティング リソースとストレージ リソースを個別に拡張できるように設計されているため、高度な柔軟性と拡張性が必要なAIワークロードに特に適しています。
  • パフォーマンスの強化:NetAppは、今後予定されているNetApp AFFシリーズ システムとONTAPソフトウェアの機能強化を通じて、業界をリードするパフォーマンスの提供に取り組んでいます。これらの機能強化は、最も負荷の高いAIワークロードを簡単に管理できるように調整されているため、企業はパフォーマンスのボトルネックを発生させることなくAI戦略を実行できます。強化された機能には、生成AIやLLMトレーニングなどのタスクに不可欠な大規模データセットの管理と処理のための高度な機能が含まれます。
  • シームレスなデータ統合:AIデータ管理エンジンは、組織のデータ資産をまとめて包括的に把握できるように設計されています。この統合されたアプローチは、オンプレミス設定、クラウド環境、ハイパースケーラ プラットフォームにわたるデータの統合に欠かせません。NetAppはシームレスなデータ統合を促進することで、初期データの収集からモデルの導入と分析に至るまで、AIデータのライフサイクル全体をより効果的に管理できるようにします。この新しいAIデータ管理エンジンでは、すべてのONTAPデータ資産の統合された構造化されたクエリ可能なビューをお客様に提供できるのはNetAppだけです。オンプレミス、クラウド、オンプレミス、ハイパースケーラ パートナーであるAmazonMicrosoft、 Googleなど、データ資産の場所がどこであっても、データ資産が構造化されているか非構造化されているかにかかわらず、これは事実です。
  • ベクター埋め込みとデータベース。AIデータ管理エンジンは、データへの変更を自動的に取得し、高度に圧縮されたベクトル埋め込みを生成して、統合されたベクトル データベースに格納することで、そのデータを検索やRAG推論ワークロードに利用できるようにします。これらすべての処理は、簡易性と効率性を高めるために、インラインで自動的に実行されます。
  • AIエコシステムの統合:ユニファイドAIワークフローの重要性を認識し、データサービスと幅広いAIツール エコシステムの統合に注力しています。この統合により、データのラベル付けやモデルのトレーニングからオーケストレーションと導入まで、AIワークフロー全体が合理化されます。シームレスなワークフローを作成することで、企業がAIプロジェクトの複雑さを軽減し、価値実現までの時間を短縮できるよう支援しています。
  • AIの責任、AIの倫理的影響に対する意識が高まる中、NetAppは責任あるAIの実践に重点を置いています。同社は、効果的であるだけでなく倫理的で透明性の高いAIソリューションの実装を可能にする統合モデル データ トレーサビリティとガバナンス機能を開発しています。

まとめ

NetAppでは、データ サイエンティストが自社のAIツールを選択し、データ資産全体を網羅するデータ カタログを使用してモデルを微調整できる未来が予測されています。保存場所を知る必要はありません。カタログにはその詳細が表示されます。また、モデルのトレーニングには機密性の高いデータもカタログでブロックされます。トレーニング データは、スペース効率に優れたポイントインタイムNetApp Snapshot™コピーを使用してその状態でキャプチャされるため、データ サイエンティストはいつでも元の状態に戻り、モデルの決定を理解する必要がある場合にデータを分析できます。また、トレーニング データが同じクラウドにあるか、別のクラウドにあるか、オンプレミスに保存されているかに関係なく、これらすべてを任意のクラウドから実行できます。一方、データを提供するインフラは、AIインフラの残りの部分を完全に飽和状態にするために必要な拡張性とパフォーマンスを提供し、これらの重要なリソースを最大限に活用して、微調整されたモデルを迅速に提供します。この未来は遠いものでも遠くないものでもありません。NetAppはこのインフラの多くをすでに構築しており、現在AIの次のステージに向けて構築しています。

私たちは、AIを活用した企業の要求を満たし、それを上回ることを目指して、ONTAPの機能を進化させようと、揺るぎない努力を続けています。NetAppは、統合データ環境の構築、AIツールの統合の強化、インテリジェントなデータ管理の自動化、パフォーマンスと拡張性の優先順位付けを通じて、AI向けデータ ストレージとデータ管理におけるリーダーシップを強化しています。これらの戦略的な進歩は、AIプロジェクトの複雑さの軽減、データへのアクセス性の向上、データの可用性とセキュリティの向上、関連コストの削減を目的としています。これにより、さまざまな組織がAIテクノロジを利用しやすくすることができます。NetApp ONTAPとNetAppのAIデータ管理エンジンの今後の開発の詳細については、ホワイトペーパー『ONTAP–ディープラーニング時代の先駆的なデータ管理』をご覧ください。

免責事項:このブログ記事では、将来のイノベーションに関するNetAppのビジョンについて説明します。その一部は未リリースの製品に関連する可能性があります。NetAppは、情報提供のみを目的としてこの情報を共有しています。この情報を購入の判断材料として使用しないでください。NetAppは、製品またはサービス、または関連する機能、資料、コード、または機能を開発または提供する義務を負いません。NetAppの製品およびサービスの機能の開発、リリース、およびタイミングは、NetAppの独自の裁量に委ねられます。NetAppの戦略および将来の開発、製品およびプラットフォームの方向性、および機能は、すべて予告なく変更される場合があります。私たちは、新しい情報、将来のイベントなどの結果として、このブログ投稿に含まれる情報を更新する義務を負いません。ランサムウェアの検出やリカバリのシステムは、ランサムウェア攻撃からの安全性を完全に保証できません。攻撃が検出されない可能性はありますが、NetAppテクノロジは重要な追加防御レイヤとして機能します。すべての情報はいかなる保証もなく提供され、NetAppが責任を負うこともありません。

Krish Vitaldevara

Krishは、NetAppのコア プラットフォーム担当シニア バイス プレジデントを務めています。コア プラットフォーム チームは、ユニファイド ストレージ プラットフォーム、管理プラットフォーム、カスタマー エクスペリエンス オフィス(CXO)、チーフ デザイン オフィス(CDO)を担当し、オンプレミス、ハイブリッド クラウド、データ サービスにわたってさまざまなNetAppソリューションの提供を可能にします。サンタクララ大学でMBAを、アリゾナ州立大学で情報システム工学の修士号を取得しています。Krishはまた、分散システム、スパム検出モデル、異常検出のためのグラフとネットワークを使用した30以上の特許を持つ、実績のあるイノベーターおよびハッカーでもあります。

Krish Vitaldevaraの投稿をすべて見る

次のステップ

Drift chat loading