選單

AI 的新一代資料管理

 : 新一代資料管理引擎將使 AI 更上一層樓

員工坐在有辦公桌和監視器的房間內
目錄

分享本頁

Krish Vitaldevara
Krish Vitaldevara
1,459 人次檢視

在加速運算、深度學習和人工智慧的推動之下,所有產業和現代應用程式都經歷著快速轉型。此轉型的下一階段需要智慧型資料基礎架構的支持,才能使 AI 和運算更貼近企業資料。

將資料與 AI 工作流程整合的挑戰

當我與客戶交談時,他們經常談論的挑戰之一是整合他們的資料和企業 AI 工作流程。核心問題是如何將 AI 技術應用到他們現有的資料上,無論資料位於雲端、內部部署環境,或是更可能是同時涵蓋兩者。

想像您是一位資料工程師。您採用開放原始碼大型語言模式(LLM)來訓練企業資料,讓行銷團隊能夠建置更好的資產,客戶服務團隊也能提供面對客戶的聊天機器人程式。所有資料都散佈在不同的儲存系統之中,因此您不知道它實際位於哪裡。您將資料匯出、搬移及集中管理,以供訓練之用,同時還要處理所有關於時間和容量效率不彰的問題。您建置了模型,但所用資料的歷程和內容都已遺失,因此無法追溯至模型來源。所有這些資料都儲存在內部環境中,但您的訓練卻是在 GPU 所在的雲端上進行。

以上挑戰對我們所討論的資料工程師和資料科學家來說相當常見。NetApp 正在著手解決其中許多挑戰,但隨著模型訓練的進展,以及越來越需要更多資料進行訓練,這些問題將會變得更加嚴重。

新一代 AI 工作負載需要什麼?

隨著新一代 AI 訓練和微調工作負載的形成,現有基礎架構的限制將有可能減緩您的創新速度。挑戰領域包括資料基礎架構(可擴充和最佳化 AI);資料管理功能 (將資料所在位置和允許的使用方式告知 AI 工作流程);以及相關的資料服務(協助資料科學家保護 AI 工作流程並保持模型乾淨)。

可擴充的資料基礎架構

隨著 AI 模型變得更加複雜,其運算需求也隨之增加。企業需要能夠擴充及提供高效能基礎架構來滿足密集 AI 工作所需,例如訓練和微調大型語言模式。同時,最佳化非儲存型資源的使用率(例如最大化 GPU 使用率)對於要求成本效益的 AI 作業來說非常重要,因為可用資源不足可能會導致成本增加。最大化 GPU 使用率對於要求成本效益的 AI 作業而言至關重要,而實現 GPU 能力則需要同時提高讀寫作業二者的儲存傳輸處理量。最後,訓練資料通常儲存在內部環境,但 AI 模型通常是在雲端上接受訓練,這表示 AI 工作負載通常是在內部部署和各種雲端環境之間執行,意味著,基礎架構需要在這些系統之間提供無縫接軌的資料移動性和管理功能。

通用資料管理

AI 工作負載通常需要存取大量資料,這些資料可能以不同的系統和格式分散在企業中。隨著企業使用其散佈在資料基礎架構中的專屬資料來進行微調和擷取擴增生成(RAG),這項挑戰就變得更加嚴峻。資料封閉環境讓 AI 難以有效地彙總及分析資料。此外,從擷取到處理再到儲存,AI 資料的生命週期管理都需要精密的資料管理解決方案,才能夠管理非結構化資料的複雜度和容量。為了讓 AI 發揮效用,相關資料必須易於搜尋和存取,因此需要強大的中繼資料管理和資料探索工具。

智慧型資料服務

隨著 AI 興起,越來越需要健全的安全控管和治理,以保護敏感資料並遵守法規要求,尤其是面對勒索軟體等威脅時。以有毒或遭到蓄意竄改的資料打造而成的模型,可能會對越來越仰賴 AI 的業務營運造成重大傷害。與任何企業工作負載一樣,資料也必須維持可用度,並受到周全保護,避免受到自然災害和系統中斷的影響,才能使企業持續營運,免除代價高昂的停機。

NetApp 目前如何支援 AI 工作負載

如今,NetApp 是公認的 AI 基礎架構領導者。十多年來,創新型客戶一直從 NetApp 解決方案所管理的資料中取得由 AI 驅動的見解。NetApp 是 NVIDIA 的長期合作夥伴,推出已通過認證的 NVIDIA DGX SuperPOD 和 NetApp® AIPod 架構,並在大型公有雲的第一方雲端產品上迅速採用 AI 工作流程。身為非結構化資料儲存的領導者,客戶信任由 NetApp 負責最寶貴的資料資產。

我們如何達到這種信任等級?透過不懈的創新。當客戶委託我們處理他們的資料時,我們能找到更多機會,來協助他們執行 AI 和高效能工作負載。因此我們推出全新的分散式架構,讓客戶能夠繼續突破效能和擴充能力的侷限。更強化的中繼資料管理引擎有助於客戶瞭解組織中的所有資料資產,以便簡化模型訓練和微調。整合式資料服務組合則可協助管理資料和基礎架構,保護資料免於受到自然和人為威脅。這一切都建構在領先業界的統一化儲存架構 NetApp ONTAP® 之上,能夠將所有資料基礎架構整合到這個統一化架構之中。NetApp 的核心宗旨一直鼓勵我們持續進化並採用最新技術,同時維持客戶所仰賴的強大安全性、企業功能及易用性。我很高興能帶您預覽 ONTAP 的周邊環境。

NetApp 利用資料管理推動 AI 發展的願景

我們對於統一化 AI 資料管理引擎的願景,將徹底改變組織運用 AI 力量的方式。我們的資料管理引擎將提供資料資產的統一檢視,自動擷取資料變更內容以供快速推論,並與 AI 工具緊密整合以消除資料封閉環境,以便滿足端點對端點 AI 工作流程的需求。NetApp 也透過可擴充的高效能系統,在基礎架構層級進行創新,並在智慧技術層運用原則型治理和安全控管。

計畫性創新

  • 分散式儲存架構:為了提升系統傳輸處理量並降低成本,NetApp 正在開發一套儲存架構,以更高效率地共用儲存後端。此架構旨在最佳化網路和 Flash 資源的使用率,採用更靈活且具成本效益的方式來處理儲存作業。這項創新技術將有助於大幅改善叢集的整體傳輸處理量,同時減少使用的機架空間和電力。此架構的設計讓運算和儲存資源能夠自由擴充,這對需要高靈活度和擴充性的 AI 工作負載而言特別有用。
  • 效能增強:NetApp 致力於透過即將上市的 NetApp AFF 系列系統和 ONTAP 軟體增強功能,來提供領先業界的卓越效能。這些改善措施旨在輕鬆管理最繁重的 AI 工作負載,讓企業能夠順利執行 AI 策略,而不造成效能瓶頸。這些增強功能包括用於管理和處理大型資料集的進階功能,對於生成式 AI 和 LLM 訓練等工作是不可或缺的。
  • 無縫資料整合:AI 資料管理引擎旨在提供一致且全面的組織資料資產檢視。這種統一化方法對於在內部部署、雲端環境和大型公有雲平台之間整合資料至關重要。NetApp 可協助無縫整合資料,讓組織從初始資料收集到模型部署與分析,能夠更有效地管理 AI 資料的整個生命週期。作為業界唯一,透過這款全新 AI 資料管理引擎,NetApp 可以為客戶提供統一化、結構化、可查詢的 ONTAP 資料資產檢視。無論是結構化或非結構化的資料資產,無論是在內部部署、雲端、或在內部部署與任何大型公有雲(AmazonMicrosoftGoogle)之間的任何位置,都是如此。
  • 向量內嵌和資料庫:AI 資料管理引擎會自動擷取資料的變更內容,產生高度壓縮的向量嵌入,然後將其儲存在整合式向量資料庫之中,讓該資料可用於搜尋和推論工作負載。所有這些都是自動化的內嵌功能,以簡易性和高效率為目標。
  • AI 生態系統整合:我們瞭解統一化管理 AI 工作流程的重要性,因此致力於將資料服務與更廣泛的 AI 工具生態系統相整合。這項整合將簡化整個 AI 工作流程,從資料建立標籤和模型訓練、到協調和部署都涵蓋在內。透過建立無縫接軌的工作流程,我們能協助組織降低 AI 專案的複雜度,並加速實現價值。
  • 負責任的 AI:隨著對 AI 道德規範的認知日益提高,NetApp 正大力強調負責任的 AI 實務做法。公司正在針對整合式模型資料開發可追蹤性與治理功能,讓組織能夠實作 AI 解決方案,不僅有效,而且合乎道德且具透明度。

結論

在 NetApp,我們預測未來的資料科學家將能夠選擇他們所需的 AI 工具,並使用涵蓋整個資料資產的資料目錄來微調模型。他們不需要知道儲存位置,因為目錄中就有詳細資料,目錄甚至能封鎖對於模型訓練過於敏感的資料。訓練資料將以省空間的時間點 NetApp Snapshot™ 複本狀態擷取,以便資料科學家在需要瞭解模型決策時,隨時可以回到原始狀態來分析資料。無論訓練資料是位於同一個雲端、另一個雲端、或是儲存在內部環境中,他們都能從自己選擇的雲端執行所有這些工作。同時,提供資料服務的基礎架構將具備所需的規模和效能,讓 AI 基礎架構的其餘部分完全飽和,以便充分運用這些重要資源,並快速提供已微調的模型。這樣的未來並不遙遠,NetApp 已經建置了許多基礎架構,目前正在為 AI 的下一階段而努力。

我們致力於提升 ONTAP 的能力,以滿足並超越 AI 導向企業的需求。透過建立統一化的資料環境、強化 AI 工具整合、自動化智慧型資料管理、以及將效能和擴充性視為優先要務,我們強化了 AI 在資料儲存與管理方面的領導地位。這些策略性進展旨在簡化 AI 專案複雜度、擴大資料存取能力、提升資料可用度與安全性,並降低相關成本,進而讓不同組織更容易取得 AI 技術。若要深入瞭解 NetApp ONTAP 和 AI 資料管理引擎的未來發展,請參閱白皮書《ONTAP –深度學習時代的先驅資料管理》。

免責聲明:此部落格文章討論 NetApp 對於未來創新的願景,其中有些內容可能涉及尚未發行的產品。NetApp 分享此資訊僅供參考之用,不應依賴此資訊做出採購決策。NetApp 不承諾也不承擔開發或提供任何產品或服務,或任何相關功能、材料、程式碼或功能的義務。NetApp 產品及服務的任何特色或功能,其開發、發佈和時間將由 NetApp 自行決定。NetApp 的策略及未來可能的開發、產品與平台方向及功能,均可能隨時變更,恕不另行通知。無論是因為新資訊、未來事件或其他原因,我們都不承擔更新此部落格文章中所含資訊的任何義務。任何勒索軟體偵測或恢復系統都無法完全保證受到勒索軟體攻擊下的安全性。雖然攻擊可能無法被偵測到,但 NetApp 技術卻是重要的額外防禦層。所有資訊均不提供任何保固,NetApp 概不負責。

Krish Vitaldevara

Krish 是 NetApp 核心平台資深副總裁,其核心平台團隊負責統一化儲存平台、管理平台、客戶體驗辦公室(CXO)和設計總辦公室(CDO),提供跨越內部部署、混合雲和資料服務的各種 NetApp 產品。Krish 擁有 Santa Clara University 的 MBA 學位,以及亞利桑那州立大學資訊系統工程碩士學位。Krish 也是備受肯定的創新者和駭客,擁有 30 多項專利,主要使用圖形和網路進行異常偵測,適用於分散式系統、垃圾郵件偵測模型。

檢視 Krish Vitaldevara 的所有貼文

後續步驟

Drift chat loading