适用于 AI 工作流的统一数据架构

2024-01-31

692 浏览次数

在快速发展的人工智能 (AI) 和机器学习 (ML) 环境中，管理和处理各类数据的能力对于模型生成的洞察力的质量至关重要。

最佳存储策略需要考虑以下因素：

企业使用的各种数据类型（数据库和电子表格等结构化数据以及电子邮件、图像、音频、视频和文档等非结构化数据）。
这些数据类型所在的位置（内部和/或分布在多个地理区域的一个或多个公有云或 SaaS 提供商中）。
存储架构的类型，例如文件存储（数据以文件形式接受访问和管理）、块存储（数据以块形式存储，以实现高效、低延迟的操作）和对象存储（数据以对象形式接受管理，每个对象包含数据、元数据和唯一 ID，使其高度可扩展，适合非结构化数据）。

为在企业中广泛采用 AI 而整合数据架构不是一件容易的事。因此，许多购买了 GPU 服务器或通过超大云提供商访问 GPU 服务器的公司在数据管理阶段陷入困境也就不足为奇了。IDC 的研究表明，数据移动/管理是成功部署 AI 过程中最常遇到的障碍之一。

借助统一、智能的基础架构方法，无论数据如何存储或存储在何处，NetApp 都能帮助 AI 团队突破数据孤岛的边界。以下是使 NetApp 对 AI 工作流至关重要的一些具体优势：

数据迁移：尤其是在当今的多模式 AI 中，AI 和 ML 工作流往往会涉及在不同处理阶段移动大型数据集。统一存储架构可以为每个阶段提供正确类型的存储，并根据需要优化速度、可访问性或持久性，从而推动数据迁移的实现。这种方法对于 AI 的运维至关重要，因为它需要海量的数据，还要能够在推理管道中畅通无阻地移动。

数据管理：考虑到 AI 数据集（包括图像、视频、传感器数据等）的多样性和多模式特性，需要采用一种灵活的数据管理方法，而 NetApp 的智能基础架构就可以办到。NetApp 存储系统可以有效地存储这些不同的数据集，以便在执行复杂的 AI 任务时随时对其进行访问。例如，在医疗保健应用领域，医学成像工作流受益于块存储，可以对成像数据进行高性能访问，而患者记录和其他非结构化数据可存储为具有丰富元数据的对象，以便于检索和分析。

数据监管：企业必须在适当的访问控制下利用正确的数据，同时遵守内部策略和当地法规，并始终确保企业的知识产权安全无虞。纵观 NetApp 的各项数据管理功能，我们会发现在设计过程中便已将数据监管功能内置其中。

多年来，NetApp 客户一直享受着统一的混合多云体验。事实上，尽管 NetApp 无法预测生成式 AI 在过去 12 个月内的爆炸式增长，但我们一直在忙于构建专为数据驱动型企业设计的智能数据基础架构。事实证明，这一框架正是企业利用 AI 和生成式 AI 获得竞争优势所必不可少的。

要详细了解 IDC 针对 AI 工作流的数据架构发表的研究结果，请阅读《统一数据架构为 AI 工作流提供所需的灵活性》。详细了解 NetApp 高管对 AI 和生成式 AI 的看法。

Arun Gururajan 是 NetApp 研究和数据科学部门副总裁，负责监管公司产品范围内的 AI/ML/数据科学计划。此前曾在 Meta 和 Microsoft 担任过各种领导职务，负责开发应用范围广泛、应用时间持久的人工智能产品。

了解云端、内部环境以及两者之间任何位置的最新趋势和发展。这是博客最有价值的地方，也是最吸引人之处。

浏览广泛的开放论坛，您可以在论坛上发布问题、分享答案，并了解您最关心的 NetApp 技术。