메뉴

비정형 데이터란?

항목

이 페이지 공유하기

오늘날의 빅데이터 세계에서는 비정형 데이터가 가장 많습니다. 비정형 데이터는 미디어, 이미지, 오디오, 센서 데이터, 텍스트 데이터 등 모든 것을 아우르므로, 그 수가 많습니다. 비정형 데이터란 정형 데이터베이스 형식으로 저장되지 않는 데이터 세트(일반적인 대용량 파일 모음)를 의미합니다. 비정형 데이터는 내부 구조가 있지만, 데이터 모델을 통해 미리 정의되지는 않습니다. 사람이 생성하거나 컴퓨터가 생성한 텍스트 형식 또는 텍스트 이외의 형식일 수 있습니다.

비정형 데이터 vs. 정형 데이터

비정형 데이터는 트랜잭션 시스템에서 활발하게 관리되지 않는 데이터라고 생각할 수 있습니다(예: 관계형 데이터베이스 관리 시스템(RDBMS)에 없는 데이터). 정형 데이터는 데이터베이스 환경의 레코드(또는 트랜잭션)라고 생각할 수 있습니다(예: SQL 데이터베이스 테이블의 행).

정형 데이터 또는 비정형 데이터 중에서 어느 하나가 선호되는 것은 아닙니다. 두 데이터 모두 사용자가 정보에 액세스할 수 있도록 지원하는 도구가 있습니다. 비정형 데이터가 정형 데이터보다 훨씬 많을 뿐입니다.

비정형 데이터의 예는 다음과 같습니다.

오브젝트 기반 스토리지가 등장할 때까지 이 비정형 데이터의 거의 모두는 파일 기반 시스템에 저장되어 있었습니다.

비정형 데이터로 작업할 때 어떤 어려움이 있습니까?

비정형 데이터와 관련된 문제를 해결하는 방법을 모색하는 기업은 기존 방식으로 비정형 데이터를 관리할 때 어떤 문제가 있는지를 생각해야 합니다.

확장성

많은 기업이 수십 또는 수천억 개에 달하는 비정형 데이터 세트를 접하는 것은 흔한 일입니다. 이러한 항목, 개체 또는 파일은 몇 바이트(예: 생산 라인 기기에서 측정된 온도)에서 테라바이트 크기(예: 무삭제 8K 해상도 영상)까지 이를 수 있습니다. 서버, 파일 시스템, 어레이 등에서 '균형'을 유지하는 데 점점 더 많은 리소스가 필요하므로, 기존의 파일 시스템으로 이러한 규모를 관리하는 것이 어려운 일에서 불가능한 일로 빠르게 바뀌고 있습니다.

협업

이러한 대규모 비정형 데이터 세트는 더 많이 공유됨에 따라 더 많은 가치를 제공합니다(예: 대용량 게놈 염기서열을 공유하는 여러 병원의 연구자들). 기존 접근 방식으로는 여러 지역, 기업 엔터티 등에서 방대한 양의 비정형 데이터를 공유할 수 있지만, 매우 비용이 많이 드는 복제 및 거버넌스가 필요했습니다.

오브젝트 스토리지: 비정형 데이터를 대규모로 관리

오브젝트 스토리지를 사용하여 문제 해결하기

오늘날의 오브젝트 스토리지 솔루션은 지리적으로 분산된 액티브 네임스페이스를 제공하여 확장성 및 협업과 관련된 과제를 해결합니다. 네임스페이스를 사용하면 모든 위치의 사용자가 데이터 센터, 서버, 파일 시스템 또는 디렉터를 지정할 필요 없이 간단한 GET 명령을 사용하여 원하는 위치에서 오브젝트 또는 파일을 검색할 수 있습니다. 마찬가지로, PUT 명령을 사용하면 모든 위치에서 쉽게 액세스할 수 있도록 데이터를 수집할 수 있습니다.

조직은 단일 글로벌 네임스페이스의 단순성과 확장성과 간단한 상태 비저장 데이터 관리 프로토콜(예: Amazon S3 및 Swift)을 함께 활용하여 지역, 조직 및 애플리케이션 경계 전반에 걸쳐 확장 가능한 협업 환경을 제공할 수 있습니다.

NetApp 및 오브젝트 스토리지

NetApp® StorageGRID® 기술을 사용하면 프라이빗 및 퍼블릭 클라우드에 안전하고 내구성이 우수한 오브젝트 스토리지를 구축하여 비정형 데이터를 대규모로 저장하고 관리할 수 있습니다. StorageGRID를 사용하면 대량의 (다중 위치) 단일 네임스페이스를 구축하고 고유한 정보 라이프사이클 정책을 해당 데이터에 통합할 수도 있습니다. StorageGRID 통합 정책 엔진을 활용하면 다음을 충족하는 데이터 가용성을 확신할 수 있습니다.

  • 적합한 지리적 위치
  • 적합한 수준의 성능
  • 적합한 수준의 내구성 및 보호 기능
  • 비즈니스 요구사항의 변화에 따라 적시에 자동으로 변경
Drift chat loading