특성 저장소 개념 - 아마존 SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

특성 저장소 개념

Amazon SageMaker Feature Store에서 사용되는 일반적인 용어와 몇 가지 개념을 시각화하는 예제 다이어그램을 나열합니다.

  • 특성 저장소: 기계 학습(ML) 특성을 위한 스토리지 및 데이터 관리 계층. 특성을 저장, 검색, 삭제, 추적, 공유, 검색 및 액세스 제어할 수 있는 단일 정보 소스 역할을 합니다. 다음 예제 다이어그램에서 특성 저장소는 ML 데이터를 포함하고 추가 서비스를 제공하는 특성 그룹을 위한 저장소입니다.

  • 온라인 저장소: 레코드를 실시간으로 조회할 수 있는 특성 그룹을 위한 저지연 고가용성 저장소입니다. 온라인 스토어에서는 를 통해 최신 레코드에 빠르게 액세스할 수 있습니다. GetRecord API

  • 오프라인 저장소: Amazon S3 버킷에 과거 데이터를 저장합니다. 오프라인 저장소는 저지연(1초 미만) 읽기 작업이 필요하지 않은 경우 사용됩니다. 예를 들어 탐색, 모델 훈련 및 일괄 추론을 위한 특성을 저장하고 제공하려는 경우 오프라인 저장소를 사용할 수 있습니다.

  • 특성 그룹: ML 모델을 사용한 훈련 또는 예측에 사용되는 데이터 및 메타데이터를 포함하는 특성 저장소의 기본 리소스입니다. 특성 그룹은 레코드를 설명하는 데 사용되는 특성을 논리적으로 그룹화한 것입니다. 다음 예제 다이어그램에서 특성 그룹에는 ML 데이터가 포함되어 있습니다.

  • 특성: ML 모델을 사용하여 학습하거나 예측하기 위한 입력값 중 하나로 사용되는 속성입니다. 피처 스토어에서 API 기능은 레코드의 속성입니다. 다음 예제 다이어그램에서 특성은 ML 데이터 테이블의 열을 설명합니다.

  • 특성 정의: 이름과 데이터 유형(정수, 문자열 또는 분수) 중 하나로 구성됩니다. 특성 그룹에는 특성 정의 목록이 포함되어 있습니다. 특성 저장소 데이터 유형에 대한 자세한 내용은 데이터 타입섹션을 참조하세요.

  • 레코드: 단일 레코드 식별자의 특성 값 컬렉션입니다. 레코드 식별자와 이벤트 시간 값의 조합은 특성 그룹 내의 레코드를 고유하게 식별합니다. 다음 예제 다이어그램에서 레코드는 ML 데이터 테이블의 행입니다.

  • 레코드 식별자 이름: 레코드 식별자 이름은 레코드를 식별하는 특성의 이름입니다. 특성 그룹의 특성 정의에 정의된 특성 이름 중 하나를 참조해야 합니다. 각 특성 그룹은 레코드 식별자 이름으로 정의됩니다.

  • 이벤트 시간: 레코드 이벤트가 발생한 시간에 해당하는 타임스탬프입니다. 특성 그룹의 모든 레코드에는 해당하는 이벤트 시간이 있어야 합니다. 온라인 저장소에는 최근 이벤트 시간에 해당하는 레코드만 포함되는 반면, 오프라인 저장소에는 모든 과거 레코드가 포함됩니다. 이벤트 시간 형식에 대한 자세한 정보는 데이터 타입섹션을 참조하세요.

  • 수집: 특성 그룹에 새 레코드 추가. 수집은 일반적으로 를 통해 이루어집니다. PutRecord API

개념 개요 다이어그램

다음 예제 다이어그램은 몇 가지 특성 저장소 개념을 개념화합니다.

An example representation of a feature group using an example table as reference.

특성 저장소에는 특성 그룹이 포함되고 특성 그룹에는 ML 데이터가 포함됩니다. 예제 다이어그램에서 원래의 특성 그룹에는 세 개의 특성(각각 열로 표시)과 두 개의 레코드(행)로 구성된 데이터 테이블이 포함되어 있습니다.

  • 특성 정의는 레코드와 관련된 특성 값의 특성 이름 및 데이터 유형을 설명합니다.

  • 레코드는 특성 값을 포함하며 레코드 식별자로 고유하게 식별되고 이벤트 시간을 포함해야 합니다.

수집 다이어그램

수집은 기존 특성 그룹에 레코드를 하나 이상 추가하는 작업입니다. 온라인 스토어와 오프라인 스토어는 스토리지 사용 사례에 따라 다르게 업데이트됩니다.

온라인 저장소 수집 예시

온라인 스토어는 기록을 실시간으로 조회하는 역할을 하며 가장 up-to-date 많은 기록만 보관합니다. 기존 온라인 스토어에 기록이 수집되면 업데이트된 온라인 스토어는 가장 최근 이벤트 시간에 대한 기록만 보관합니다.

다음 예제 다이어그램에서 원래 온라인 스토어에는 레코드 1개가 포함된 ML 데이터 테이블이 포함되어 있습니다. 레코드는 원본 레코드와 동일한 레코드 식별자 이름으로 인제스트되며, 인제스트된 레코드의 이벤트 시간은 원래 레코드보다 빠릅니다. 업데이트된 온라인 스토어는 최신 이벤트 시간만 기록하므로 업데이트된 온라인 스토어에는 원본 레코드가 포함됩니다.

An example showing how records are ingested in the online store.

오프라인 저장소 수집 예제

오프라인 저장소는 과거 레코드를 조회하는 역할을 하며 모든 레코드를 보관합니다. 새 레코드가 기존 오프라인 저장소에 수집된 후에는 업데이트된 오프라인 저장소에 새 레코드가 보관됩니다.

다음 예제 다이어그램에서 원래 오프라인 스토어에는 레코드가 한 개 있는 ML 데이터 테이블이 포함되어 있습니다. 레코드는 원본 레코드와 동일한 레코드 식별자 이름으로 인제스트되며, 인제스트된 레코드의 이벤트 시간은 원래 레코드보다 빠릅니다. 업데이트된 오프라인 스토어는 모든 레코드를 보관하므로 업데이트된 오프라인 스토어에는 두 레코드가 모두 포함됩니다.

An example showing how records are ingested in the offline store.