기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
레코드는 수집을 통해 특성 그룹에 추가됩니다. 원하는 사용 사례에 따라 수집된 레코드를 특성 그룹 내에 보관하거나 보관하지 않을 수 있습니다. 특성 그룹이 오프라인 또는 온라인 저장소를 사용하는 경우, 스토리지 구성에 따라 달라집니다. 오프라인 저장소는 과거 데이터베이스로 사용되며, 일반적으로 데이터 탐색, 기계 학습 (ML) 모델 훈련 및 일괄 추론에 사용됩니다. 온라인 저장소는 레코드의 실시간 조회 용도로 사용되며, 일반적으로 ML 모델 제공에 사용됩니다. 특성 저장소 개념 및 수집에 대한 자세한 내용은 특성 저장소 개념섹션을 참조하세요.
Amazon SageMaker 특성 저장소로 데이터를 가져오는 방법은 여러 가지가 있습니다. 특성 저장소는 데이터 수집을 위해 PutRecord
라고 불리는 단일 API 직접 호출을 제공하며, 이를 통해 데이터를 일괄적으로 수집하거나 스트리밍 소스에서 수집할 수 있습니다. Amazon SageMaker Data Wrangler를 사용하여 특성을 엔지니어링한 다음 특성을 특성 저장소에 수집할 수 있습니다. 또한 Spark 커넥터를 통한 일괄 데이터 수집에 Amazon EMR을 사용할 수 있습니다.
다음 주제에서는 두 가지 차이점에 대해 설명합니다.
스트리밍 수집
Kafka 또는 Kinesis와 같은 스트리밍 소스를 데이터 소스로 사용하여 레코드를 추출하고 훈련, 추론 또는 특성 생성을 위해 레코드를 온라인 저장소에 직접 공급할 수 있습니다. 동기 방식의 PutRecord
API 직접 호출을 사용하여 레코드를 특성 그룹에 수집할 수 있습니다. 이는 동기 방식의 API 직접 호출이므로 단일 API 직접 호출로 소규모 업데이트를 푸시할 수 있습니다. 이렇게 하면 특성 값을 최신으로 유지하고 업데이트가 감지되는 즉시 값을 게시할 수 있습니다. 이러한 기능을 스트리밍 특성이라고도 합니다.
특성 저장소를 통한 Data Wrangler
Data Wrangler는 Studio Classic의 기능으로, 데이터 가져오기, 준비, 변환, 특성화, 분석에 대한 엔드투엔드 솔루션을 제공합니다. Data Wrangler를 사용하면 특성을 엔지니어링하고 온라인 또는 오프라인 저장소 특성 그룹에 통합할 수 있습니다.
다음 지침은 Feature Store 특성 그룹을 만드는 데 필요한 모든 소스 코드가 들어 있는 Jupyter notebook을 내보냅니다. 이는 Data Wrangler의 특성을 온라인 또는 오프라인 저장소에 추가합니다.
Data Wrangler 데이터 흐름을 콘솔에서 Feature Store로 내보내는 방법에 대한 지침은 기본 환경으로 Amazon SageMaker Studio를 활성화했는지 아니면 Amazon SageMaker Studio Classic을 활성화했는지에 따라 달라집니다.
-
Amazon SageMaker Studio 출시의 지침에 따라 Studio 콘솔을 엽니다.
-
왼쪽 패널에서 데이터를 선택하여 드롭다운 목록을 확장합니다.
-
드롭다운 목록에서 Data Wrangler를 선택합니다.
-
Amazon SageMaker Canvas 인스턴스가 이미 실행 중인 경우 캔버스 열기를 선택합니다.
실행 중인 SageMaker Canvas 인스턴스가 없는 경우 Canvas에서 실행을 선택합니다.
-
SageMaker Canvas 콘솔의 왼쪽 탐색 창에서 Data Wrangler를 선택합니다.
-
데이터 흐름을 선택하여 데이터 흐름을 봅니다.
-
+를 선택하여 드롭다운 목록을 확장합니다.
-
데이터 흐름 내보내기를 선택하여 드롭다운 목록을 확장합니다.
-
(JupyterLab Notebook을 통해) SageMaker Feature Store에 저장을 선택합니다.
-
데이터 흐름을 노트북으로 내보내기에서 다음 옵션 중 하나를 선택합니다.
-
로컬 사본을 다운로드하여 로컬 머신에 데이터 흐름을 다운로드합니다.
-
S3 위치로 내보내기를 통해 데이터 흐름을 Amazon Simple Storage Service 위치로 다운로드하고 Amazon S3 위치를 입력하거나 찾아보기를 선택하여 Amazon S3 위치를 찾습니다.
-
-
내보내기를 선택합니다.
특성 그룹이 생성되면 여러 특성 그룹에서 데이터를 선택하고 결합하여 Data Wrangler에서 새로 엔지니어링된 특성을 만든 다음 데이터세트를 Amazon S3 버킷으로 내보낼 수도 있습니다.
특성 저장소로 내보내는 방법에 대한 자세한 내용은 SageMaker AI 특성 저장소로 내보내기를 참조하세요.