기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
이 페이지에서는 사용자 지정 데이터 소스 클래스를 만드는 방법을 설명하고 몇 가지 사용 예를 보여줍니다. 사용자 지정 데이터 소스를 사용하면 Amazon SageMaker 특성 저장소에서 제공하는 데이터 소스를 사용하는 것과 동일한 방식으로 Amazon SageMaker AI SDK for Python(Boto3) 제공 APIs를 사용할 수 있습니다.
특성 처리를 통해 사용자 지정 데이터 소스를 사용하여 데이터를 특성 그룹으로 변환하고 수집하려면 다음 클래스 멤버 및 함수로 PySparkDataSource
클래스를 확장해야 합니다.
-
data_source_name
(str): 데이터 소스의 임의 이름입니다. Amazon Redshift, Snowflake, 또는 Glue Catalog ARN을 예로 들 수 있습니다. -
data_source_unique_id
(str): 액세스 중인 특정 리소스를 가리키는 고유 식별자입니다. 테이블 이름, DDB 테이블 ARN, Amazon S3 접두사를 예로 들 수 있습니다. 사용자 지정 데이터 소스에서 동일한data_source_unique_id
를 사용하는 경우 계보 보기의 동일한 데이터 소스에 모두 연결됩니다. 계보에는 특성 처리 워크플로의 실행 코드, 사용된 데이터 소스, 이러한 데이터 소스가 특성 그룹 또는 특성에 통합되는 방식에 대한 정보가 포함됩니다. Studio에서 특성 그룹의 계보를 보는 방법에 대한 자세한 내용은 콘솔에서 계보 보기 섹션을 참조하세요. -
read_data
(func): 특성 프로세서와 연결하는 데 사용되는 메서드입니다. Spark 데이터 프레임을 반환합니다. 예를 보려면 사용자 지정 데이터 소스 예제섹션을 참조하세요.
data_source_name
과 data_source_unique_id
는 모두 계보 엔티티를 고유하게 식별하는 데 사용됩니다. 다음은 이름이 CustomDataSource
인 사용자 지정 데이터 소스 클래스의 예입니다.
from sagemaker.feature_store.feature_processor import PySparkDataSource from pyspark.sql import DataFrame class CustomDataSource(PySparkDataSource): data_source_name = "
custom-data-source-name
" data_source_unique_id = "custom-data-source-id
" def read_data(self, parameter, spark) -> DataFrame:your own code here to read data into a Spark dataframe
return dataframe