사용자 지정 데이터 소스

포커스 모드

사용자 지정 데이터 소스 - Amazon SageMaker AI

이 페이지에서는 사용자 지정 데이터 소스 클래스를 만드는 방법을 설명하고 몇 가지 사용 예를 보여줍니다. 사용자 지정 데이터 소스를 사용하면 Amazon SageMaker 특성 저장소에서 제공하는 데이터 소스를 사용하는 것과 동일한 방식으로 Amazon SageMaker AI SDK for Python(Boto3) 제공 APIs를 사용할 수 있습니다.

특성 처리를 통해 사용자 지정 데이터 소스를 사용하여 데이터를 특성 그룹으로 변환하고 수집하려면 다음 클래스 멤버 및 함수로 PySparkDataSource클래스를 확장해야 합니다.

data_source_name (str): 데이터 소스의 임의 이름입니다. Amazon Redshift, Snowflake, 또는 Glue Catalog ARN을 예로 들 수 있습니다.
data_source_unique_id (str): 액세스 중인 특정 리소스를 가리키는 고유 식별자입니다. 테이블 이름, DDB 테이블 ARN, Amazon S3 접두사를 예로 들 수 있습니다. 사용자 지정 데이터 소스에서 동일한 data_source_unique_id를 사용하는 경우 계보 보기의 동일한 데이터 소스에 모두 연결됩니다. 계보에는 특성 처리 워크플로의 실행 코드, 사용된 데이터 소스, 이러한 데이터 소스가 특성 그룹 또는 특성에 통합되는 방식에 대한 정보가 포함됩니다. Studio에서 특성 그룹의 계보를 보는 방법에 대한 자세한 내용은 콘솔에서 계보 보기 섹션을 참조하세요.
read_data (func): 특성 프로세서와 연결하는 데 사용되는 메서드입니다. Spark 데이터 프레임을 반환합니다. 예를 보려면 사용자 지정 데이터 소스 예제섹션을 참조하세요.

data_source_name과 data_source_unique_id는 모두 계보 엔티티를 고유하게 식별하는 데 사용됩니다. 다음은 이름이 CustomDataSource인 사용자 지정 데이터 소스 클래스의 예입니다.


from sagemaker.feature_store.feature_processor import PySparkDataSource
from pyspark.sql import DataFrame

class CustomDataSource(PySparkDataSource):
    
    data_source_name = "custom-data-source-name"
    data_source_unique_id = "custom-data-source-id"
    
    def read_data(self, parameter, spark) -> DataFrame:
        your own code here to read data into a Spark dataframe
        return dataframe

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

특성 프로세서 SDK 데이터 소스

사용자 지정 데이터 소스 예제

쿠키 기본 설정 선택

쿠키 기본 설정 사용자 지정

필수

성능

기능

광고

쿠키 기본 설정을 저장할 수 없음

사용자 지정 데이터 소스

Related resources

페이지 내용이 도움이 되었습니까?

Related resources

다음 주제:

이전 주제:

도움이 필요하십니까?