쿠키 기본 설정 선택

당사는 사이트와 서비스를 제공하는 데 필요한 필수 쿠키 및 유사한 도구를 사용합니다. 고객이 사이트를 어떻게 사용하는지 파악하고 개선할 수 있도록 성능 쿠키를 사용해 익명의 통계를 수집합니다. 필수 쿠키는 비활성화할 수 없지만 '사용자 지정' 또는 ‘거부’를 클릭하여 성능 쿠키를 거부할 수 있습니다.

사용자가 동의하는 경우 AWS와 승인된 제3자도 쿠키를 사용하여 유용한 사이트 기능을 제공하고, 사용자의 기본 설정을 기억하고, 관련 광고를 비롯한 관련 콘텐츠를 표시합니다. 필수가 아닌 모든 쿠키를 수락하거나 거부하려면 ‘수락’ 또는 ‘거부’를 클릭하세요. 더 자세한 내용을 선택하려면 ‘사용자 정의’를 클릭하세요.

사용자 지정 데이터 소스

포커스 모드
사용자 지정 데이터 소스 - Amazon SageMaker AI

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

이 페이지에서는 사용자 지정 데이터 소스 클래스를 만드는 방법을 설명하고 몇 가지 사용 예를 보여줍니다. 사용자 지정 데이터 소스를 사용하면 Amazon SageMaker 특성 저장소에서 제공하는 데이터 소스를 사용하는 것과 동일한 방식으로 Amazon SageMaker AI SDK for Python(Boto3) 제공 APIs를 사용할 수 있습니다.

특성 처리를 통해 사용자 지정 데이터 소스를 사용하여 데이터를 특성 그룹으로 변환하고 수집하려면 다음 클래스 멤버 및 함수로 PySparkDataSource클래스를 확장해야 합니다.

  • data_source_name (str): 데이터 소스의 임의 이름입니다. Amazon Redshift, Snowflake, 또는 Glue Catalog ARN을 예로 들 수 있습니다.

  • data_source_unique_id (str): 액세스 중인 특정 리소스를 가리키는 고유 식별자입니다. 테이블 이름, DDB 테이블 ARN, Amazon S3 접두사를 예로 들 수 있습니다. 사용자 지정 데이터 소스에서 동일한 data_source_unique_id를 사용하는 경우 계보 보기의 동일한 데이터 소스에 모두 연결됩니다. 계보에는 특성 처리 워크플로의 실행 코드, 사용된 데이터 소스, 이러한 데이터 소스가 특성 그룹 또는 특성에 통합되는 방식에 대한 정보가 포함됩니다. Studio에서 특성 그룹의 계보를 보는 방법에 대한 자세한 내용은 콘솔에서 계보 보기 섹션을 참조하세요.

  • read_data (func): 특성 프로세서와 연결하는 데 사용되는 메서드입니다. Spark 데이터 프레임을 반환합니다. 예를 보려면 사용자 지정 데이터 소스 예제섹션을 참조하세요.

data_source_namedata_source_unique_id는 모두 계보 엔티티를 고유하게 식별하는 데 사용됩니다. 다음은 이름이 CustomDataSource인 사용자 지정 데이터 소스 클래스의 예입니다.

from sagemaker.feature_store.feature_processor import PySparkDataSource from pyspark.sql import DataFrame class CustomDataSource(PySparkDataSource): data_source_name = "custom-data-source-name" data_source_unique_id = "custom-data-source-id" def read_data(self, parameter, spark) -> DataFrame: your own code here to read data into a Spark dataframe return dataframe
프라이버시사이트 이용 약관쿠키 기본 설정
© 2025, Amazon Web Services, Inc. 또는 계열사. All rights reserved.