기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
다음 지침은 Amazon SageMaker SageMaker Autopilot 작업을 생성하는 방법을 보여줍니다. https://docs.aws.amazon.com/sagemaker/latest/dg/autopilot-reference.html
참고
텍스트 및 이미지 분류, 시계열 예측, 대형 언어 모델 미세 조정과 같은 작업은 2 버전의 AutoML REST API를 통해서만 사용할 수 있습니다. 선택한 언어가 Python인 경우 Amazon SageMaker Python SDK의 AWS SDK for Python (Boto3)
편리한 사용자 인터페이스를 선호하는 사용자는 Amazon SageMaker Canvas를 사용하여 사전 훈련된 모델, 생성형 AI 기반 모델에 액세스하거나 특정 텍스트, 이미지 분류 또는 예측 요구 또는 생성형 AI에 맞춘 사용자 지정 모델을 생성할 수 있습니다.
Amazon SageMaker Autopilot 또는 AWS CLI에서 지원하는 모든 언어로 CreateAutoMLJobV2
API 작업을 호출하여 프로그래밍 방식으로 Autopilot 텍스트 분류 실험을 생성할 수 있습니다.
이 API 작업이 선택한 언어의 함수로 변환되는 방식에 대한 자세한 내용은 CreateAutoMLJobV2
의 추가 참고 사항 섹션 및 SDK 선택을 참조하세요. 예를 들어, Python 사용자의 경우 AWS SDK for Python (Boto3)에서 create_auto_ml_job_v2
의 전체 요청 구문을 참조하세요.
다음은 텍스트 분류에 사용되는 CreateAutoMLJobV2
API 작업에 대한 필수 및 선택적 입력 요청 파라미터 모음입니다.
필수 파라미터
텍스트 분류를 위한 Autopilot 실험을 만들기 위해 CreateAutoMLJobV2
를 호출할 때는 다음 값을 제공해야 합니다.
-
작업 이름을 지정하기 위한
AutoMLJobName
. -
데이터 소스를 지정하려면
AutoMLJobInputDataConfig
에서 하나 이상의AutoMLJobChannel
. -
AutoML 작업의 아티팩트를 저장할 Amazon S3 출력 경로를 지정하기 위한
OutputDataConfig
. -
데이터 액세스에 사용되는 역할의 ARN을 지정하기 위한
RoleArn
.
다른 모든 파라미터는 선택 사항입니다.
선택적 파라미터
다음 섹션에서는 텍스트 분류 AutoML 작업에 전달할 수 있는 몇 가지 선택적 파라미터에 대해 자세히 설명합니다.
자체 검증 데이터세트와 사용자 지정 데이터 분할 비율을 제공하거나 Autopilot이 데이터세트를 자동으로 분할하도록 할 수 있습니다.
각 AutoMLJobChannel
개체(필수 파라미터 AutoMLJobinputDataConfig 참조)에는 기계 학습 모델을 구축할 때 데이터를 사용하는 방법을 지정하는 값 중 training
또는 validation
으로 설정할 수 있는 ChannelType
이 있습니다.
데이터 소스를 하나 이상 제공해야 하며 훈련 데이터용 및 검증 데이터용으로 최대 두 개의 데이터 소스가 허용됩니다. 데이터를 훈련 및 검증 데이터세트로 분할하는 방법은 데이터 원본이 하나 또는 두 개인지 여부에 따라 달라집니다.
데이터를 훈련 및 검증 데이터세트로 분할하는 방법은 데이터 원본이 한 개 또는 두 개인지에 따라 달라집니다.
-
데이터 소스가 하나뿐인 경우
ChannelType
은 기본적으로training
으로 설정되며 이 값을 가져야 합니다.-
AutoMLDataSplitConfig
의ValidationFraction
값이 설정되지 않은 경우, 기본적으로 이 소스의 데이터 중 0.2(20%)가 검증에 사용됩니다. -
ValidationFraction
을 0과 1 사이의 값으로 설정하면 데이터세트가 지정된 값을 기준으로 분할됩니다. 여기서 값은 검증에 사용되는 데이터세트의 비율을 지정합니다.
-
-
데이터 소스가 두 개 있는 경우,
AutoMLJobChannel
개체 중 하나의ChannelType
을 기본값인training
으로 설정해야 합니다. 다른 데이터 소스의ChannelType
은validation
으로 설정해야 합니다. 두 데이터 소스는 CSV 또는 Parquet으로 형식이 같고 스키마가 같아야 합니다. 각 소스의 모든 데이터가 훈련 또는 검증에 사용되므로 이 경우에ValidationFraction
에 대한 값을 설정하지 않아야 합니다. 이 값을 설정하면 오류가 발생합니다.
AutoML 작업에 최적의 모델 후보에 대한 자동 배포를 활성화하려면, AutoML 작업 요청에 ModelDeployConfig
을 포함하세요. 이렇게 하면 SageMaker AI 엔드포인트에 최상의 모델을 배포할 수 있습니다. 다음은 사용자 지정에 사용할 수 있는 구성입니다.
-
Autopilot이 엔드포인트 이름을 생성하도록 하려면
AutoGenerateEndpointName
을True
로 설정합니다. -
엔드포인트에 고유한 이름을 제공하려면
AutoGenerateEndpointName to
을 설정하세요.False
and provide a name of your choice in EndpointName