쿠키 기본 설정 선택

당사는 사이트와 서비스를 제공하는 데 필요한 필수 쿠키 및 유사한 도구를 사용합니다. 고객이 사이트를 어떻게 사용하는지 파악하고 개선할 수 있도록 성능 쿠키를 사용해 익명의 통계를 수집합니다. 필수 쿠키는 비활성화할 수 없지만 '사용자 지정' 또는 ‘거부’를 클릭하여 성능 쿠키를 거부할 수 있습니다.

사용자가 동의하는 경우 AWS와 승인된 제3자도 쿠키를 사용하여 유용한 사이트 기능을 제공하고, 사용자의 기본 설정을 기억하고, 관련 광고를 비롯한 관련 콘텐츠를 표시합니다. 필수가 아닌 모든 쿠키를 수락하거나 거부하려면 ‘수락’ 또는 ‘거부’를 클릭하세요. 더 자세한 내용을 선택하려면 ‘사용자 정의’를 클릭하세요.

기준 생성

포커스 모드
기준 생성 - Amazon SageMaker AI

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

데이터 드리프트 및 기타 데이터 품질 문제를 감지할 수 있는 기준이 되는 표준으로 통계 및 제약 조건의 기준 계산이 필요합니다. 모델 모니터는 CSV 및 플랫 JSON 입력에 대한 제약 조건을 자동으로 제안할 수 있는 기능을 제공하는 내장 컨테이너를 제공합니다. 또한 이 sagemaker-model-monitor-analyzer 컨테이너는 기준과 비교한 제약 조건 검증, Amazon CloudWatch 지표 내보내기 등 다양한 모델 모니터링 기능을 제공합니다. 이 컨테이너는 Spark 버전 3.3.0을 기반으로 하며 Deequ 버전 2.0.2를 사용하여 구축되었습니다. 기준 데이터세트의 모든 열 이름은 Spark와 호환되어야 합니다. 열 이름의 경우 소문자만 사용하고 특수 문자로는 _만 사용하세요.

모델을 훈련하는 데 사용한 훈련 데이터세트는 일반적으로 좋은 기준 데이터세트입니다. 훈련 데이터세트의 데이터 스키마와 추론 데이터세트 스키마는 정확히 일치해야 합니다(기능의 수와 순서). 예측/출력 열(들)은 훈련 데이터세트의 첫 번째 열로 간주됩니다. 훈련 데이터 세트에서 SageMaker AI에 기준 제약 조건 세트를 제안하고 데이터를 탐색하기 위한 기술 통계를 생성하도록 요청할 수 있습니다. 이 예시의 경우 이 예시에 포함된 사전 훈련된 모델을 훈련하는 데 사용된 훈련 데이터세트를 업로드합니다. Amazon S3에 훈련 데이터세트를 이미 저장한 경우 해당 데이터세트를 직접 가리킬 수 있습니다.

훈련 데이터세트에서 기준을 생성하려면

훈련 데이터를 준비하고 Amazon S3에 저장했으면 Amazon SageMaker Python SDK를 사용하여 DefaultModelMonitor.suggest_baseline(..)으로 기본 처리 작업을 시작합니다. Amazon SageMaker Model Monitor 사전 구축 컨테이너를 사용해 기준 통계를 생성하고, 데이터세트에 대한 기준 제약 조건을 제안하고, 사용자가 지정한 output_s3_uri위치에 기록합니다.

from sagemaker.model_monitor import DefaultModelMonitor from sagemaker.model_monitor.dataset_format import DatasetFormat my_default_monitor = DefaultModelMonitor( role=role, instance_count=1, instance_type='ml.m5.xlarge', volume_size_in_gb=20, max_runtime_in_seconds=3600, ) my_default_monitor.suggest_baseline( baseline_dataset=baseline_data_uri+'/training-dataset-with-header.csv', dataset_format=DatasetFormat.csv(header=True), output_s3_uri=baseline_results_uri, wait=True )
참고

훈련 데이터 세트의 특성/열 이름을 첫 번째 행으로 제공하고 이전 코드 샘플과 같이 header=True 옵션을 설정하면 SageMaker AI는 제약 조건 및 통계 파일에 특성 이름을 사용합니다.

데이터세트에 대한 기준 통계는 statistics s.json 파일에 포함되어 있으며, 제안된 기준 제약 조건은 output_s3_uri에서 지정한 위치의 constraints.json 파일에 포함되어 있습니다.

테이블 형식 데이터세트 통계 및 제약 조건의 출력 파일

파일 이름 설명
statistics.json

이 파일에는 분석되는 데이터세트의 각 기능에 대한 열 기반 통계가 있어야 합니다. 이 파일의 스키마에 대한 자세한 내용은 통계에 대한 스키마(statistics.json 파일)섹션을 참조하세요.

constraints.json

이 파일에는 관찰된 기능에 대한 제약 조건이 있어야 합니다. 이 파일의 스키마에 대한 자세한 내용은 제약 조건에 대한 스키마(constraints.json 파일)섹션을 참조하세요.

Amazon SageMaker Python SDK는 기준 통계 및 제약 조건을 생성하기 위해 설명된 편의 기능을 제공합니다. 하지만 이러한 목적을 위해 직접 처리 작업을 호출하려는 경우에는 다음 예시에서와 같이 Environment맵을 설정해야 합니다.

"Environment": { "dataset_format": "{\"csv\”: { \”header\”: true}", "dataset_source": "/opt/ml/processing/sm_input", "output_path": "/opt/ml/processing/sm_output", "publish_cloudwatch_metrics": "Disabled", }
프라이버시사이트 이용 약관쿠키 기본 설정
© 2025, Amazon Web Services, Inc. 또는 계열사. All rights reserved.