기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
기준 생성
데이터 드리프트 및 기타 데이터 품질 문제를 감지할 수 있는 기준이 되는 표준으로 통계 및 제약 조건의 기준 계산이 필요합니다. 모델 모니터는 CSV 및 플랫 JSON 입력에 대한 제약 조건을 자동으로 제안할 수 있는 기능을 제공하는 내장 컨테이너를 제공합니다. 또한이 sagemaker-model-monitor-analyzer 컨테이너는 기준에 대한 제약 조건 검증, Amazon CloudWatch 지표 방출을 포함한 다양한 모델 모니터링 기능을 제공합니다. 이 컨테이너는 Spark 버전 3.3.0을 기반으로 하며 Deequ_
만 사용하세요.
모델을 훈련하는 데 사용한 훈련 데이터세트는 일반적으로 좋은 기준 데이터세트입니다. 훈련 데이터세트의 데이터 스키마와 추론 데이터세트 스키마는 정확히 일치해야 합니다(기능의 수와 순서). 예측/출력 열(들)은 훈련 데이터세트의 첫 번째 열로 간주됩니다. 훈련 데이터 세트에서 SageMaker AI에 기준 제약 조건 세트를 제안하고 기술 통계를 생성하여 데이터를 탐색하도록 요청할 수 있습니다. 이 예시의 경우 이 예시에 포함된 사전 훈련된 모델을 훈련하는 데 사용된 훈련 데이터세트를 업로드합니다. Amazon S3에 훈련 데이터세트를 이미 저장한 경우 해당 데이터세트를 직접 가리킬 수 있습니다.
훈련 데이터세트에서 기준을 생성하려면
훈련 데이터를 준비하고 Amazon S3에 저장한 경우 Amazon SageMaker Python SDKDefaultModelMonitor.suggest_baseline(..)
사용하여를 사용하여 기준 처리 작업을 시작합니다. Amazon SageMaker Model Monitor 사전 구축 컨테이너를 사용해 기준 통계를 생성하고, 데이터세트에 대한 기준 제약 조건을 제안하고, 사용자가 지정한 output_s3_uri
위치에 기록합니다.
from sagemaker.model_monitor import DefaultModelMonitor from sagemaker.model_monitor.dataset_format import DatasetFormat my_default_monitor = DefaultModelMonitor( role=role, instance_count=1, instance_type='ml.m5.xlarge', volume_size_in_gb=20, max_runtime_in_seconds=3600, ) my_default_monitor.suggest_baseline( baseline_dataset=baseline_data_uri+'/training-dataset-with-header.csv', dataset_format=DatasetFormat.csv(header=True), output_s3_uri=baseline_results_uri, wait=True )
참고
훈련 데이터 세트의 특징/열 이름을 첫 번째 행으로 제공하고 이전 코드 샘플과 같이 header=True
옵션을 설정하면 SageMaker AI는 제약 조건 및 통계 파일에 특징 이름을 사용합니다.
데이터세트에 대한 기준 통계는 statistics s.json 파일에 포함되어 있으며, 제안된 기준 제약 조건은 output_s3_uri
에서 지정한 위치의 constraints.json 파일에 포함되어 있습니다.
테이블 형식 데이터세트 통계 및 제약 조건의 출력 파일
파일 이름 | 설명 |
---|---|
statistics.json |
이 파일에는 분석되는 데이터세트의 각 기능에 대한 열 기반 통계가 있어야 합니다. 이 파일의 스키마에 대한 자세한 내용은 통계에 대한 스키마(statistics.json 파일)섹션을 참조하세요. |
constraints.json |
이 파일에는 관찰된 기능에 대한 제약 조건이 있어야 합니다. 이 파일의 스키마에 대한 자세한 내용은 제약 조건에 대한 스키마(constraints.json 파일)섹션을 참조하세요. |
Amazon SageMaker PythonSDKEnvironment
맵을 설정해야 합니다.
"Environment": { "dataset_format": "{\"csv\”: { \”header\”: true}", "dataset_source": "/opt/ml/processing/sm_input", "output_path": "/opt/ml/processing/sm_output", "publish_cloudwatch_metrics": "Disabled", }