기준 생성 - Amazon SageMaker AI

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

기준 생성

데이터 드리프트 및 기타 데이터 품질 문제를 감지할 수 있는 기준이 되는 표준으로 통계 및 제약 조건의 기준 계산이 필요합니다. 모델 모니터는 CSV 및 플랫 JSON 입력에 대한 제약 조건을 자동으로 제안할 수 있는 기능을 제공하는 내장 컨테이너를 제공합니다. 또한이 sagemaker-model-monitor-analyzer 컨테이너는 기준에 대한 제약 조건 검증, Amazon CloudWatch 지표 방출을 포함한 다양한 모델 모니터링 기능을 제공합니다. 이 컨테이너는 Spark 버전 3.3.0을 기반으로 하며 Deequ 버전 2.0.2를 사용하여 구축되었습니다. 기준 데이터세트의 모든 열 이름은 Spark와 호환되어야 합니다. 열 이름의 경우 소문자만 사용하고 특수 문자로는 _만 사용하세요.

모델을 훈련하는 데 사용한 훈련 데이터세트는 일반적으로 좋은 기준 데이터세트입니다. 훈련 데이터세트의 데이터 스키마와 추론 데이터세트 스키마는 정확히 일치해야 합니다(기능의 수와 순서). 예측/출력 열(들)은 훈련 데이터세트의 첫 번째 열로 간주됩니다. 훈련 데이터 세트에서 SageMaker AI에 기준 제약 조건 세트를 제안하고 기술 통계를 생성하여 데이터를 탐색하도록 요청할 수 있습니다. 이 예시의 경우 이 예시에 포함된 사전 훈련된 모델을 훈련하는 데 사용된 훈련 데이터세트를 업로드합니다. Amazon S3에 훈련 데이터세트를 이미 저장한 경우 해당 데이터세트를 직접 가리킬 수 있습니다.

훈련 데이터세트에서 기준을 생성하려면

훈련 데이터를 준비하고 Amazon S3에 저장한 경우 Amazon SageMaker Python SDKDefaultModelMonitor.suggest_baseline(..) 사용하여를 사용하여 기준 처리 작업을 시작합니다. Amazon SageMaker Model Monitor 사전 구축 컨테이너를 사용해 기준 통계를 생성하고, 데이터세트에 대한 기준 제약 조건을 제안하고, 사용자가 지정한 output_s3_uri위치에 기록합니다.

from sagemaker.model_monitor import DefaultModelMonitor from sagemaker.model_monitor.dataset_format import DatasetFormat my_default_monitor = DefaultModelMonitor( role=role, instance_count=1, instance_type='ml.m5.xlarge', volume_size_in_gb=20, max_runtime_in_seconds=3600, ) my_default_monitor.suggest_baseline( baseline_dataset=baseline_data_uri+'/training-dataset-with-header.csv', dataset_format=DatasetFormat.csv(header=True), output_s3_uri=baseline_results_uri, wait=True )
참고

훈련 데이터 세트의 특징/열 이름을 첫 번째 행으로 제공하고 이전 코드 샘플과 같이 header=True 옵션을 설정하면 SageMaker AI는 제약 조건 및 통계 파일에 특징 이름을 사용합니다.

데이터세트에 대한 기준 통계는 statistics s.json 파일에 포함되어 있으며, 제안된 기준 제약 조건은 output_s3_uri에서 지정한 위치의 constraints.json 파일에 포함되어 있습니다.

테이블 형식 데이터세트 통계 및 제약 조건의 출력 파일

파일 이름 설명
statistics.json

이 파일에는 분석되는 데이터세트의 각 기능에 대한 열 기반 통계가 있어야 합니다. 이 파일의 스키마에 대한 자세한 내용은 통계에 대한 스키마(statistics.json 파일)섹션을 참조하세요.

constraints.json

이 파일에는 관찰된 기능에 대한 제약 조건이 있어야 합니다. 이 파일의 스키마에 대한 자세한 내용은 제약 조건에 대한 스키마(constraints.json 파일)섹션을 참조하세요.

Amazon SageMaker PythonSDK은 기준 통계 및 제약 조건을 생성하는 데 설명된 편의 함수를 제공합니다. 하지만 이러한 목적을 위해 직접 처리 작업을 호출하려는 경우에는 다음 예시에서와 같이 Environment맵을 설정해야 합니다.

"Environment": { "dataset_format": "{\"csv\”: { \”header\”: true}", "dataset_source": "/opt/ml/processing/sm_input", "output_path": "/opt/ml/processing/sm_output", "publish_cloudwatch_metrics": "Disabled", }