데이터 품질 - Amazon SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

데이터 품질

데이터 품질 모니터링은 프로덕션 환경의 기계 학습(ML) 모델을 자동으로 모니터링하여 데이터 품질 문제가 발생할 때 사용자에게 알립니다. 프로덕션 환경의 ML 모델은 대부분의 훈련 데이터 세트에서와 같이 신중하게 선별되지 않은 실제 데이터를 예측해야 합니다. 프로덕션 환경에서 모델이 수신하는 데이터의 통계적 속성이 훈련 받은 기준 데이터의 속성과 멀어지면 모델의 예측 정확도가 떨어지기 시작합니다. Amazon SageMaker Model Monitor는 규칙을 사용하여 데이터 드리프트를 감지하고 발생 시 사용자에게 알립니다. 데이터 품질을 모니터링하려면 다음 단계를 따르세요.

  • 데이터 캡처를 활성화합니다. 이는 실시간 추론 엔드포인트 또는 배치 변환 작업에서 추론 입력 및 출력을 캡처한 다음, 해당 데이터를 Amazon S3에 저장합니다. 자세한 내용은 데이터 캡처섹션을 참조하세요.

  • 기준을 생성합니다. 이 단계에서는 제공하는 입력 데이터 세트를 분석하는 기준 작업을 실행합니다. 기준은 대규모 데이터 세트에서 데이터 품질을 측정하는 데 사용되는 Apache Spark를 토대로 빌드된 오픈 소스 라이브러리인 Deequ를 사용하여 각 기능에 대한 기준 스키마 제약 조건 및 통계를 계산합니다. 자세한 내용은 기준 생성섹션을 참조하세요.

  • 데이터 품질 모니터링 작업을 정의하고 스케줄링합니다. 데이터 품질 모니터링 작업에 대한 특정 정보 및 코드 샘플은 데이터 품질 모니터링 작업 스케줄링섹션을 참조하세요. 작업 모니터링에 대한 일반적인 내용은 모니터링 작업 일정 예약섹션을 참조하세요.

    • 선택적으로 전처리 및 후처리 스크립트를 사용하여 데이터 품질 분석에서 나오는 데이터를 변환할 수 있습니다. 자세한 내용은 사전 처리 및 사후 처리섹션을 참조하세요.

  • 데이터 품질 지표를 확인합니다. 자세한 내용은 통계에 대한 스키마(statistics.json 파일) 단원을 참조하십시오.

  • Amazon 와 데이터 품질 모니터링을 통합합니다 CloudWatch. 자세한 내용은 CloudWatch 지표 단원을 참조하십시오.

  • 모니터링 작업의 결과물을 해석합니다. 자세한 내용은 결과 해석 단원을 참조하십시오.

  • 실시간 엔드포인트를 사용하는 경우 SageMaker Studio를 사용하여 데이터 품질 모니터링을 활성화하고 결과를 시각화할 수 있습니다. 자세한 내용은 Amazon SageMaker Studio에서 실시간 엔드포인트에 대한 결과 시각화 단원을 참조하십시오.

참고

모델 모니터는 테이블 형식 데이터에 대해서만 모델 지표와 통계를 계산합니다. 예를 들어, 이미지를 입력으로 받아 이미지 기반의 레이블을 출력하는 이미지 분류 모델을 모니터링할 수 있습니다. 모델 모니터는 입력이 아닌 출력에 대한 지표와 통계를 계산할 수 있습니다.