Ground Truth 레이블을 수집하여 예측과 병합 - Amazon SageMaker AI

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

Ground Truth 레이블을 수집하여 예측과 병합

모델 품질 모니터링은 모델의 품질을 측정하기 위해 해당 모델이 수행한 예측과 실측 레이블을 비교하게 됩니다. 이렇게 하려면, 엔드포인트에서 캡처된 데이터 또는 배치 변환 작업에 주기적으로 레이블을 지정한 다음 이를 Amazon S3에 업로드해야 합니다.

Ground Truth 레이블을 캡처된 예측 데이터와 일치시키려면, 해당 데이터 세트 내의 개별 레코드마다 고유한 식별자가 있어야 합니다. 실측 데이터에 대한 각 레코드의 구조는 다음과 같습니다.

{ "groundTruthData": { "data": "1", "encoding": "CSV" }, "eventMetadata": { "eventId": "aaaa-bbbb-cccc" }, "eventVersion": "0" }

groundTruthData 구조에서, eventId는 다음 중 하나일 수 있습니다.

  • eventId - 이 ID는 사용자가 엔드포인트를 호출할 때 자동으로 생성됩니다.

  • inferenceId – 발신자 측에서 엔드포인트를 호출할 때 이 ID를 제공합니다.

캡처된 데이터 레코드에 inferenceId가 있는 경우, Model Monitor는 이를 사용하여 캡처된 데이터를 Ground Truth 레코드와 병합합니다. 사용자는 Ground Truth 레코드에 있는 inferenceId가 캡처된 레코드에 포함된 inferenceId와 일치하는지 여부를 직접 확인해야 합니다. 만약 캡처된 데이터에 inferenceId가 없다면, 모델 모니터는 캡처된 데이터 레코드의 eventId를 사용하여 Ground Truth 레코드와 일치시키게 됩니다.

Ground Truth 데이터를 Amazon S3 버킷에 업로드할 때는 반드시 캡처된 데이터와 경로 형식이 동일해야 합니다.

데이터 형식 요구 사항

Amazon S3에 데이터를 저장할 때는 jsonlines 형식(.jsonl)을 사용하고 다음 명명 구조를 사용하여 저장해야 합니다. jsonline 요구 사항에 대한 자세한 내용은 입력 및 출력 데이터 사용 섹션을 참조하세요.

s3://amzn-s3-demo-bucket1/prefix/yyyy/mm/dd/hh

이 경로의 날짜는 Ground Truth 레이블이 수집된 날짜에 해당하며, 추론이 생성된 날짜와는 반드시 일치하지 않아도 됩니다.

Ground Truth 레이블을 생성하여 업로드를 마쳤다면, 모니터링 작업을 생성하는 단계에서 해당 레이블의 위치를 매개변수로 포함시키세요. 를 사용하는 경우 Ground Truth 레이블의 위치를 create_model_quality_job_definition 메서드 호출에서 GroundTruthS3Input 파라미터의 S3Uri 필드로 지정하여이 작업을 AWS SDK for Python (Boto3)수행합니다. SageMaker Python를 사용하는 경우 ModelQualityMonitor 객체의에 대한 호출에서 Ground Truth 레이블create_monitoring_schedule의 위치를 ground_truth_input 파라미터로 SDK지정합니다.