합성 데이터 세트 - Amazon SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

합성 데이터 세트

SageMaker Clarify는 커널 SHAP 알고리즘을 사용합니다. 레코드(샘플 또는 인스턴스라고도 함)와 SHAP 구성을 고려할 때 설명자는 먼저 합성 데이터 세트를 생성합니다. SageMaker Clarify는 모델 컨테이너에 데이터 세트 예측을 쿼리한 다음 특성 속성을 계산하고 반환합니다. 합성 데이터 세트의 크기는 Clarify의 설명자의 런타임에 영향을 줍니다. 큰 합성 데이터 세트는 작은 합성 데이터 세트보다 모델 예측을 얻는 데 더 많은 시간이 걸립니다.

합성 데이터 세트 크기는 다음 공식에 의해 결정됩니다.

Synthetic dataset size = SHAP baseline size * n_samples

SHAP 기준 크기는 SHAP 기준 데이터의 레코드 수입니다. 이 정보는 ShapBaselineConfig에서 가져옵니다.

n_samples의 크기는 설명자 구성의 파라미터 NumberOfSamples와 기능 수에 따라 설정됩니다. 기능 수가 n_featuresn_samples는 다음과 같습니다.

n_samples = MIN(NumberOfSamples, 2^n_features - 2)

다음은 NumberOfSamples가 제공되지 않는 경우 n_samples를 보여줍니다.

n_samples = MIN(2*n_features + 2^11, 2^n_features - 2)

예를 들어 10개의 기능이 있는 테이블 형식 레코드의 SHAP 기준 크기는 1입니다. NumberOfSamples가 제공되지 않는 경우 합성 데이터 세트에는 1022개의 레코드가 포함됩니다. 레코드에 20개의 기능이 있는 경우 합성 데이터 세트에는 2088개의 레코드가 포함됩니다.

NLP 문제의 경우 n_features는 텍스트가 아닌 특성 수에 텍스트 단위 수를 더한 값과 같습니다.

참고

InvokeEndpoint API 에는 요청 제한 시간이 있습니다. 합성 데이터 세트가 너무 크면 설명자가 이 한도 내에서 계산을 완료하지 못할 수 있습니다. 필요한 경우 이전 정보를 사용하여 SHAP 기준 크기 및 를 이해하고 줄입니다NumberOfSamples. 모델 컨테이너가 배치 요청을 처리하도록 설정된 경우 MaxRecordCount 값을 조정할 수도 있습니다.