기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
합성 데이터 세트
SageMaker Clarify는 커널 SHAP 알고리즘을 사용합니다. 레코드(샘플 또는 인스턴스라고도 함)와 SHAP 구성을 고려할 때 설명자는 먼저 합성 데이터 세트를 생성합니다. SageMaker Clarify는 모델 컨테이너에 데이터 세트 예측을 쿼리한 다음 특성 속성을 계산하고 반환합니다. 합성 데이터 세트의 크기는 Clarify의 설명자의 런타임에 영향을 줍니다. 큰 합성 데이터 세트는 작은 합성 데이터 세트보다 모델 예측을 얻는 데 더 많은 시간이 걸립니다.
합성 데이터 세트 크기는 다음 공식에 의해 결정됩니다.
Synthetic dataset size = SHAP baseline size * n_samples
SHAP 기준 크기는 SHAP 기준 데이터의 레코드 수입니다. 이 정보는 ShapBaselineConfig
에서 가져옵니다.
n_samples
의 크기는 설명자 구성의 파라미터 NumberOfSamples
와 기능 수에 따라 설정됩니다. 기능 수가 n_features
면 n_samples
는 다음과 같습니다.
n_samples = MIN(NumberOfSamples, 2^n_features - 2)
다음은 NumberOfSamples
가 제공되지 않는 경우 n_samples
를 보여줍니다.
n_samples = MIN(2*n_features + 2^11, 2^n_features - 2)
예를 들어 10개의 기능이 있는 테이블 형식 레코드의 SHAP 기준 크기는 1입니다. NumberOfSamples
가 제공되지 않는 경우 합성 데이터 세트에는 1022개의 레코드가 포함됩니다. 레코드에 20개의 기능이 있는 경우 합성 데이터 세트에는 2088개의 레코드가 포함됩니다.
NLP 문제의 경우 n_features
는 텍스트가 아닌 특성 수에 텍스트 단위 수를 더한 값과 같습니다.
참고
InvokeEndpoint
API 에는 요청 제한 시간이 있습니다. 합성 데이터 세트가 너무 크면 설명자가 이 한도 내에서 계산을 완료하지 못할 수 있습니다. 필요한 경우 이전 정보를 사용하여 SHAP 기준 크기 및 를 이해하고 줄입니다NumberOfSamples
. 모델 컨테이너가 배치 요청을 처리하도록 설정된 경우 MaxRecordCount
값을 조정할 수도 있습니다.