合成数据集 - 亚马逊 SageMaker AI

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

合成数据集

SageMaker Clarify 使用内核SHAP算法。给定记录(也称为样本或实例)和SHAP配置,解释器首先生成合成数据集。 SageMaker 然后,Clarify 在模型容器中查询数据集的预测,然后计算并返回特征属性。合成数据集的大小会对 Clarify 解释器的运行时间产生影响。与较小的合成数据集相比,较大的合成数据集需要更长时间来获得模型预测。

合成数据集的大小可以通过以下公式确定:

Synthetic dataset size = SHAP baseline size * n_samples

SHAP基线大小是SHAP基线数据中的记录数。此信息提取自 ShapBaselineConfig

n_samples 的大小由解释器配置中的参数 NumberOfSamples 和特征数量设置。如果特征数量为 n_features,则 n_samples 如下:

n_samples = MIN(NumberOfSamples, 2^n_features - 2)

如果未提供 NumberOfSamples,则下面会显示 n_samples

n_samples = MIN(2*n_features + 2^11, 2^n_features - 2)

例如,包含 10 个要素的表格记录的SHAP基线大小为 1。如果未提供 NumberOfSamples,则合成数据集包含 1022 个记录。如果记录有 20 个特征,则合成数据集包含 2088 个记录。

对于NLP问题,等n_features于非文本要素的数量加上文本单元的数量。

注意

InvokeEndpointAPI有请求超时限制。如果合成数据集太大,解释器可能无法在此时间限制内完成计算。如有必要,请使用先前的信息来了解和缩小SHAP基线大小,以及NumberOfSamples。如果您的模型容器设置为处理批处理请求,则您也可以调整 MaxRecordCount 的值。