本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
量产模型的偏差漂移
Ama SageMaker zon Clarify 偏差监控可帮助数据科学家和机器学习工程师定期监控偏差预测。在监控模型时,客户可以在 SageMaker Studio 中查看详细说明偏差的可导出报告和图表,并在 Amazon 中配置警报, CloudWatch 以便在检测到偏差超过特定阈值时接收通知。当训练数据与模型在部署期间看到的数据(即实时数据)不同时,就会在部署的机器学习模型中引入或加剧偏差。实时数据分布中的这些变化可能是暂时的(例如,由于一些短暂的真实事件),也可能是永久的。无论哪种情况,检测这些变化都可能很重要。例如,如果用于训练该模型的抵押贷款利率与当前的现实世界抵押贷款利率不同,则预测房价模型的输出可能会出现偏差。借助 Model Monitor 中的偏差检测功能,当 SageMaker 检测到超过特定阈值的偏差时,它会自动生成指标,您可以在 SageMaker Studio 中或通过 Amazon CloudWatch 提醒查看这些指标。
通常,仅在 train-and-deploy相位期间测量偏差可能还不够。部署模型后,部署的模型所看到的数据(即实时数据)分布可能不同于训练数据集中的数据分布。随着时间的推移,这种变化可能会在模型中引入偏差。实时数据分布的变化可能是暂时的(例如,由于某些短暂的行为,例如假日季),也可能是永久的。无论哪种情况,检测这些变化并适时采取措施减少偏差可能都很重要。
为了检测这些变化,C SageMaker larify 提供了持续监控已部署模型的偏差指标的功能,并在指标超过阈值时自动发出警报。例如,考虑DPPL偏差指标。指定允许的值 A= (amin, amax) 范围,例如间隔 (-0.1, 0.1),该范围DPPL应属于部署期间。任何偏离此范围的偏差都应引发检测到偏差 警报。使用 SageMaker Clarify,您可以定期执行这些检查。
例如,您可以将检查频率设置为 2 天。这意味着 C SageMaker larify 会根据在 2 天窗口内收集的数据计算DPPL指标。在本例中,Dwin 是模型在上一个 2 天时限内处理的数据。如果在 D win 上win计算的DPPL值 b 超出允许范围 A,则会发出警报。这种检查 b win 是否在 A 之外的方法可能会有些噪音。Dwin 可能由很少的样本组成,可能无法代表实时数据分布。样本量小意味着根据 Dwin 计算出的偏差 bwin 值可能不是一个非常可靠的估计值。实际上,观察到的极高(或极低)bwin 值可能纯属偶然。为了确保从观测数据 D win 中得出的结论具有统计学意义,Clarif SageMaker y 使用了置信区间。具体而言,它使用正常引导间隔方法来构造区间 C= (cmin, cmax),这样 Clarify 确信根据完整实时数据计算的真实偏差值很可能包含在 C 中。 SageMaker 现在,如果置信区间 C 与允许的范围 A 重叠, SageMaker Clarify 会将其解释为 “实时数据分布的偏差指标值很可能在允许的范围内”。如果 C 和 A 不相交,Cl SageMaker arify 确信偏差指标不在 A 中,因此会发出警报。
Model Monitor 示例笔记本
Ama SageMaker zon Clarify 提供了以下示例笔记本,展示了如何捕获实时终端节点的推理数据,如何创建基线以监控不断变化的偏见,以及如何检查结果:
-
监控偏见漂移和特征归因偏差 Amazon Cl SageMaker arif
y — 使用 Amazon SageMaker 模型监视器监控偏差和特征归因偏差随时间推移而发生的偏差偏移和特
本笔记本经过验证,只能在 Amazon SageMaker Studio 中运行。如果您需要有关如何在 Amazon SageMaker Studio 中打开笔记本的说明,请参阅创建或打开 Amazon SageMaker Studio 经典笔记本电脑。如果系统提示您选择内核,请选择 Python 3 (Data Science)。以下主题包含最后两个步骤的重点内容,并包含示例笔记本中的代码示例。