本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
改进 Amazon Rekognition Custom Labels 模型
机器学习模型的性能在很大程度上取决于诸如以下的因素:您的自定义标签(您感兴趣的特定物体和场景)的复杂性和可变性、您提供的训练数据集的质量和代表性,以及用于训练模型的模型框架和机器学习方法。
Amazon Rekognition Custom Labels 简化了这个过程,而且不要求您具备任何机器学习专业知识。但是,构建优质模型的过程通常涉及数据迭代和模型改进,以实现所需的性能。以下是有关如何改进模型的信息。
数据
通常,可以使用更多更优质的数据来提高模型的质量。使用清晰显示物体或场景且不包含不需要的杂乱物品的训练图像。对于物体周围的边界框,请使用所包含的物体完全可见且未被其他物体遮挡的训练图像。
确保您的训练和测试数据集与您最终要对其运行推理的图像的类型匹配。对于只有几个训练示例的物体(例如徽标),则应在测试图像中的徽标周围提供边界框。这些图像代表或描绘了您想要在其中定位物体的场景。
要向训练或测试数据集中添加更多图像,请参阅向数据集中添加更多图像。
减少假正例(更高的精度)
-
首先,检查提高假设阈值是否可以保持正确的预测,同时减少假正例。在某个时刻,由于给定模型的精度和召回率之间的权衡,这种做法的收益会递减。您无法为标签设置假设阈值,但可以通过为
DetectCustomLabels
的MinConfidence
输入参数指定一个较高的值来达到相同的效果。有关更多信息,请参阅 使用经过训练的模型分析图像。 -
您可能会看到一个或多个您感兴趣的自定义标签 (A) 一直与同一类物体(但不是您感兴趣的标签)(B) 混淆。为了帮助改进此问题,请将 B 作为物体类别标签添加到训练数据集(以及获得假正例的图像)。实际上,您是在通过新的训练图像帮助模型学会预测 B 而不是 A。要向训练数据集中添加图像,请参阅向数据集中添加更多图像。
-
您可能会发现模型被两个自定义标签(A 和 B)所混淆:具有标签 A 的测试图像被预测为具有标签 B,反之亦然。在这种情况下,请先检查训练集和测试集中是否有错误标注的图像。使用数据集库管理分配给数据集的标签。有关更多信息,请参阅 管理标签。此外,添加更多与此类混淆相关的训练图像将有助于重新训练的模型更好地区分 A 和 B。要向训练数据集添加图像,请参阅向数据集中添加更多图像。
减少假负例(更好的召回率)
-
使用较低的假设阈值。您无法为标签设置假设阈值,但可以通过为
DetectCustomLabels
指定一个较低的MinConfidence
输入参数来达到相同的效果。有关更多信息,请参阅 使用经过训练的模型分析图像。 -
使用更好的示例对物体及其出现的图像的多样性进行建模。
-
将标签分成两个更容易学习的类别。例如,您可能想要的不是好饼干和坏饼干,而是好饼干、烧焦的饼干和碎了的饼干,以帮助模型更好地学习每个独特的概念。