本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
注释合并
一个注释是单个工作人员的标注任务的结果。注释合并将两个或更多工作人员的注释合并到数据对象的单个标签中。分配给数据集中每个对象的标签是对标签的真实情况的概率估计。数据集中的每个对象通常具有多个注释,但只有一个或一组标签。
您可以决定数据集中的每个对象应该由多少个工作人员进行注释。工作人员越多,越可以提高标签的准确性,但也会增加标注的成本。要了解有关 Ground Truth 定价的更多信息,请参阅亚马逊 G SageMaker round Truth 定价
如果您使用 Amazon SageMaker 控制台创建标签任务,则以下是可以为对象添加注释的工作人员数量的默认值:
-
文本分类 – 3 个工作人员
-
图像分类 – 3 个工作人员
-
边界框 – 5 个工作人员
-
语义分割 – 3 个工作人员
-
指定实体识别 – 3 个工作人员
当您使用 CreateLabelingJob
操作时,使用 NumberOfHumanWorkersPerDataObject
参数设置对每个数据对象进行注释的工作人员数量。您可以使用控制台或 CreateLabelingJob
操作来覆盖对数据对象进行注释的默认工作人员数量。
Ground Truth 为其每个预定义标注任务提供一个注释合并函数:边界框、图像分类、名称实体识别、语义分割和文本分类。这些函数如下所示:
-
图像和文本分类的多类注释合并对注释使用期望最大化
方法的变体。它估计每个工作人员的参数,并使用贝叶斯推理方法,根据每个工作人员的类注释来估计真实类。 -
边界框注释可合并来自多个工作人员的边界框。该函数根据边界框的 Jaccard 指数
(或交并比)查找来自不同工作人员的最相似的边界框,并计算它们的平均值。 -
语义分割注释合并将单个图像中的每个像素视为一个多类分类。该函数将来自工作人员的像素注释视为“投票”,并将平滑函数应用于图像以包含来自周围像素的更多信息。
-
指定实体识别按照 Jaccard 相似度聚类文本选择,并根据模式计算选择边界;如果模式不明确,则计算中值。标签解析为聚类中具有最多分配的实体标签,通过随机选择来中断绑定。
您可以使用其他算法来合并注释。有关信息,请参阅创建注释合并函数。