本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
使用 Amazon G SageMaker round Truth 使用人类训练数据标签
要训练机器学习模型,您需要一个大型、高质量的标注数据集。Ground Truth 有助于您为机器学习模型构建高质量的训练数据集。借助 Ground Truth,您可以将来自 Amazon Mechanical Turk、您选择的供应商公司或内部私有人力资源的工作人员与机器学习相结合,以便创建已标注的数据集。您可以使用从 Ground Truth 输出的已标注数据集来训练自己的模型。您也可以将输出用作 Amazon SageMaker 模型的训练数据集。
根据您的 ML 应用程序,您可以选择一种 Ground Truth 内置任务类型,以使工作人员为您的数据生成特定类型的标签。您也可以构建自定义标注工作流,以便为标注数据的工作人员提供您自己的 UI 和工具。要了解 Ground Truth 内置任务类型的更多信息,请参阅内置任务类型。要了解如何创建自定义标注工作流,请参阅自定义标签工作流程。
为了自动执行标注训练数据集的过程,您可以选择使用自动数据标注功能,这是一个使用机器学习来确定人们需要标注哪些数据的 Ground Truth 流程。自动数据标注功能可以减少所需的标注时间和人工操作。有关更多信息,请参阅 自动添加数据标签。要创建自定义标注工作流,请参阅自定义标签工作流程。
使用预构建或自定义工具为训练数据集分配标注任务。标注 UI 模板是一个网页,Ground Truth 使用该模板来向工作人员提供任务和说明。 SageMaker 控制台提供了用于标记数据的内置模板。您可以使用这些模板开始使用,也可以使用我们的 HTML 2.0 组件构建自己的任务和说明。有关更多信息,请参阅 自定义标签工作流程。
使用您选择的人力来标注数据集。您可以从以下选项中选择人力:
-
由世界各地超过 50 万独立承包商组成的 Amazon Mechanical Turk 人力。
-
您基于员工或承包商创建的用于处理组织内数据的私有人力。
-
您可以在中找到一家专门提供数据标签服务的供应商公司。 AWS Marketplace
有关更多信息,请参阅 人力。
您将数据集存储在 Amazon S3 存储桶中。存储桶包含三项内容:要标注的数据、Ground Truth 用于读取数据文件的输入清单文件,以及输出清单文件。输出文件包含标注作业的结果。有关更多信息,请参阅 使用输入和输出数据。
您的贴标任务中的事件会显示在 Amazon 的/aws/sagemaker/LabelingJobs
群组 CloudWatch 下。 CloudWatch 使用标注任务名称作为日志流的名称。
您是 Ground Truth 的新用户吗?
如果您是首次接触 Ground Truth 的用户,我们建议您执行以下操作:
-
阅读入门:使用 Ground Truth 创建边界框标签作业 – 本节将指导您完成设置第一个 Ground Truth 标注作业的过程。
-
探索其他主题 – 根据您的需求,执行以下操作:
-
探索内置任务类型 – 使用内置任务类型简化标注作业的创建过程。要了解 Ground Truth 内置任务类型的更多信息,请参阅内置任务类型。
-
管理标注人力 – 创建新的工作团队和管理您的现有人力。有关更多信息,请参阅 人力。
-
了解流式标注作业 – 创建流式标注作业,并使用持续运行的标注作业实时向工作人员发送新的数据集对象。只要标注作业处于活动状态,并且有新的对象被发送给该作业,工作人员就会不断接收要标注的新数据对象。要了解更多信息,请参阅 Ground Truth 直播标签职位。
-
-
要了解有关自动执行 Ground Truth 操作的可用操作的更多信息,请参阅SageMaker 服务API参考。