向流式标注任务发送数据 - Amazon SageMaker

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

向流式标注任务发送数据

使用输入清单文件创建流式标注作业时,您可以选择一次性向该作业提交输入数据。标签任务启动且状态为后InProgress,您可以使用 Amazon SNS 输入主题和 Amazon S3 事件通知实时向标签作业提交新的数据对象。

启动标注作业时提交数据对象(一次性):

  • 使用输入清单文件 — 在创建流式标签任务ManifestS3Uri时,您可以选择在其中指定 Amazon S3 URI 中的输入清单文件。在标注作业开始后,Ground Truth 会立即将清单文件中的每个数据对象发送给工作人员以进行标注。要了解更多信息,请参阅创建清单文件(可选)

    提交创建流式标注作业的请求后,作业状态将为 Initializing。标注作业处于活动状态后,状态将更改为 InProgress,您可以开始使用实时选项提交其他数据对象以进行标注。

实时提交数据对象:

  • 使用亚马逊SNS消息发送数据对象 — 您可以通过发送亚马逊消息来向 Ground Truth 发送要标记的新数据对象。SNS您将向您在创建流媒体标签任务时创建和指定的亚马逊SNS输入主题发送此消息。有关更多信息,请参阅 使用 Amazon 发送数据对象 SNS

  • 通过将数据对象放入 Amazon S3 存储桶来发送数据对象 – 每次向 Amazon S3 存储桶添加新数据对象时,都可以提示 Ground Truth 处理该对象以进行标注。为此,您需要向存储桶添加事件通知,以便每次向该存储桶添加(或在其中创建)新对象时,它都会通知您的 Amazon SNS 输入主题。有关更多信息,请参阅 使用 Amazon S3 发送数据对象。此选项不适用于基于文本的标注作业,例如文本分类和命名实体识别。

    重要

    如果您使用 Amazon S3 配置,请不要将相同的 Amazon S3 位置用于输入数据配置和输出数据。在创建标注作业时,可以为输出数据指定 S3 前缀。

使用 Amazon 发送数据对象 SNS

您可以使用亚马逊简单通知服务 (AmazonSNS) 将数据对象发送到您的流媒体标签任务。Amazon SNS 是一项网络服务,用于协调和管理与终端节点(例如,电子邮件地址或 AWS Lambda 函数)之间的消息传输。Amazon SNS 主题充当两个或多个终端节点之间的通信渠道。您可以使用 Amazon SNS 向CreateLabelingJob参数SnsTopicArn中指定的主题发送或发布新的数据对象InputConfig。这些消息的格式与输入清单文件的单行格式相同。

例如,您可以将一段文本发布到输入主题,从而将其发送到活动文本分类标注作业。您发布的消息可能类似于以下内容:

{"source": "Lorem ipsum dolor sit amet"}

要将新的图像对象发送到图像分类标注作业,您的消息可能类似于以下内容:

{"source-ref": "s3://amzn-s3-demo-bucket/example-image.jpg"}
注意

您还可以在您的 Ama SNS zon 消息中包含自定义重复数据删除IDs和重复数据删除密钥。要了解更多信息,请参阅 重复消息处理

当 Ground Truth 创建你的直播标签任务时,它会订阅你的亚马逊SNS输入主题。

使用 Amazon S3 发送数据对象

您可以将一个或多个新数据对象放入配置有 Amazon SNS 事件通知的 Amazon S3 存储桶中,将它们发送到流式标签任务。您可以设置一个事件,以便在您的存储桶中创建新对象时通知您的 Amazon SNS 输入主题。您必须在中的CreateLabelingJob参数SnsTopicArn中指定相同的 Amazon SNS 输入主题InputConfig

无论何时您将 Amazon S3 存储桶配置为向亚马逊发送通知SNS,Ground Truth 都会发布测试事件,以确保主题存在且指定的 Amazon S3 存储桶的所有者有权向指定主题发布消息。"s3:TestEvent"建议您在开始串流标签作业SNS之前,先设置 Amazon S3 与亚马逊的连接。如果不这样做,此测试事件可能会注册为数据对象,并发送到 Ground Truth 进行标注。

重要

如果您使用 Amazon S3 配置,请不要将相同的 Amazon S3 位置用于输入数据配置和输出数据。在创建标注作业时,可以为输出数据指定 S3 前缀。

对于基于图像的标签任务,Ground Truth 要求所有 S3 存储桶都附加CORS策略。要了解更多信息,请参阅 CORS输入图像数据的要求

配置 Amazon S3 存储桶并创建标签任务后,您可以向存储桶中添加对象,然后 Ground Truth 要么将该对象发送给工作人员,要么将其放到您的亚马逊SQS队列中。

要了解更多信息,请参阅 设置 Amazon S3 存储桶事件通知

重要

此选项不适用于基于文本的标注作业,例如文本分类和命名实体识别。