本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
链接标记作业
Amazon G SageMaker round Truth 可以通过两种方式重复使用以前作业中的数据集:克隆和链接。
克隆可以复制之前标注作业的设置,并允许您在设置以运行该作业之前进行其他更改。
链接不仅使用之前作业的设置,而且还使用结果。这样,您就可以继续执行未完成的作业,并将标签或数据对象添加到完成的作业中。链接是一种更复杂的操作。
对于数据处理:
克隆将以前作业的输入清单(带有可选修改)作为新作业的输入清单。
链接将以前作业的输出清单作为新作业的输入清单。
当您需要执行以下操作时,链接非常有用:
继续执行手动停止的标注作业。
修复问题后,继续执行中途失败的标注作业。
在作业的手动标注部分完成后切换到自动数据标注,反之亦然。
-
将更多数据对象添加到已完成的作业中,并从此启动作业。
将另一个注释添加到已完成的作业中。例如,您有一组按主题标注的短语,然后想再次运行这组短语,请按主题的隐含受众进行分类。
在 Amazon G SageMaker round Truth 中,您可以使用控制台或控制台配置链式标签作业。API
关键词:标签属性名称
标签属性名称(LabelAttributeName
在API)是一个字符串,用作键值对的键,键值对由工作人员分配给数据对象的标签组成。
以下规则适用于标签属性名称:
它不能以
-metadata
结束。source
和source-ref
名称是保留的,不能使用这些名称。对于语义分割标注作业,它必须以
-ref
结尾。对于所有其他标注作业,它不能以-ref
结束。如果您使用控制台创建任务,Amazon G SageMaker round Truth 会自动附加-ref
到除语义分段任务之外的所有标签属性名称。对于链接的标注作业,如果您使用来自原始作业的相同标签属性名称,并将链接的作业配置为使用自动标注,那么如果该作业在任何时候处于自动标注模式,Ground Truth 都会使用来自原始作业的模型。
在输出清单中,标签属性名称类似于下面的内容。
"source-ref": "<
S3 URI
>", "<label attribute name
>": { "annotations": [{ "class_id": 0, "width": 99, "top": 87, "height": 62, "left": 175 }], "image_size": [{ "width": 344, "depth": 3, "height": 234 }] }, "<label attribute name
>-metadata": { "job-name": "<job name
>", "class-map": { "0": "<label attribute name
>" }, "human-annotated": "yes", "objects": [{ "confidence": 0.09 }], "creation-date": "<timestamp
>", "type": "groundtruth/object-detection" }
如果在控制台中创建作业,但没有明确设置标签属性名称值,Ground Truth 会将作业名称作为作业的标签属性名称。
启动链式作业(控制台)
从现有作业列表中选择已停止、失败或已完成的标注作业。这会启用操作菜单。
从操作菜单中,选择链接。
作业概述面板
在作业概览面板中,新的作业名称是根据您从中链接该作业的作业的标题设置的。您可以更改该名称。
您也可以指定与标注作业名称不同的标签属性名称。
如果您从完成的作业中进行链接,标签属性名称将使用您要配置的新作业的名称。要更改名称,请选中该复选框。
如果您从停止或失败的作业中进行链接,标签属性名称将使用您从中链接的作业的名称。可以轻松查看和编辑该值,因为选中了名称复选框。
属性标签命名注意事项
默认值使用 Ground Truth 选择的标签属性名称。所有没有数据连接到该标签属性名的数据对象都会被标注。
如果使用标签属性名称在清单中不存在,将导致作业处理数据集中的所有对象。
在这种情况下,将自动选择输入数据集位置以作为链接的作业的输出清单。输入字段不可用,因此,您无法更改该字段。
将数据对象添加到标注作业
您无法指定备用清单文件。请手动编辑以前作业的输出清单以添加新项目,然后再启动链接的作业。Amazon S3 URI 可帮助您定位清单在 Amazon S3 存储桶中的存储位置。请从该位置中下载清单文件,在您的电脑上本地编辑该文件,然后上传新版本以替换该文件。确保在编辑期间不会引入错误。我们建议您使用 JSON linter来检查您的JSON. 许多流行的文本编辑器IDEs都有 linter 插件可用。
启动链式作业 () API
该过程与使用 CreateLabelingJob
设置新的标注作业几乎相同,但有两个主要差别:
清单位置:不应使用前一任务中的原始清单,而
DataSource
应将ManifestS3Uri
中的值指向之前URI的标签任务输出清单的 Amazon S3。标签属性名称:设置正确的
LabelAttributeName
值在此处是非常重要的。这是将标注数据作为值的键值对的键部分。示例使用案例包括:将新的或更具体的标签添加到完成的作业 – 设置新的标签属性名称。
标注以前作业中的未标注项目 – 使用以前作业中的标签属性名称。
使用部分标注的数据集
如果使用已经部分标注的增强清单,您可以获得一些链接好处。选中标签属性名称复选框并设置名称,使其与清单中的名称一致。
如果您使用的是API,则说明与启动链接作业的说明相同。不过,请务必将清单上传到 Amazon S3 存储桶并使用该清单,而不是使用以前作业中的输出清单。
清单中的标签属性名称值必须符合上面讨论的命名注意事项。