教程:开始使用 Amazon A2I 控制台 - Amazon SageMaker

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

教程:开始使用 Amazon A2I 控制台

以下教程向您展示了如何在 Amazon A2I 控制台中开始使用 Amazon A2I。

本教程可以让您有机会将 Augmented AI 与 Amazon Textract 结合使用来进行文档审查,或者与 Amazon Rekognition 结合使用来进行图像内容审查。

先决条件

要开始使用 Amazon A2I,请先满足以下先决条件。

  • 在同一个存储桶中创建 Amazon S3 存储桶 AWS 区域作为输入和输出数据的工作流程。例如,如果您在 us-east-1 中将 Amazon A2I 与 Amazon Textract 结合使用,请在 us-east-1 中创建存储桶。要创建存储桶,请按照《Amazon Simple Storage Service 控制台用户指南》中的创建存储桶的说明操作。

  • 请执行以下操作之一:

    • 如果您想使用 Amazon Textract 完成本教程,请下载下图并将其放入您的 Amazon S3 存储桶中。

      简短的求职申请
    • 如果您想使用 Amazon Rekognition 完成本教程,请下载下图并将其放入您的 Amazon S3 存储桶中。

      穿比基尼的女人在沙滩上做瑜伽
注意

Amazon A2I 控制台嵌入在控制台中。 SageMaker

步骤 1:创建工作团队

首先,在 Amazon A2I 控制台中创建一个工作团队,然后将自己添加为工作人员,这样您就可以预览工作人员审核任务。

重要

本教程使用私有工作团队。亚马逊 A2I 私人工作人员配置在 SageMaker 主机的 Ground Truth 区域,由亚马逊 A2I 和 Ground Truth 共享。

使用工作人员电子邮件创建私有人力
  1. 打开 SageMaker 控制台,网址为https://console.aws.amazon.com/sagemaker/

  2. 在导航窗格中,选择 Ground Truth 下的标注人力

  3. 选择私有,然后选择创建私有团队

  4. 选择通过电子邮件邀请新工作人员

  5. 对于本教程,请输入您的电子邮件,以及任何其他您希望能够预览人工任务 UI 的人员的电子邮件。您可在电子邮件地址框中粘贴或键入包含最多 50 个电子邮件的列表,以逗号分隔。

  6. 输入组织名称和联系人电子邮件。

  7. (可选)选择要向团队订阅的亚马逊SNS主题,以便在新的 Ground Truth 标签工作可用时通过电子邮件通知员工。Ground Truth 支持亚马逊SNS通知,而增强型 AI 不支持亚马逊通知。如果您为员工订阅亚马逊SNS通知,他们只会收到有关 Ground Truth 标签工作的通知。而不会收到有关 Augmented AI 任务的通知。

  8. 选择创建私有团队

如果您将自己添加到私有工作团队,则会收到来自 no-reply@verificationemail.com 的电子邮件,其中提供了登录信息。使用此电子邮件中的链接重置密码,然后登录您的工作人员门户。在您创建人工循环时,人工审核任务就会显示在此处。

步骤 2:创建人工审核工作流

在此步骤中,您将创建人工审核工作流。每个人工审核工作流都是针对特定任务类型创建的。在本教程中,您可以在内置任务类型之间进行选择:Amazon Rekognition 和 Amazon Textract。

要创建人工审核工作流,请执行以下操作:
  1. https://console.aws.amazon.com/a2i 处打开增强型 A I 控制台,访问人工审核工作流程页面。

  2. 选择创建人工审核工作流

  3. 工作流程设置中,输入工作流程名称S3 存储桶以及您为本教程创建的IAM角色,并使用 AWS AmazonAugmentedAIIntegratedAPIAccess已附加托管策略。

  4. 对于任务类型,选择 Textract – 键值对提取或者 Rekognition – 图像监管

  5. 选择您在下表中选择的任务类型,以获取该任务类型的说明。

    Amazon Textract – Key-value pair extraction

    1. 选择根据表单键置信度分数或在缺少特定表单键时触发对特定表单键的人工审核

    2. 在键名称中输入 Mail Address

    3. 设置介于 099 之间的标识置信度阈值。

    4. 设置介于 099 之间的资格置信度阈值。

    5. 选择通过在指定范围内的置信度分数来触发对 Amazon Textract 标识的所有表单键的人工审核

    6. 设置介于 090 之间的标识置信度阈值。

    7. 设置介于 090 之间的资格置信度阈值。

    如果 Amazon Textract 为 Mail Address 及其键返回的置信度分数低于 99,或者为在文档中检测到的任一键值对返回的置信度分数低于 90,则会启动人工审核。

    下图显示了 Amazon A2I 控制台的“Amazon Textract 表单提取 – 调用人工审核的条件”部分。在图片中,选中了前文解释的两种触发器类型的复选框,并且在第一个触发器中将 Mail Address 用作键名称。标识置信度阈值使用在表单中检测到的键值对的置信度分数来定义,设置为介于 0 到 99 之间。资格置信度阈值是使用键中包含的文本的置信度分数和表单中的值来定义的,设置为介于 0 到 99 之间。

    Amazon A2I 控制台显示了调用人工审核部分的条件。
    Amazon Rekognition – Image moderation

    1. 选择针对 Amazon Rekognition 根据标签置信度分数标识的标签触发人工审核

    2. 设置介于 098 之间的阈值

    如果对于图像监管作业,Amazon Rekognition 返回的置信度分数低于 98,这将启动人工审核。

    下图显示了如何在 Amazon A2I 控制台中选择根据标签置信度分数对 Amazon Rekognition 标识的标签触发人工审核选项,并输入介于 0 和 98 之间的阈值

    Amazon A2I 控制台显示了调用人工审核部分的条件。
  6. 工作人员任务模板创建下,选择从默认模板创建

  7. 输入模板名称

  8. 任务描述字段中,输入以下文本:

    Read the instructions carefully and complete the task.

  9. 工作人员下,选择私有

  10. 选择您创建的私有团队。

  11. 选择创建

创建人工审核工作流后,它将显示在人工审核工作流页面上的表中。当状态为时Active,复制并保存工作流程ARN。您在下一个步骤中需要用到它。

步骤 3:启动人工循环

您必须使用API操作来启动人机循环。您可以使用各种特定语言SDKs来与这些API操作进行交互。要查看每个文档的文档SDKs,请参阅API文档中的 “请参阅” 部分,如下图所示。

亚马逊 Text API ract 文档 “另请参阅” 部分的屏幕截图

在本教程中,您将使用以下方法之一APIs:

  • 如果您选择了 Amazon Textract 任务类型,则可以使用 AnalyzeDocument 操作。

  • 如果您选择了 Amazon Rekognition 任务类型,则可以使用 DetectModerationLabels 操作。

您可以使用 SageMaker 笔记本实例(建议新用户APIs使用)或使用 notebook 实例与它们进行交互 AWS Command Line Interface (AWS CLI)。 选择以下选项之一,了解有关这些选项的更多信息:

在下表中选择您的任务类型,使用 Amazon Textract 和 Amazon Rekognition 查看请求示例 AWS SDK for Python (Boto3).

Amazon Textract – Key-value pair extraction

以下示例使用 AWS SDK for Python (Boto3) 打电话给 us-w analyze_document est-2。使用您的资源替换斜体红色文本。如果您使用的是 Amazon Mechanical Turk 人力,请包括 DataAttributes 参数。有关更多信息,请参阅analyze_document中的文档 AWS SDK for Python (Boto) API参考

response = client.analyze_document( Document={ "S3Object": { "Bucket": "amzn-s3-demo-bucket", "Name": "document-name.pdf" } }, HumanLoopConfig={ "FlowDefinitionArn":"arn:aws:sagemaker:us-west-2:111122223333:flow-definition/flow-definition-name", "HumanLoopName":"human-loop-name", "DataAttributes" : { "ContentClassifiers":["FreeOfPersonallyIdentifiableInformation","FreeOfAdultContent"] } }, FeatureTypes=["TABLES", "FORMS"])
Amazon Rekognition – Image moderation

以下示例使用 AWS SDK for Python (Boto3) 打电话给 us-w detect_moderation_labels est-2。使用您的资源替换斜体红色文本。如果您使用的是 Amazon Mechanical Turk 人力,请包括 DataAttributes 参数。有关更多信息,请参阅中的detect_moderation_labels文档 AWS SDK for Python (Boto) API参考

response = client.detect_moderation_labels( Image={ "S3Object":{ "Bucket": "amzn-s3-demo-bucket", "Name": "image-name.png" } }, HumanLoopConfig={ "FlowDefinitionArn":"arn:aws:sagemaker:us-west-2:111122223333:flow-definition/flow-definition-name", "HumanLoopName":"human-loop-name", "DataAttributes":{ ContentClassifiers:["FreeOfPersonallyIdentifiableInformation"|"FreeOfAdultContent"] } })

步骤 4:在控制台中查看人工循环状态

当您启动人工循环时,您可以在 Amazon A2I 控制台中查看其状态。

查看人工循环状态
  1. https://console.aws.amazon.com/a2i 处打开增强型 A I 控制台,访问人工审核工作流程页面。

  2. 选择用于启动人工循环的人工审核工作流。

  3. 人工循环部分中,您可以看到您的人工循环。在状态列中查看其状态。

步骤 5:下载输出数据

输出数据存储在您创建人工审核工作流时指定的 Amazon S3 存储桶中。

查看 Amazon A2I 输出数据
  1. 打开 Amazon S3 控制台

  2. 选择您在本示例的步骤 2 中,在创建人工审核工作流时指定的 Amazon S3 存储桶。

  3. 首先从以人工审核工作流命名的文件夹,选择具有以下命名约定的文件夹来导航到输出数据:

    s3://output-bucket-specified-in-human-review-workflow/human-review-workflow-name/YYYY/MM/DD/hh/mm/ss/human-loop-name/output.json
  4. 选择 output.json 并选择下载