本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
您可以使用 Amazon Comprehend 控制台创建自定义实体识别器。本节说明了如何创建和训练自定义实体识别器。
主题
要创建自定义实体识别器,请先提供一个用于训练模型的数据集。该数据集包括以下内容之一:一组带注释的文档或一组实体及其类型标签的列表,以及一组包含这些实体的文档。有关更多信息,请参阅 自定义实体识别
使用 CSV 文件训练自定义实体识别器
-
登录 AWS Management Console 并打开亚马逊 Comprehend 控制台,网址为 https://console.aws.amazon.com/comprehend/
-
从左侧菜单中选择自定义,然后选择自定义实体识别。
-
选择创建新模型。
-
为识别器命名。该名称在区域和账户中必须是唯一的。
-
选择语言。
-
在自定义实体类型下,输入您希望识别器在数据集中找到的自定义标签。
实体类型必须大写,如果由多个单词组成,则用下划线分隔单词。
-
选择添加类型。
-
如果要添加其他实体类型,请输入该类型,然后选择添加类型。如果要删除已添加的实体类型,请选择删除类型,然后选择要从列表中删除的实体类型。最多可以列出 25 种实体类型。
-
要对训练任务加密,请选择识别器加密,然后选择是使用与当前账户关联的 KMS 密钥,还是使用来自其他账户的 KMS 密钥。
如果您使用的是与当前账户关联的密钥,请为 KMS 密钥 ID 选择密钥 ID。
如果您使用与其他账户关联的密钥,请在 KMS 密钥 ARN 中输入密钥 ID 的 ARN。
注意
有关创建和使用 KMS 密钥以及相关加密的更多信息,请参阅 AWS Key Management Service。
-
在数据规范下,选择训练文档的格式:
-
CSV 文件:补充您的训练文档的 CSV 文件。CSV 文件包含有关您的训练模型将检测到的自定义实体的信息。所需的文件格式取决于您提供的是注释还是实体列表。
-
增强清单 — 由 Amazon G SageMaker round Truth 生成的带标签的数据集。该文件采用 JSON 行格式。每一行都是一个完整的 JSON 对象,其中包含一个训练文档及其标签。每个标签都对训练文档中的一个命名实体进行注释。您最多可以提供 5 个增强的清单文件。
有关可用格式的更多信息以及示例,请参阅 训练自定义实体识别器模型。
-
-
在训练类型下,选择要使用的训练类型:
使用注释与训练文档
使用实体列表与训练文档
如果选择注释,请在 Amazon S3 中输入注释文件的 URL。您也可以导航到 Amazon S3 中注释文件所在的存储桶或文件夹,然后选择浏览 S3。
如果选择实体列表,请在 Amazon S3 中输入实体列表的 URL。您也可以导航到 Amazon S3 中实体列表所在的存储桶或文件夹,然后选择浏览 S3。
-
在 Amazon S3 中输入包含训练文档的输入数据集的网址。您也可以导航到 Amazon S3 中训练文档所在的存储桶或文件夹,然后选择选择文件夹。
-
在测试数据集下,选择您想要如何评估训练模型的性能-您可以对注释和实体列表训练类型执行此操作。
-
自动分割:自动分割会自动选择您提供的训练数据的 10% 用作测试数据
-
(可选)客户提供:当您选择客户提供的时,您可以准确指定要使用的测试数据。
-
-
如果您选择客户提供的测试数据集,请在 Amazon S3 中输入注释文件的 URL。您也可以导航到 Amazon S3 中注释文件所在的存储桶或文件夹,然后选择选择文件夹。
-
在选择 IAM 角色部分中,选择一个现有 IAM 角色,或者创建一个新的 IAM 角色。
-
选择现有 IAM 角色:如果您已经拥有有权访问输入和输出 Amazon S3 存储桶的 IAM 角色,请选择此选项。
-
创建新的 IAM 角色:如果您要创建一个新的 IAM 角色,该角色具有适当的权限,让 Amazon Comprehend 可以访问输入和输出存储桶,请选择此选项。
注意
如果输入文档已加密,则所使用的 IAM 角色必须具有
kms:Decrypt
权限。有关更多信息,请参阅 使用 KMS 加密所需的权限。
-
(可选)要将您的资源从 VPC 启动到 Amazon Comprehend,请在 VPC 下输入 VPC ID 或从下拉列表中选择 ID。
在子网下选择子网。选择第一个子网后,您还可以选择其他子网。
在安全组下,选择要使用的安全组(如果已指定)。选择第一个安全组后,您还可以选择其他安全组。
注意
当您在自定义实体识别任务中使用 VPC 时,
DataAccessRole
用于创建和启动操作的用户必须拥有访问输入文档和输出存储桶的 VPC 的权限。-
(可选)若要向自定义实体识别器添加标签,请在标签下输入键值对。选择添加标签。要在创建识别器之前删除这对,请选择删除标签。
-
选择训练。
然后,新的识别器将出现在列表中,显示其状态。它将首先显示为 Submitted
。然后,它将显示 Training
正在处理训练文档的分类器、Trained
准备就绪的分类器以及存在 In error
错误的分类器。您可以单击任务以获取有关识别器的更多信息,包括任何错误消息。
使用纯文本、PDF 或 Word 文档训练自定义实体识别器
-
登录 AWS Management Console 并打开 Amazon Comprehend 控制台
。 -
从左侧菜单中选择自定义,然后选择自定义实体识别。
-
选择训练识别器。
-
为识别器命名。该名称在区域和账户中必须是唯一的。
-
选择语言。注意:如果您正在训练 PDF 或 Word 文档,则支持的语言为英语。
-
在自定义实体类型下,输入您希望识别器在数据集中找到的自定义标签。
实体类型必须大写,如果由多个单词组成,则用下划线分隔单词。
-
选择添加类型。
-
如果要添加其他实体类型,请输入该类型,然后选择添加类型。如果要删除已添加的实体类型,请选择删除类型,然后选择要从列表中删除的实体类型。最多可以列出 25 种实体类型。
-
要对训练任务加密,请选择识别器加密,然后选择是使用与当前账户关联的 KMS 密钥,还是使用来自其他账户的 KMS 密钥。
-
如果您使用的是与当前账户关联的密钥,请为 KMS 密钥 ID 选择密钥 ID。
-
如果您使用与其他账户关联的密钥,请在 KMS 密钥 ARN 中输入密钥 ID 的 ARN。
注意
有关创建和使用 KMS 密钥以及相关加密的更多信息,请参阅 AWS Key Management Service。
-
-
在训练数据下,选择增强清单作为数据格式:
-
增强清单 — 是由 Amazon G SageMaker round Truth 生成的带标签的数据集。该文件采用 JSON 行格式。文件中的每一行都是一个完整的 JSON 对象,其中包含一个训练文档及其标签。每个标签都对训练文档中的一个命名实体进行注释。您最多可以提供 5 个增强的清单文件。如果您使用 PDF 文档作为训练数据,则必须选择增强清单。您最多可以提供 5 个增强的清单文件。每个文件最多可命名 5 个属性作为训练数据。
有关可用格式的更多信息以及示例,请参阅 训练自定义实体识别器模型。
-
-
选择训练模型类型。
如果您选择了纯文本文档,请在 “输入位置” 下输入 Amazon Tr SageMaker AIGround uth 增强清单文件的 Amazon S3URL。您也可以导航到 Amazon S3 中增强清单文件所在的存储桶或文件夹,然后选择选择文件夹。
-
在属性名称下,输入包含注释的属性的名称。如果文件包含来自多个链式标注任务的注释,请为每个任务添加一个属性。在这种情况下,每个属性都包含标注任务中的一组注释。注意:您最多可以为每个文件提供 5 个属性名称。
-
选择添加。
-
如果你在 “输入位置” 下选择了 PDF、Word 文档,请输入 Amazon A SageMaker I Ground Truth 增强清单文件的 Amazon S3URL。您也可以导航到 Amazon S3 中增强清单文件所在的存储桶或文件夹,然后选择选择文件夹。
-
输入注释数据文件的 S3 前缀。这些是您标记的 PDF 文档。
-
输入源文档的 S3 前缀。这些是您提供给 Ground Truth 进行标注任务的原始 PDF 文档(数据对象)。
-
输入包含注释的属性名称。注意:您最多可以为每个文件提供 5 个属性名称。文件中任何您未指定的属性都将被忽略。
-
在 IAM 角色部分,选择一个现有 IAM 角色,或者创建一个新的 IAM 角色。
-
选择现有 IAM 角色:如果您已经拥有有权访问输入和输出 Amazon S3 存储桶的 IAM 角色,请选择此选项。
-
创建新的 IAM 角色:如果您要创建一个新的 IAM 角色,该角色具有适当的权限,让 Amazon Comprehend 可以访问输入和输出存储桶,请选择此选项。
注意
如果输入文档已加密,则所使用的 IAM 角色必须具有
kms:Decrypt
权限。有关更多信息,请参阅 使用 KMS 加密所需的权限。
-
-
(可选)要将您的资源从 VPC 启动到 Amazon Comprehend,请在 VPC 下输入 VPC ID 或从下拉列表中选择 ID。
-
在子网下选择子网。选择第一个子网后,您还可以选择其他子网。
-
在安全组下,选择要使用的安全组(如果已指定)。选择第一个安全组后,您还可以选择其他安全组。
注意
当您在自定义实体识别任务中使用 VPC 时,
DataAccessRole
用于创建和启动操作的用户必须拥有访问输入文档和输出存储桶的 VPC 的权限。 -
-
(可选)若要向自定义实体识别器添加标签,请在标签下输入键值对。选择添加标签。要在创建识别器之前删除这对,请选择删除标签。
-
选择训练。
然后,新的识别器将出现在列表中,显示其状态。它将首先显示为 Submitted
。然后,它将显示 Training
正在处理训练文档的分类器、Trained
准备就绪的分类器以及存在 In error
错误的分类器。您可以单击任务以获取有关识别器的更多信息,包括任何错误消息。