训练自定义分类器(控制台) - Amazon Comprehend

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

训练自定义分类器(控制台)

您可以使用控制台创建和训练自定义分类器,然后使用自定义分类器来分析您的文档。

要训练自定义分类器,您需要一组训练文档。您使用您希望文档分类器识别的类别对这些文档进行标注。有关准备训练文档的信息,请参阅 准备分类器训练数据

创建和训练文档分类器模型
  1. 登录 AWS Management Console 并打开亚马逊 Comprehend 控制台,网址为 https://console.aws.amazon.com/comprehend/

  2. 从左侧菜单中选择自定义,然后选择自定义分类

  3. 选择创建新模型

  4. 模型设置下,输入分类器的模型名称。该名称必须在您的账户和当前区域内唯一。

    (可选)输入版本名称。该名称必须在您的账户和当前区域内唯一。

  5. 选择训练文档的语言。要查看分类器支持的语言,请参阅 训练分类模型

  6. (可选)如果要在 Amazon Comprehend 处理您的训练任务时对存储卷中的数据进行加密,请选择分类器加密。然后选择是使用与您的当前账户关联的KMS密钥,还是使用其他账户中的密钥。

    • 如果您使用的是与当前账户关联的密钥,请选择密钥 ID 作为KMS密钥 ID

    • 如果您使用的是与其他账户关联的密钥,请在密钥下ARNKMS输入密钥 ID 的ARN。

    注意

    有关创建和使用KMS密钥以及相关加密的更多信息,请参阅 AWS Key Management Service (AWS KMS)

  7. 数据规范下,选择要使用的训练模型类型

    • 纯文本文档:选择此选项可创建纯文本模型。使用纯文本文档训练模型。

    • 原生文档:选择此选项可创建原生文档模型。使用原生文档(PDF、Word、图像)训练模型。

  8. 选择训练数据的数据格式。有关数据格式的信息,请参阅 分类器训练文件格式

    • CSV文件:如果您的训练数据使用CSV文件格式,请选择此选项。

    • 增强清单:如果您使用 Ground Truth 为训练数据创建增强清单文件,请选择此选项。如果您选择纯文本文档作为训练模型类型,则可以使用此格式。

  9. 选择要使用的分类器模式

    • 单标签模式:如果您为文档分配的类别是互斥的,并且您正在训练分类器为每个文档分配一个标签,请选择此模式。在 Amazon Compreh API end 中,单标签模式被称为多类模式。

    • 多标签模式:如果可以将多个类别同时应用于一个文档,并且您正在训练分类器为每个文档分配一个或多个标签,则选择此模式。

  10. 如果您选择多标签模式,则可以选择标签分隔符。当训练文档有多个类时,使用此分隔符分隔标签。默认分隔符是管道字符。

  11. (可选)如果您选择增强清单作为数据格式,则最多可以输入 5 个增强清单文件。每个增强的清单文件都包含一个训练数据集或一个测试数据集。您必须提供至少一个训练数据集。测试数据集是可选的。使用以下步骤配置增强清单文件:

    1. 训练和测试数据集下,展开输入位置面板。

    2. 数据集类型中,选择训练数据测试数据

    3. 对于 SageMaker AI Ground Truth 增强清单文件 S3 的位置,请输入包含清单文件的 Amazon S3 存储桶的位置,或者选择浏览 S3 导航到该存储桶。您用于获得训练任务访问权限的IAM角色必须具有 S3 存储桶的读取权限。

    4. 属性名称中,输入包含您的注释的属性的名称。如果文件包含来自多个链式标注任务的注释,请为每个任务添加一个属性。

    5. 要添加其他输入位置,请选择添加输入位置,然后配置下一个位置。

  12. (可选)如果您选择CSV文件作为数据格式,请使用以下步骤配置训练数据集和可选测试数据集:

    1. 训练数据集下,输入包含您的训练数据CSV文件的 Amazon S3 存储桶的位置,或者选择浏览 S3 导航到该存储桶。您用于获得训练任务访问权限的IAM角色必须具有 S3 存储桶的读取权限。

      (可选)如果您选择原生文档作为训练模型类型,则还需要提供包含训练示例文件的 Amazon S3 文件夹。URL

    2. 测试数据集下,选择是否为 Amazon Comprehend 提供额外数据以测试经过训练的模型。

      • 自动分割:自动分割会自动选择 10% 的训练数据作为测试数据保留。

      • (可选)客户提供:在 Amazon S3 中输入测试数据CSV文件中的内容。URL您也可以导航到其在 Amazon S3 中的位置,然后选择选择文件夹

        (可选)如果您选择原生文档作为训练模型类型,则还需要提供包含测试文件的 Amazon S3 文件夹的。URL

  13. (可选)对于文档读取模式,您可以覆盖默认的文本提取操作。纯文本模型不需要此选项,因为它适用于扫描文档的文本提取。有关更多信息,请参阅 设置文本提取选项

  14. (纯文本模型可选)对于输出数据,请输入 Amazon S3 存储桶的位置以保存训练输出数据,例如混淆矩阵。有关更多信息,请参阅 混淆矩阵

    (可选)如果您选择加密训练任务的输出结果,请选择加密。然后选择是使用与当前账户关联的KMS密钥,还是使用其他账户的密钥。

    • 如果您使用的是与当前账户关联的密钥,请为密钥 ID 选择密KMS钥别名。

    • 如果您使用与其他账户关联的密钥,请在密钥 ID 下ARNKMS输入密钥别名或 ID

  15. 对于IAM角色,选择选择现有IAM角色,然后选择对包含您的培训文档的 S3 存储桶具有读取权限的现有IAM角色。该角色必须具有开头的信任策略 comprehend.amazonaws.com 才有效。

    如果您还没有具有这些权限的IAM角色,请选择创建IAM角色来创建一个角色。选择授予此角色的访问权限,然后选择名称后缀以区分该角色与您账户中的IAM角色。

    注意

    对于加密的输入文档,所使用的IAM角色也必须具有kms:Decrypt权限。有关更多信息,请参阅 使用KMS加密所需的权限

  16. (可选)要将您的资源从启动到 Amazon Comprehend,VPC请在下方输入编号或VPC从下拉列表中选择 VPCID。

    1. 在子网下选择子网。选择第一个子网后,您还可以选择其他子网。

    2. 安全组下,选择要使用的安全组(如果已指定)。选择第一个安全组后,您还可以选择其他安全组。

    注意

    当您在分类任务中使用时,DataAccessRole用于创建和启动操作的用户必须拥有访问输入文档和输出存储桶的权限。VPC VPC

  17. (可选)要向自定义分类器添加标签,请在标签下输入键值对。选择添加标签。要在创建分类器之前删除这对,请选择删除标签。有关更多信息,请参阅 标记您的资源

  18. 选择创建

控制台显示分类器页面。新的分类器会出现在列表中,显示 Submitted 为其状态。当分类器开始处理训练文档时,状态会更改为 Training。当分类器准备就绪时,状态会更改为 TrainedTrained with warnings。如果状态为 TRAINED_WITH_WARNINGS,请查看 分类器训练输出 中的已跳过的文件文件夹。

如果 Amazon Comprehend 在创建或训练过程中遇到错误,则状态将更改为 In error。您可以在表中选择一个分类器任务,以获取有关该分类器的更多信息,包括任何错误消息。

自定义分类器列表。