

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 训练自定义分类器（控制台）
<a name="create-custom-classifier-console"></a>

您可以使用控制台创建和训练自定义分类器，然后使用自定义分类器来分析您的文档。

要训练自定义分类器，您需要一组训练文档。您使用您希望文档分类器识别的类别对这些文档进行标注。有关准备训练文档的信息，请参阅 [准备分类器训练数据](prep-classifier-data.md)。



**创建和训练文档分类器模型**

1. 登录 AWS 管理控制台 并打开亚马逊 Comprehend 控制台，网址为 [https://console.aws.amazon.com/comprehend/](https://console.aws.amazon.com/comprehend/)

1. 从左侧菜单中选择**自定义**，然后选择**自定义分类**。

1. 选择**创建新模型**。

1. 在**模型设置**下，输入分类器的模型名称。该名称必须在您的账户和当前区域内唯一。

   （可选）输入版本名称。该名称必须在您的账户和当前区域内唯一。

1. 选择训练文档的语言。要查看分类器支持的语言，请参阅 [训练分类模型](training-classifier-model.md)。

1. （可选）如果要在 Amazon Comprehend 处理您的训练任务时对存储卷中的数据进行加密，请选择**分类器加密**。然后选择是使用与您的当前账户关联的 KMS 密钥，还是使用其他账户中的密钥。
   + 如果您使用的是与当前账户关联的密钥，请为 **KMS 密钥 ID** 选择密钥 ID。
   + 如果您使用与其他账户关联的密钥，请在 **KMS 密钥 ARN** 下输入密钥 ID 的 ARN。
**注意**  
有关创建和使用 KMS 密钥及相关加密的更多信息，请参阅 [AWS Key Management Service (AWS KMS)](https://docs.aws.amazon.com/kms/latest/developerguide/overview.html)。

1. 在**数据规范**下，选择要使用的**训练模型类型**。
   + **纯文本文档：**选择此选项可创建纯文本模型。使用纯文本文档训练模型。
   + **原生文档：**选择此选项可创建原生文档模型。使用原生文档（PDF、Word、图像）训练模型。

1. 选择训练数据的**数据格式**。有关数据格式的信息，请参阅 [分类器训练文件格式](prep-class-data-format.md)。
   + **CSV 文件：**如果您的训练数据使用 CSV 文件格式，请选择此选项。
   + **增强清单：**如果您使用 Ground Truth 为训练数据创建增强清单文件，请选择此选项。如果您选择**纯文本文档**作为训练模型类型，则可以使用此格式。

1. 选择要使用的**分类器模式**。
   + **单标签模式：**如果您为文档分配的类别是互斥的，并且您正在训练分类器为每个文档分配一个标签，请选择此模式。在 Amazon Comprehend API 中，单标签模式被称为多类模式。
   + **多标签模式：**如果可以将多个类别同时应用于一个文档，并且您正在训练分类器为每个文档分配一个或多个标签，则选择此模式。

1. 如果您选择**多标签模式**，则可以选择**标签分隔符**。当训练文档有多个类时，使用此分隔符分隔标签。默认分隔符是管道字符。

1. （可选）如果您选择**增强清单**作为数据格式，则最多可以输入 5 个增强清单文件。每个增强的清单文件都包含一个训练数据集或一个测试数据集。您必须提供至少一个训练数据集。测试数据集是可选的。使用以下步骤配置增强清单文件：

   1. 在**训练和测试数据集**下，展开**输入位置**面板。

   1. 在**数据集类型**中，选择**训练数据**或**测试数据**。

   1. 对于 **SageMaker AI Ground Truth 增强清单文件 S3 的位置**，请输入包含清单文件的 Amazon S3 存储桶的位置，或者选择**浏览 S3** 导航到该存储桶。用于获取训练任务访问权限的 IAM 角色必须具有 S3 存储桶的读取权限。

   1. 在**属性名称**中，输入包含您的注释的属性的名称。如果文件包含来自多个链式标注任务的注释，请为每个任务添加一个属性。

   1. 要添加其他输入位置，请选择**添加输入位置**，然后配置下一个位置。

1. （可选）如果您选择 **CSV 文件**作为数据格式，请使用以下步骤配置训练数据集和可选测试数据集：

   1. 在**训练数据集**下，输入包含您的训练数据 CSV 文件的 Amazon S3 存储桶的位置，或者选择**浏览 S3** 导航到该存储桶。用于获取训练任务访问权限的 IAM 角色必须具有 S3 存储桶的读取权限。

      （可选）如果您选择**原生文档**作为训练模型类型，则还需要提供包含训练示例文件的 Amazon S3 文件夹的 URL。

   1. 在**测试数据集**下，选择是否为 Amazon Comprehend 提供额外数据以测试经过训练的模型。
      + **自动分割**：自动分割会自动选择 10% 的训练数据作为测试数据保留。
      + （可选）**客户提供**：在 Amazon S3 中输入测试数据 CSV 文件的 URL。您也可以导航到其在 Amazon S3 中的位置，然后选择**选择文件夹**。

        （可选）如果您选择**原生文档**作为训练模型类型，则还需要提供包含测试文件的 Amazon S3 文件夹的 URL。

1. （可选）对于**文档读取模式**，您可以覆盖默认的文本提取操作。纯文本模型不需要此选项，因为它适用于扫描文档的文本提取。有关更多信息，请参阅 [设置文本提取选项](idp-set-textract-options.md)。

1. （纯文本模型可选）对于**输出数据**，请输入 Amazon S3 存储桶的位置以保存训练输出数据，例如混淆矩阵。有关更多信息，请参阅 [混淆矩阵](train-classifier-output.md#conf-matrix)。

   （可选）如果您选择加密训练任务的输出结果，请选择**加密**。然后选择是使用与当前账户关联的 KMS 密钥，还是使用来自其他账户的密钥。
   + 如果您使用的是与当前账户关联的密钥，请为 **KMS 密钥 ID** 选择密钥别名。
   + 如果您使用与其他账户关联的密钥，请在 **KMS 密钥 ID** 下输入密钥别名或 ID 的 ARN。

1. 对于 **IAM 角色**，选择**选择现有 IAM 角色**，然后选择对包含您的培训文档的 S3 存储桶具有读取权限的现有 IAM 角色。该角色必须具有开头的信任策略 `comprehend.amazonaws.com` 才有效。

   如果您还没有具有这些权限的 IAM 角色，请选择**创建 IAM 角色**来创建一个。选择授予该角色的访问权限，然后选择一个名称后缀以区分该角色与您账户中的 IAM 角色。
**注意**  
对于加密的输入文档，所使用的 IAM 角色也必须具有 `kms:Decrypt` 权限。有关更多信息，请参阅 [使用 KMS 加密所需的权限](security_iam_id-based-policy-examples.md#auth-kms-permissions)。

1. （可选）要将您的资源从 VPC 启动到 Amazon Comprehend，请在 **VPC** 下输入 VPC ID 或从下拉列表中选择 ID。

   1. 在子网下选择**子网**。选择第一个子网后，您还可以选择其他子网。

   1. 在**安全组**下，选择要使用的安全组（如果已指定）。选择第一个安全组后，您还可以选择其他安全组。
**注意**  
当您在分类任务中使用 VPC 时，`DataAccessRole` 用于创建和启动操作的用户必须拥有访问输入文档和输出存储桶的 VPC 的权限。

1. （可选）要向自定义分类器添加标签，请在**标签**下输入键值对。选择**添加标签**。要在创建分类器之前删除这对，请选择**删除标签**。有关更多信息，请参阅 [标记您的资源](tagging.md)。

1. 选择**创建**。

控制台显示**分类器**页面。新的分类器会出现在列表中，显示 `Submitted` 为其状态。当分类器开始处理训练文档时，状态会更改为 `Training`。当分类器准备就绪时，状态会更改为 `Trained` 或 `Trained with warnings`。如果状态为 `TRAINED_WITH_WARNINGS`，请查看 [分类器训练输出](train-classifier-output.md) 中的已跳过的文件文件夹。

如果 Amazon Comprehend 在创建或训练过程中遇到错误，则状态将更改为 `In error`。您可以在表中选择一个分类器任务，以获取有关该分类器的更多信息，包括任何错误消息。

![\[自定义分类器列表。\]](http://docs.aws.amazon.com/zh_cn/comprehend/latest/dg/images/class-list.png)
