分类器训练文件格式 - Amazon Comprehend

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

分类器训练文件格式

对于纯文本模型,您可以将分类器训练数据作为CSV文件或使用 AI Ground Tr SageMaker uth 创建的增强清单文件提供。CSV文件或增强的清单文件包括每个培训文档的文本及其相关标签。

对于原生文档模型,您可以将分类器训练数据作为CSV文件提供。该CSV文件包括每个培训文档的文件名及其相关标签。您将训练文档包含在训练任务的 Amazon S3 输入文件夹中。

CSV 文件

您可以在文件中以 UTF -8 编码文本的形式提供带标签的训练数据。CSV不要添加标题行。在文件中添加标题行可能会导致运行时错误。

对于CSV文件中的每一行,第一列包含一个或多个类标签,类标签可以是任何有效的 UTF -8 字符串。我们建议使用含义不重叠的清晰类名。该名称可以包含空格,也可以由通过下划线或连字符连接的多个单词组成。

不要在分隔一行值的逗号之前或之后留下任何空格字符。

CSV文件的确切内容取决于分类器模式和训练数据的类型。有关更多信息,请参阅 多类模式多标签模式 部分。

增强清单文件

增强清单文件是您使用 A SageMaker I Ground Truth 创建的带标签的数据集。Ground Truth 是一项数据标注服务,可帮助您(或您雇用的人力)为机器学习模型构建训练数据集。

有关 Ground Truth 及其产生的输出的更多信息,请参阅《亚马逊 SageMaker AI 开发者指南》中的 “使用 AI Ground Trut SageMaker h 标记数据”。

增强的清单文件采用JSON行格式。在这些文件中,每行都是一个完整的JSON对象,其中包含培训文档及其相关标签。每行的确切内容取决于分类器模式。有关更多信息,请参阅 多类模式多标签模式 部分。

当您向 Amazon Comprehend 提供训练数据时,您需要指定一个或多个标签属性名称。您指定的属性名称数量取决于您的增强清单文件是单个标注任务的输出还是链式标注任务的输出。

如果您的文件是单个标注任务的输出,请指定 Ground Truth 任务中的单个标签属性名称。

如果您的文件是链式标注任务的输出,请为链中的一个或多个任务指定标签属性名称。每个标签属性名称都提供来自单个任务的注释。您最多可以为链式标注任务中的增强清单文件指定 5 个此类属性。

有关链式标签任务的更多信息以及它们产生的输出示例,请参阅 Amazon A SageMaker I 开发者指南中的链接标签任务