飞轮概览 - Amazon Comprehend

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

飞轮概览

飞轮是一种 Amazon Comprehend 资源,用于编排自定义模型新版本的训练和评估。您可以创建一个飞轮以使用现有经过训练的模型,或者 Amazon Comprehend 可以为飞轮创建并训练一个新模型。将飞轮与纯文本自定义模型一起用于自定义分类或自定义实体识别。

您可以使用 Amazon Comprehend 控制台或 API 配置和管理飞轮。您也可以使用 AWS CloudFormation 配置飞轮。

当您创建飞轮时,Amazon Comprehend 会在您的账户中创建一个数据湖数据湖存储和管理所有飞轮数据,例如模型所有版本的训练数据和测试数据。

您可以将活动模型版本设置为要用于推理作业或 Amazon Comprehend 终端节点的飞轮模型版本。最初,飞轮包含模型的一个版本。随着时间的推移,在训练新模型版本时,您会选择性能最好的版本作为活动模型版本。当用户指定飞轮 ARN 来运行推理作业时,Amazon Comprehend 会使用飞轮的活动模型版本运行该作业。

您定期获取模型的新标注数据(训练数据或测试数据)。您可以通过创建一个或多个数据集来为飞轮提供新数据。数据集包含用于训练或测试与飞轮关联的自定义模型的输入数据。Amazon Comprehend 将输入数据上传到飞轮的数据湖。

要将新数据集合并到您的自定义模型中,您需要创建并运行飞轮迭代。飞轮迭代是一种使用新数据集来评估活动模型版本和训练新模型版本的工作流程。根据现有模型版本和新模型版本的指标,您可以决定是否将新模型版本提升为活动版本。

您可以使用飞轮活动模型版本来运行自定义分析(实时或异步作业)。要使用飞轮模型进行实时分析,必须为飞轮创建终端节点

使用飞轮不收取任何额外费用。但是,当您运行飞轮迭代时,训练新模型版本和存储模型数据会产生标准费用。有关定价的详细信息,请参阅 Amazon Comprehend 定价

飞轮数据集

要向飞轮添加新的标注数据,您需要创建一个数据集。您可以将每个数据集配置为训练数据或测试数据。您可以将数据集与特定的飞轮和自定义模型相关联。

创建数据集后,Amazon Comprehend 会将数据上传到飞轮的数据湖。有关更多信息,请参阅 飞轮数据湖

飞轮创建

当您创建飞轮时,可以将飞轮与现有的训练模型相关联,或者飞轮可以创建新模型。

当您使用现有模型创建飞轮时,需要指定活动模型版本。Amazon Comprehend 将模型的训练数据和测试数据复制到飞轮的数据湖中。确保模型训练和测试数据与您创建模型时位于相同的 Amazon S3 位置。

要为新模型创建飞轮,请在创建飞轮时为训练数据提供数据集(以及用于测试数据的可选数据集)。当您运行飞轮来创建第一个飞轮迭代时,飞轮会训练新模型。

训练自定义模型时,您可以指定要识别的自定义标签(自定义分类)或自定义实体(自定义实体识别)的列表。请注意有关自定义标签/实体的以下要点:

  • 当您为新模型创建飞轮时,您在创建飞轮时提供的标签/实体列表是飞轮的最终列表。

  • 当您根据现有模型创建飞轮时,与该模型关联的标签/实体列表将成为飞轮的最终列表。

  • 如果您将新数据集与飞轮相关联,并且该数据集包含其他标签/实体,则 Amazon Comprehend 会忽略新的标签/实体。

  • 您可以使用 API 操作查看飞轮的标签/实体列表。DescribeFlywheel

    注意

    对于自定义分类,Amazon Comprehend 会在飞轮状态变为“活动”后填充标签列表。等到飞轮处于活动状态后再调用 DescribeFlywheel API 操作。

飞轮状态

飞轮在以下状态之间切换:

  • 正在创建:Amazon Comprehend 正在创建飞轮资源。您可以对飞轮执行读取操作,例如 DescribeFlywheel

  • 激活:飞轮处于活动状态。您可以确定飞轮迭代是否正在进行并查看迭代的状态。您可以对飞轮执行读取操作以及诸如 DeleteFlywheelUpdateFlywheel 之类的操作。

  • 更新:Amazon Comprehend 正在更新飞轮。您可以对飞轮执行读取操作。

  • 正在删除:Amazon Comprehend 正在删除飞轮。您可以对飞轮执行读取操作。

  • 失败:飞轮创建操作失败。

在 Amazon Comprehend 删除飞轮后,您仍保留对飞轮数据湖中所有模型数据的访问权限。Amazon Comprehend 会删除管理飞轮资源所需的所有内部元数据。Amazon Comprehend 还会删除与该飞轮相关的数据集(模型数据保存在数据湖中)。

飞轮迭代

当您获取飞轮模型的新训练或测试数据时,您将创建一个或多个新数据集以将新数据上传到飞轮的数据湖。

您可以运行飞轮来创建新的迭代。飞轮迭代使用新数据评估当前活动模型版本,并将结果存储在数据湖中。飞轮还会创建和训练新的模型版本。

如果新模型表现出比当前活动模型版本更好的性能,则可以将新模型版本升级为活动模型版本。您可以使用控制台UpdateFlywheelAPI 操作来更新现役模型版本。