本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
飞轮数据湖
当您创建飞轮时,Amazon Comprehend 会在您的账户中创建一个数据湖,用于存储所有的飞轮数据,例如模型版本所需的输入和输出数据。
Amazon Comprehend 会在您创建飞轮时指定的 Amazon S3 位置创建数据湖。您可以将位置指定为 Amazon S3 存储桶或Amazon S3 存储桶中的新文件夹。
数据湖文件夹结构
当 Amazon Comprehend 创建数据湖时,它会在 Amazon S3 位置设置以下文件夹结构。
警告
Amazon Comprehend 可管理数据湖文件夹的组织和内容。请务必使用 Amazon Comprehend API 操作来修改数据湖文件夹,否则您的飞轮可能无法正常运行。
Document Pool Annotations Pool Staging Model Datasets (data for each version of the model) VersionID-1 Training Test ModelStats VersionID-2 Training Test ModelStats
要查看模型版本的训练评估,请执行以下步骤:
在数据湖的根级别打开名为模型数据集的文件夹。此文件夹包含每个模型版本的子文件夹。
打开相关模型版本的文件夹。
打开名为的文件夹ModelStats以查看模型的统计数据。
数据湖管理
Amazon Comprehend 代表您执行以下任务来管理数据湖:
定义数据湖的文件夹结构,并将数据集导入到相应的文件夹中。
-
管理训练模型所需的输入文档(例如文本文件和注释文件)。
-
管理与模型的每个版本相关的训练和评估输出数据。
管理数据湖中存储文件的加密。
Amazon Comprehend 执行数据湖的所有数据创建和更新操作。您保留对数据湖中数据的完全访问权限。例如:
您可以完全访问数据湖的内容。
删除飞轮后,数据湖仍然可用。
您可以为包含数据湖的 Amazon S3 存储桶配置访问日志。
您可以为数据提供加密密钥。您在创建飞轮时,将指定这些内容。
我们建议您遵循以下最佳实操:
-
不要手动将自己的文件夹或文件添加到数据湖中。请勿修改或删除数据湖中的任何文件。
请务必使用 Amazon Comprehend 创建和更新操作来添加或修改数据湖中的数据。例如,用于
CreateDataset
提供训练或测试数据以及StartFlywheelIteration
为模型版本生成评估数据。-
数据湖结构可能会随着时间的推移而演变。不要创建明确依赖数据湖结构的下游脚本或程序。
-
在为飞轮提供数据湖位置时,我们建议为与所有飞轮相关的数据创建一个通用前缀,或者为每个飞轮使用不同的前缀。我们不建议使用一个飞轮的完整数据湖路径作为另一个飞轮的前缀。