选择您的 Cookie 首选项

我们使用必要 Cookie 和类似工具提供我们的网站和服务。我们使用性能 Cookie 收集匿名统计数据,以便我们可以了解客户如何使用我们的网站并进行改进。必要 Cookie 无法停用,但您可以单击“自定义”或“拒绝”来拒绝性能 Cookie。

如果您同意,AWS 和经批准的第三方还将使用 Cookie 提供有用的网站功能、记住您的首选项并显示相关内容,包括相关广告。要接受或拒绝所有非必要 Cookie,请单击“接受”或“拒绝”。要做出更详细的选择,请单击“自定义”。

配置数据集

聚焦模式
配置数据集 - Amazon Comprehend

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

要将带标签的训练或测试数据添加到飞轮中,请使用 Amazon Comprehend 控制台或 API 创建数据集。

您可以将每个数据集配置为训练数据或测试数据。您可以将数据集与特定的飞轮和自定义模型相关联。创建数据集时,Amazon Comprehend 会将数据上传到飞轮的数据湖。有关训练数据文件格式的详细信息,请参阅 准备分类器训练数据准备实体识别器训练数据

当您删除飞轮时,Amazon Comprehend 会删除数据集。上传的数据在数据湖中仍然可用。

创建数据集(控制台)

创建数据集
  1. 登录 AWS Management Console 并打开 Amazon Comprehend 控制台

  2. 从左侧菜单中选择飞轮,然后选择要在其中添加数据的飞轮。

  3. 选择数据集选项卡。

  4. 训练数据集测试数据集表中,选择创建数据集

  5. 数据集详细信息下,输入数据集的名称和可选描述。

  6. 数据规范下,选择数据格式数据集类型配置字段。

  7. (可选)在输入格式下,选择输入文档的格式。

  8. S3 上的注释位置下,输入注释文件的 Amazon S3 位置。

  9. S3 上的训练数据位置下,输入文档文件的 Amazon S3 位置。

  10. 选择创建

创建数据集 (API)

您可以使用该CreateDataset操作来创建数据集。

aws comprehend create-dataset \ --flywheel-arn "myFlywheel2" \ --dataset-name "my-training-dataset" --dataset-type "TRAIN" --description "my training dataset" --cli-input-json file://inputConfig.json }

inputConfig.json 文件包含以下代码。

{ "DataFormat": "COMPREHEND_CSV", "DocumentClassifierInputDataConfig": { "S3Uri": "s3://my-comprehend-datasets/multilabel_train.csv" } }

要在数据集中添加或移除标签,请使用TagResourceUntagResource操作。

描述数据集

使用 Amazon Compreh DescribeDatasetend 操作检索有关飞轮的配置信息。

aws comprehend describe-dataset \ --dataset-arn "datasetARN"

响应包含以下内容。

{ "DatasetProperties": { "DatasetArn": "arn:aws::comprehend:aws-region:111122223333:flywheel/myTestFlywheel/dataset/train-dataset", "DatasetName": "train-dataset", "DatasetType": "TRAIN", "DatasetS3Uri": "s3://my-test-datalake/flywheelbasictest/myTestFlywheel/schemaVersion=1/20220801T014326Z/datasets/train-dataset/20220801T194844Z", "Description": "Good Dataset", "Status": "COMPLETED", "NumberOfDocuments": 90, "CreationTime": 1659383324.297 } }
隐私网站条款Cookie 首选项
© 2025, Amazon Web Services, Inc. 或其附属公司。保留所有权利。