指南和配额 - Amazon Comprehend

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

指南和配额

除非另行指定,否则 Amazon Comprehend 的配额是按区域计算的。如果应用程序需要,您可以请求提高可调配额。有关配额以及如何请求增加配额的更多信息,请参阅 AWS 服务限额

支持的区域

Amazon Comprehend 在以下地区上市: AWS

  • 美国东部(俄亥俄)

  • 美国东部(弗吉尼亚州北部)

  • US West(Oregon)

  • 亚太地区(孟买)

  • 亚太地区(首尔)

  • 亚太地区(新加坡)

  • 亚太地区(悉尼)

  • 亚太地区(东京)

  • 加拿大(中部)

  • 欧洲地区(法兰克福)

  • 欧洲地区(爱尔兰)

  • 欧洲地区(伦敦)

  • AWS GovCloud (美国西部)

默认情况下,Amazon Comprehend 在每个支持的区域提供所有 API 操作。有关例外情况,请参阅 文档处理

有关 API 终端节点的信息,请参阅《Amazon Web Services 一般参考》中的 Amazon Comprehend 区域和终端节点

要查看某个区域的当前配额或请求增加可调整配额的配额,请打开服务限额控制台

内置模型的配额

Amazon Comprehend 提供内置模型供您分析 UTF-8 文本文档。Amazon Comprehend 提供使用内置模型的同步和异步操作。

实时(同步)分析

本节介绍与使用内置模型进行实时分析相关的配额。

单一文档操作

Amazon Comprehend API 提供将单个文档作为输入的操作。以下配额适用于这些操作。

单个文档操作的常规配额

以下配额适用于用于检测实体、关键短语或主要语言的实时分析。对于实体检测,这些配额适用于使用内置模型进行的检测。有关自定义实体检测,请参阅 自定义实体识别 中的配额。

描述 配额/指南
最大文档大小 100KB
单个文档操作的特定操作配额

以下配额适用于检测情绪、目标情绪和语法的实时分析。

描述 配额/指南
最大文档大小 5 KB

多个文档操作

Amazon Comprehend API 提供批处理操作,只需一个 API 请求即可处理多个文档。以下配额适用于批处理操作。

描述 配额/指南
最大文档大小 5 KB
每次请求的最大文件数 25

有关使用批处理文档操作的更多信息,请参阅 多文档同步处理

对实时(同步)请求进行节流

Amazon Comprehend 对同步请求应用动态节流。如果系统处理带宽可用,Amazon Comprehend 会逐渐增加它处理的请求数量。为了控制您的应用程序对同步 API 操作的使用,我们建议您在应用程序中开启账单提醒或实施速率限制。

异步分析

本节介绍与使用内置模型进行异步分析相关的配额。

每个异步 API 操作最多支持 10 个活动作业。要查看每个 API 操作的配额,请参阅《Amazon Web Services 一般参考》中 Amazon Comprehend 终端节点和配额中的服务限额表。

对于可调整配额,您可以使用服务限额控制台请求增加配额。

异步操作的常规配额

您可以使用控制台或任何 API Start* 操作运行异步分析作业。有关何时使用异步操作的信息,请参阅 异步批处理。以下配额适用于内置模型的大多数 API Start* 操作。有关例外情况,请参阅 异步作业的特定操作配额

描述 配额/指南
检测实体、关键短语、PII 和语言的作业中每个文档的最大大小 1 MB
请求中所有文件的最大总大小 5 GB
请求中所有文件的最小总大小 500 字节
最大文件数,每个文件一个文档 1000000
最大总行数,每行一个文档 1000000

异步作业的特定操作配额

本节介绍特定异步操作的配额。如果下表中未指定配额,则适用常规配额值。

情绪

您使用该操作创建的异步情绪StartSentimentDetectionJob作业具有以下配额。

描述 配额/指南
每个输入文档的最大大小 5 KB
目标情绪

您通过该操作创建的异步定向情绪StartTargetedSentimentDetectionJob作业具有以下配额。

描述 配额/指南
支持的文档格式 UTF-8
作业中每个文档的最大大小 10 KB
作业中所有文档的最大大小 300 MB
最大文件数,每个文件一个文档 30000
最大总行数,每行一个文档(适用于请求中的所有文件) 30000
事件

您通过该StartEventsDetectionJob操作创建的异步事件检测任务具有以下配额。

描述 配额
字符编码 UTF-8
作业中所有文件的总大小 50 MB
作业中每个文档的最大大小 10 KB
最大文件数,每个文件一个文档 5000
最大总行数,每行一个文档(适用于请求中的所有文件) 5000
主题建模

您使用操作创建的异步主题建模StartTopicsDetectionJob作业具有以下配额。

描述 配额/指南
字符编码 UTF-8
返回主题的最大数量 100
一个文件的最大文件大小,每个文件一个文档 100 MB

有关更多信息,请参阅 主题建模

对异步请求进行节流

每个异步 API 操作支持每秒的最大请求数(每个区域、每个账户),还支持最多 10 个活动作业。要查看每个 API 操作的配额,请参阅《Amazon Web Services 一般参考》中 Amazon Comprehend 终端节点和配额中的服务限额表。

对于可调整配额,您可以使用服务限额控制台请求增加配额。

自定义模型的配额

您可以使用 Amazon Comprehend 构建自己的自定义模型,用于自定义分类和自定义实体识别。本节提供与训练和使用自定义模型相关的指南和配额。有关自定义模型的更多信息,请参阅 Amazon Comprehend 自定义

常规配额

Amazon Comprehend 为每种类型的输入文档设置了常规大小配额,您可以使用自定义模型进行分析。有关实时分析配额,请参阅 用于实时分析的最大文档大小。有关异步分析配额,请参阅 异步自定义分析的输入

每个异步 API 操作支持每秒的最大请求数(每个区域、每个账户),还支持最多 10 个活动作业。要查看每个 API 操作的配额,请参阅《Amazon Web Services 一般参考》中 Amazon Comprehend 终端节点和配额中的服务限额表。

对于可调整配额,您可以使用服务限额控制台请求增加配额。

终端节点配额

您可以创建终端节点以使用自定义模型运行实时分析。有关终端节点的信息,请参阅 管理 Amazon Comprehend 终端节点

以下配额适用于终端节点。有关请求增加配额的更多信息,请参阅 AWS 服务限额

描述 配额/指南
每个账户每个区域的活动终端节点的最大数量 20
每个账户每个区域的推理单元的最大数量 200
每个区域每个终端节点推理单元的最大数量 50
每个推理单元的最大吞吐量(字符) 每秒 100 个
每个推理单元的最大吞吐量(文档) 每秒 2 个

文档分类

本节介绍以下文档分类操作的指南和配额:

文件分类的常规配额

下表描述了与训练自定义分类器相关的常规配额。

描述 配额/指南
用户名的最大长度 5000 个字符
类数(多类模型) 2 - 1000
类数(多标签模式) 2 - 100
注释格式
每类的最小注释数量(多类模式) 10
每类的最小注释数量(多标签模式) 10
最小注释数量(多标签模式) 50
CSV 文件格式
每类最小训练文档数量(多类模式) 50
每类最小训练文档数量(多标签模式) 10
最小训练文档数量(多标签模式) 50

纯文本文档的分类

您可以使用纯文本输入文档创建和训练纯文本模型。Amazon Comprehend 提供实时和异步操作,使用纯文本模型对纯文本文档进行分类。

训练

下表描述了与使用纯文本文档训练自定义分类器相关的配额。

描述 配额/指南
训练作业中所有文件的总大小 5 GB
用于训练自定义分类器的增强清单文件的最大数量 5
每个增强的清单文件的最大属性名称数量 5
属性名称的最大长度 63 个字符
实时(同步)分析

下表描述了与纯文本文档实时分类相关的配额。

描述 配额/指南
每个同步请求的最大文档数 1
最大文本文档大小(UTF-8 编码) 10 KB
异步分析

下表描述了与纯文本文档异步分类相关的配额。

描述 配额/指南
异步作业中所有文件的总大小 5 GB
一个文件的最大文件大小,每个文件一个文档 10MB
最大文件数,每个文件一个文档 1000000
最大总行数,每行一个文档(适用于请求中的所有文件) 1000000

半结构化文档的分类

本节介绍半结构化文档的文档分类指南和配额。要对半结构化文档进行分类,请使用使用原生输入文档训练过的原生文档模型。

使用半结构化文档训练原生文档模型

下表描述了与使用半结构化文档(例如 PDF 文档、Word 文档和图像文件)训练自定义分类器相关的配额。

描述 配额/指南
所有文档的最大页数 10000
最大注释文件大小(所有 CSV 文件大小总和) 5MB
文档语料库大小(训练和测试文档) 10 GB
训练和测试文件的文件大小
图像文件大小(JPG、PNG、TIFF)。 1 字节 - 10 MB。

TIFF 文件:最多一页。

PDF 文档的页面大小 1 字节 - 10 MB
Word 文档的页面大小 1 字节 - 10 MB
Amazon Textract API 输出 JSON 大小 1 字节 - 1 MB
实时(同步)分析

本节介绍与半结构化文档的实时分类相关的配额。

下表显示输入文档的最大文件大小。对于所有输入文档类型,输入文件的最大值为一页,不超过 10000 个字符。

文件类型 最大大小 (API) 最大大小(控制台)
UTF-8 文本文档 10 KB 10 KB
PDF 文档 10MB 5MB
Word 文档 10MB 5MB
图像文件 10MB 5MB
Amazon Textract API 输出大小 1 MB 不适用
异步分析

下表描述了与半结构化文档异步分类相关的配额。

描述 配额/指南
作业所有输入文档的最大页数 25000
文档语料库大小 25 GB
图像文件大小(JPG、PNG 或 TIFF) 1 字节 - 10 MB。

TIFF 文件:最多一页。

PDF 文档的页面大小 1 字节 - 10 MB
Word 文档的页面大小 1 字节 - 10 MB
Textract API 输出 JSON 大小 1 字节 - 1 MB。

自定义实体识别

本节介绍自定义实体识别的以下操作的指南和配额:

纯文本文档的自定义实体识别

Amazon Comprehend 提供异步和同步操作,可使用自定义实体识别器分析纯文本文档。

训练

本节介绍与训练自定义实体识别器分析纯文本文档相关的配额。要训练模型,您可以提供实体列表或一组带注释的文本文档。

下表描述了与使用实体列表训练模型相关的配额。

描述 配额/指南
每个模型的实体数量 1 - 25
文件大小 (UTF-8) 1 - 5000 字节
实体列表中的项目数 1 - 1 百万
条目列表中单个条目(去除格式后)的长度 1 - 5000
实体列表语料库大小(所有文档合并为纯文本) 5 KB - 200 MB

下表描述了与使用注释文本文档训练模型相关的配额。

描述 配额/指南
每个模型/自定义实体识别器的实体数量 1 - 25
文件大小 (UTF-8) 1 - 5000 字节
文档数量(参见纯文本注释 3 - 200000
文档语料库大小(所有文档合并为纯文本) 5 KB - 200 MB
每个实体的最小注释数量 25
实时(同步)分析

下表描述了与纯文本文档实时分析相关的配额。

描述 配额/指南
每个同步请求的最大文档数 1
最大文本文档大小(UTF-8 编码) 5 KB
异步分析

下表描述了与纯文本文档的异步实体识别相关的配额。

描述 配额/指南
文件大小 (UTF-8) 1 字节 - 1 MB
最大文件数,每个文件一个文档 1000000
最大总行数,每行一个文档(适用于请求中的所有文件) 1000000
文档语料库大小(所有文档合并为纯文本) 1 字节 - 5 GB

半结构化文档的自定义实体识别

Amazon Comprehend 提供异步和同步操作,可使用自定义实体识别器分析半结构后化文档。您必须使用带注释的 PDF 文档训练模型。

训练

下表描述了与训练自定义实体识别器 (CreateEntityRecognizer) 以分析半结构化文档相关的配额。

描述 配额/指南
每个模型/自定义实体识别器的实体数量 1 - 25
最大注释文件大小 (UTF-8 JSON) 5MB
文档数量 250 - 10000
文档语料库大小(所有文档合并为纯文本) 5 KB - 1 GB
每个实体的最小注释数量 100
用于训练自定义实体识别器的增强清单文件的最大数量 5
每个增强的清单文件的最大属性名称数量 5
属性名称的最大长度 63 个字符
实时(同步)分析

本节介绍与半结构化文档实时分析相关的配额。

下表显示输入文档的最大文件大小。对于所有输入文档类型,输入文件的最大值为一页,不超过 10000 个字符。

文件类型 最大大小 (API) 最大大小(控制台)
UTF-8 文本文档 10 KB 10 KB
PDF 文档 10MB 5MB
Word 文档 10MB 5MB
图像文件 10MB 5MB
Textract 输出文件 1 MB 不适用
异步分析

本节介绍半结构化文档异步分析的配额。

描述 配额/指南
图像尺寸(JPG 或 PNG) 1 字节 - 10 MB
图像尺寸 (TIFF) 1 字节 - 10 MB。最多一页。
文档大小 (PDF) 1 字节 - 50 MB
文档大小 (Docx) 1 字节 - 5 MB
文件大小 (UTF-8) 1 字节 - 1 MB
最大文件数量,每个文件一个文档(图像文件或 PDF/Word 文档不允许每行一个文档) 500
PDF 或 Docx 文件的最大页数 100
文本提取后的文档语料库大小(纯文本,所有文件合并) 1 字节 - 5 GB

有关图像限制的更多信息,请参阅 Amazon Textract 中的硬限制

飞轮配额

使用飞轮管理自定义模型版本的训练和跟踪,以进行自定义分类和自定义实体识别。有关飞轮的更多信息,请参阅 飞轮

飞轮的常规配额

以下配额适用于飞轮和飞轮迭代。

描述 配额/指南
最大飞轮数量 50
处于“创建”状态的飞轮的最大数量 10
每个飞轮训练数据集的最大数量 50
每个飞轮测试数据集的最大数量 50
处于“提取”状态的数据集的最大数量 10
每个账户正在进行的飞轮迭代的最大数量 10

自定义分类模型的数据集配额

当您为与自定义分类模型关联的飞轮摄取数据集时,适用以下配额。

描述 配额/指南
每类最小训练文档数量(多标签模式) 50
最大训练文档数 1000000
最小数据集大小 500 字节
最大数据集大小 5 GB
一个文件的最大文件大小,每个文件一个文档 10MB

自定义实体识别模型的数据集配额

当您为与自定义实体识别模型关联的飞轮提取数据集时,适用以下配额。

描述 配额/指南
最大文档大小 5 KB
最小训练文档数 3
最大训练文档数 200,000
每个实体的最小注释数量 25
最大数据集大小 200 MB