本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
使用自定义模型进行实时分析将单个文档作为输入。以下主题描述了您可以使用的输入文档类型。
纯文本文档
以 UTF-8 格式的文本形式提供输入文档。
半结构化文档
半结构化文档包括原生 PDF 文档和 Word 文档。
默认情况下,实时自定义分析使用 Amazon Comprehend 解析器从 Word 文件和数字 PDF 文件中提取文本。对于 PDF 文件,您可以覆盖此默认设置,然后使用 Amazon Textract 提取文本。请参阅 设置文本提取选项。
图像文件和扫描的 PDF 文件
支持的图像类型包括 JPEG、PNG 和 TIFF。
默认情况下,自定义实体识别使用 Amazon Textract DetectDocumentText
API 操作从图像文件和扫描的 PDF 文件中提取文本。您可以覆盖此默认值以改用 AnalyzeDocument
API 操作。请参阅 设置文本提取选项。
Amazon Textract 输出
您可以提供 Amazon Textract DetectDocumentText
API 或 AnalyzeDocument
API 的 JSON 输出作为实时 API 操作的输入,用于自定义分类和自定义实体识别。Amazon Comprehend 支持实时 API 操作的这种输入类型,但不支持控制台。
用于实时分析的最大文档大小
对于所有输入文档类型,输入文件的最大值为一页,不超过 10000 个字符。
下表显示输入文档的最大文件大小。
文件类型 | 最大大小 (API) | 最大大小(控制台) |
---|---|---|
UTF-8 文本文档 | 10 KB | 10 KB |
PDF 文档 | 10MB | 5MB |
Word 文档 | 10MB | 1 MB |
图像文件 | 10MB | 5MB |
Textract 输出文件 | 1 MB | 不适用 |
半结构化文档中的错误
从半结构化文档ClassifyDocument或图像文件中提取文本时,或 DetectEntitiesAPI 操作可能会遇到文档级或页面级错误。
页面级错误
如果ClassifyDocument或 DetectEntitiesAPI 操作在处理输入文档中的页面时遇到错误,则 API 响应会在错误列表中为每个错误添加一个条目。
错误列表条目中的 ErrorCode
包含以下值之一:
-
TEXTRACT_BAD_PAGE:Amazon Textract 无法读取该页面。有关 Amazon Textract 页面限制的更多信息,请参阅 Amazon Textract 中的页面配额。
-
TEXTRACT_PROVISIONED_THROUGHPUT_EXCEEDED:请求数量超过了您的吞吐量限制。有关 Amazon Textract 吞吐量配额的更多信息,请参阅 Amazon Textract 中的默认配额。
-
PAGE_CHARACTERS_EXCEEDED:页面上的文本字符太多(最多 10000 个字符)。
-
PAGE_SIZE_EXCEEDED:最大页面大小为 10 MB。
-
INTERNAL_SERVER_ERROR:请求遇到了服务问题。请重试 API 请求。
文档级错误
如果ClassifyDocument或 DetectEntitiesAPI 操作在您的输入文档中检测到文档级错误,则 API 会返回InvalidRequestException
错误响应。
在错误响应中,Reason 字段包含值 INVALID_DOCUMENT
。
Detail 字段包含以下值之一:
-
DOCUMENT_SIZE_EXCEEDED:文档大小太大。检查您的文件大小并重新提交请求。
-
UNSUPPORTED_DOC_TYPE:不支持文档类型。检查文件类型并重新提交请求。
-
PAGE_LIMIT_EXCEEDED:文档中的页数太多。检查文件中的页数并重新提交请求。
-
TEXTRACT_ACCESS_DENIED_EXCEPTION:拒绝访问 Amazon Textract。确认您的账户有权使用 Amazon Textract DetectDocumentText和 AnalyzeDocumentAPI 操作,然后重新提交申请。