即時自訂分析的輸入 - Amazon Comprehend

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

即時自訂分析的輸入

使用自定義模型進行實時分析需要單個文檔作為輸入。下列主題說明您可以使用的輸入文件類型。

純文字文件

將輸入文件提供為 UTF-8 格式的文字。

半結構化文件

半結構化文件包括原生 PDF 文件和 Word 文件。

根據預設,即時自訂分析會使用 Amazon Comprehend 剖析器從 Word 檔案和數位 PDF 檔案擷取文字。對於 PDF 檔案,您可以覆寫此預設值,並使用 Amazon Textract 擷取文字。請參閱 設定文字擷取選項

影像檔案和掃描的 PDF 檔案

支援的影像類型包括 JPEG、PNG 和 TIFF。

根據預設,自訂實體辨識會使用 Amazon Textract DetectDocumentText API 操作從影像檔案和掃描的 PDF 檔案擷取文字。您可以覆寫此預設值,改為使用 AnalyzeDocument API 作業。請參閱 設定文字擷取選項

Amazon Textract 輸出

您可以提供來自 Amazon Textract DetectDocumentText API 或 API 的 JSON 輸出,做為即時 AnalyzeDocument API 操作的輸入,以進行自訂分類和自訂實體辨識。Amazon Comprehend 支援此輸入類型,用於即時 API 作業,但不支援主控台。

即時分析的最大文件大小

對於所有輸入文件類型,輸入檔案最多為一頁,不超過 10,000 個字元。

下表顯示輸入文件的最大檔案大小。

檔案類型 大小上限 (API) 最大尺寸(控制台)
UTF-8 文字文件 10 KB 10 KB
PDF 文件 10 MB 5 MB
文字文件 10 MB 1 MB
影像檔 10 MB 5 MB
文 Textract 輸出檔案 1 MB N/A

半結構化文件中的錯誤

從半結構化文件ClassifyDocument或影像檔案擷取文字時,或 DetectEntitiesAPI 作業可能會遇到文件層級或頁面層級錯誤。

頁面層級錯誤

如果ClassifyDocumentDetectEntitiesAPI 作業在處理輸入文件中的頁面時發生錯誤,則 API 回應會針對每個錯誤在「錯誤」清單中包含一個項目。

錯誤清單ErrorCode中的項目包含下列其中一個值:

  • 文字檔案 — Amazon Textract 法讀取頁面。如需 Amazon Textract 中頁面限制的詳細資訊,請參閱 Amazon Textract 中的頁面配額

  • 已提供 _ 通過 _ 超過 — 請求數超出您的輸送量限制。如需 Amazon Textract 中輸送量配額的詳細資訊,請參閱 Amazon Textract 中的預設配額

  • 頁面字元超過 — 頁面上的文字字元太多 (最多 10,000 個字元)。

  • 頁面大小超出 — 最大頁面大小為 10 MB。

  • 內部伺服器錯誤 — 請求遇到服務問題。請再次嘗試 API 要求。

文件層級錯誤

如果ClassifyDocumentDetectEntitiesAPI 作業在輸入文件中偵測到文件層級錯誤,API 會傳回InvalidRequestException錯誤回應。

在錯誤回應中,Reason欄位包含值INVALID_DOCUMENT

Detail欄位包含下列其中一個值:

  • 文件大小超出 — 文件大小太大。檢查檔案大小,然後重新提交要求。

  • 不支援的文件類型 — 不支援文件類型。檢查檔案類型並重新提交請求。

  • 超出頁面限制 — 文件中頁面過多。檢查檔案中的頁數,然後重新提交要求。

  • 文本訪問被拒絕 _ 異常 — 訪問被拒絕 Amazon Textract。確認您的帳戶具有使用 Amazon Textract DetectDocumentTextAnalyzeDocumentAPI 操作的權限,並重新提交請求。