純文字文件半結構化文件影像檔案和掃描的 PDF 檔案 Amazon Textract 輸出即時分析的文件大小上限半結構化文件中的錯誤

即時自訂分析的輸入

使用自訂模型的即時分析會採用單一文件做為輸入。下列主題說明您可以使用的輸入文件類型。

主題

純文字文件
半結構化文件
影像檔案和掃描的 PDF 檔案
Amazon Textract 輸出
即時分析的文件大小上限
半結構化文件中的錯誤

純文字文件

提供 UTF-8-formatted文字的輸入文件。

半結構化文件

半結構化文件包括原生 PDF 文件和 Word 文件。

根據預設，即時自訂分析會使用 Amazon Comprehend 剖析器，從 Word 檔案和數位 PDF 檔案擷取文字。對於 PDF 檔案，您可以覆寫此預設值，並使用 Amazon Textract 擷取文字。請參閱設定文字擷取選項。

影像檔案和掃描的 PDF 檔案

支援的影像類型包括 JPEG、PNG 和 TIFF。

根據預設，自訂實體辨識會使用 Amazon Textract DetectDocumentText API 操作，從影像檔案和掃描的 PDF 檔案擷取文字。您可以覆寫此預設值，改為使用 AnalyzeDocument API 操作。請參閱設定文字擷取選項。

Amazon Textract 輸出

您可以從 Amazon Textract DetectDocumentText API 或 AnalyzeDocument API 提供 JSON 輸出，做為自訂分類和自訂實體辨識之即時 API 操作的輸入。Amazon Comprehend 支援即時 API 操作的此輸入類型，但不支援主控台。

即時分析的文件大小上限

對於所有輸入文件類型，輸入檔案上限為一頁，且不超過 10，000 個字元。

下表顯示輸入文件的檔案大小上限。

檔案類型	大小上限 (API)	大小上限（主控台）
UTF-8 文字文件	10 KB	10 KB
PDF 文件	10 MB	5 MB
Word 文件	10 MB	1 MB
影像檔	10 MB	5 MB
Textract 輸出檔案	1 MB	N/A

半結構化文件中的錯誤

ClassifyDocument 或 DetectEntities API 操作可能會遇到文件層級或頁面層級錯誤。

頁面層級錯誤

如果 ClassifyDocument 或 DetectEntities API 操作在處理輸入文件中的頁面時發生錯誤，則 API 回應會針對每個錯誤在錯誤清單中包含一個項目。

錯誤清單項目ErrorCode中的包含下列其中一個值：

TEXTRACT_BAD_PAGE – Amazon Textract 無法讀取頁面。如需 Amazon Textract 中頁面限制的詳細資訊，請參閱 Amazon Textract 中的 Page Quotas。
TEXTRACT_PROVISIONED_THROUGHPUT_EXCEEDED – 請求數量超過您的輸送量限制。如需 Amazon Textract 中輸送量配額的詳細資訊，請參閱 Amazon Textract 中的預設配額。
PAGE_CHARACTERS_EXCEEDED – 頁面上的文字字元過多（最多 10，000 個字元）。
PAGE_SIZE_EXCEEDED – 頁面大小上限為 10 MB。
INTERNAL_SERVER_ERROR – 請求遇到服務問題。再次嘗試 API 請求。

文件層級錯誤

如果 ClassifyDocument 或 DetectEntities API 操作在您的輸入文件中偵測到文件層級錯誤，API 會傳回InvalidRequestException錯誤回應。

在錯誤回應中， Reason 欄位包含值 INVALID_DOCUMENT。

Detail 欄位包含下列其中一個值：

DOCUMENT_SIZE_EXCEEDED – 文件大小太大。檢查檔案大小並重新提交請求。
UNSUPPORTED_DOC_TYPE – 不支援文件類型。檢查檔案類型並重新提交請求。
PAGE_LIMIT_EXCEEDED – 文件中太多頁面。檢查檔案中的頁數，然後重新提交請求。
TEXTRACT_ACCESS_DENIED_EXCEPTION – 拒絕存取 Amazon Textract。確認您的帳戶具有使用 Amazon Textract DetectDocumentText 和 AnalyzeDocument API 操作的許可，並重新提交請求。

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

文件慣用形式

文件處理

非同步分析的輸入