本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
即時自訂分析的輸入
使用自定義模型進行實時分析需要單個文檔作為輸入。下列主題說明您可以使用的輸入文件類型。
純文字文件
將輸入文件提供為 UTF-8 格式的文字。
半結構化文件
半結構化文件包括原生 PDF 文件和 Word 文件。
根據預設,即時自訂分析會使用 Amazon Comprehend 剖析器從 Word 檔案和數位 PDF 檔案擷取文字。對於 PDF 檔案,您可以覆寫此預設值,並使用 Amazon Textract 擷取文字。請參閱 設定文字擷取選項。
影像檔案和掃描的 PDF 檔案
支援的影像類型包括 JPEG、PNG 和 TIFF。
根據預設,自訂實體辨識會使用 Amazon Textract DetectDocumentText
API 操作從影像檔案和掃描的 PDF 檔案擷取文字。您可以覆寫此預設值,改為使用 AnalyzeDocument
API 作業。請參閱 設定文字擷取選項。
Amazon Textract 輸出
您可以提供來自 Amazon Textract DetectDocumentText
API 或 API 的 JSON 輸出,做為即時 AnalyzeDocument
API 操作的輸入,以進行自訂分類和自訂實體辨識。Amazon Comprehend 支援此輸入類型,用於即時 API 作業,但不支援主控台。
即時分析的最大文件大小
對於所有輸入文件類型,輸入檔案最多為一頁,不超過 10,000 個字元。
下表顯示輸入文件的最大檔案大小。
檔案類型 | 大小上限 (API) | 最大尺寸(控制台) |
---|---|---|
UTF-8 文字文件 | 10 KB | 10 KB |
PDF 文件 | 10 MB | 5 MB |
文字文件 | 10 MB | 1 MB |
影像檔 | 10 MB | 5 MB |
文 Textract 輸出檔案 | 1 MB | N/A |
半結構化文件中的錯誤
從半結構化文件ClassifyDocument或影像檔案擷取文字時,或 DetectEntitiesAPI 作業可能會遇到文件層級或頁面層級錯誤。
頁面層級錯誤
如果ClassifyDocument或 DetectEntitiesAPI 作業在處理輸入文件中的頁面時發生錯誤,則 API 回應會針對每個錯誤在「錯誤」清單中包含一個項目。
錯誤清單ErrorCode
中的項目包含下列其中一個值:
文件層級錯誤
如果ClassifyDocument或 DetectEntitiesAPI 作業在輸入文件中偵測到文件層級錯誤,API 會傳回InvalidRequestException
錯誤回應。
在錯誤回應中,Reason欄位包含值INVALID_DOCUMENT
。
此Detail欄位包含下列其中一個值:
-
文件大小超出 — 文件大小太大。檢查檔案大小,然後重新提交要求。
-
不支援的文件類型 — 不支援文件類型。檢查檔案類型並重新提交請求。
-
超出頁面限制 — 文件中頁面過多。檢查檔案中的頁數,然後重新提交要求。
-
文本訪問被拒絕 _ 異常 — 訪問被拒絕 Amazon Textract。確認您的帳戶具有使用 Amazon Textract DetectDocumentText和 AnalyzeDocumentAPI 操作的權限,並重新提交請求。