

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 即時自訂分析的輸入
<a name="idp-inputs-sync"></a>

使用自訂模型的即時分析會採用單一文件做為輸入。下列主題說明您可以使用的輸入文件類型。

**Topics**
+ [純文字文件](#idp-inputs-sync-text)
+ [半結構化文件](#idp-inputs-sync-semi)
+ [影像檔案和掃描的 PDF 檔案](#idp-inputs-sync-ocr)
+ [Amazon Textract 輸出](#idp-inputs-sync-textract)
+ [即時分析的文件大小上限](#idp-inputs-sync-sizes)
+ [半結構化文件中的錯誤](#idp-inputs-sync-err)

## 純文字文件
<a name="idp-inputs-sync-text"></a>

提供 UTF-8-formatted文字的輸入文件。

## 半結構化文件
<a name="idp-inputs-sync-semi"></a>

半結構化文件包括原生 PDF 文件和 Word 文件。

根據預設，即時自訂分析會使用 Amazon Comprehend 剖析器，從 Word 檔案和數位 PDF 檔案擷取文字。對於 PDF 檔案，您可以覆寫此預設值，並使用 Amazon Textract 擷取文字。請參閱 [設定文字擷取選項](idp-set-textract-options.md)。

## 影像檔案和掃描的 PDF 檔案
<a name="idp-inputs-sync-ocr"></a>

支援的影像類型包括 JPEG、PNG 和 TIFF。

根據預設，自訂實體辨識會使用 Amazon Textract `DetectDocumentText` API 操作，從影像檔案和掃描的 PDF 檔案擷取文字。您可以覆寫此預設值，改為使用 `AnalyzeDocument` API 操作。請參閱 [設定文字擷取選項](idp-set-textract-options.md)。

## Amazon Textract 輸出
<a name="idp-inputs-sync-textract"></a>

您可以從 Amazon Textract `DetectDocumentText` API 或 `AnalyzeDocument` API 提供 JSON 輸出，做為自訂分類和自訂實體辨識之即時 API 操作的輸入。Amazon Comprehend 支援即時 API 操作的此輸入類型，但不支援主控台。

## 即時分析的文件大小上限
<a name="idp-inputs-sync-sizes"></a>

對於所有輸入文件類型，輸入檔案上限為一頁，且不超過 10，000 個字元。

下表顯示輸入文件的檔案大小上限。


| 檔案類型 | 大小上限 (API) | 大小上限 （主控台） | 
| --- | --- | --- | 
| UTF-8 文字文件 | 10 KB | 10 KB | 
| PDF 文件 | 10 MB | 5 MB | 
| Word 文件 | 10 MB | 1 MB | 
| 影像檔 | 10 MB | 5 MB | 
| Textract 輸出檔案 | 1 MB | N/A | 

## 半結構化文件中的錯誤
<a name="idp-inputs-sync-err"></a>

 [ClassifyDocument](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_ClassifyDocument.html) 或 [DetectEntities](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_DetectEntities.html) API 操作可能會遇到文件層級或頁面層級錯誤。

### 頁面層級錯誤
<a name="idp-inputs-sync-page-err"></a>

 如果 [ClassifyDocument](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_ClassifyDocument.html) 或 [DetectEntities](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_DetectEntities.html) API 操作在處理輸入文件中的頁面時發生錯誤，則 API 回應會針對每個錯誤在[錯誤清單中](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_ErrorsListItem.html)包含一個項目。

錯誤清單項目`ErrorCode`中的 包含下列其中一個值：
+ TEXTRACT\_BAD\_PAGE – Amazon Textract 無法讀取頁面。如需 Amazon Textract 中頁面限制的詳細資訊，請參閱 [Amazon Textract 中的 Page Quotas](https://docs.aws.amazon.com/textract/latest/dg/limits-document.html)。
+ TEXTRACT\_PROVISIONED\_THROUGHPUT\_EXCEEDED – 請求數量超過您的輸送量限制。如需 Amazon Textract 中輸送量配額的詳細資訊，請參閱 [Amazon Textract 中的預設配額](https://docs.aws.amazon.com/textract/latest/dg/limits-quotas-explained.html)。
+ PAGE\_CHARACTERS\_EXCEEDED – 頁面上的文字字元過多 （最多 10，000 個字元）。
+ PAGE\_SIZE\_EXCEEDED – 頁面大小上限為 10 MB。
+ INTERNAL\_SERVER\_ERROR – 請求遇到服務問題。再次嘗試 API 請求。

### 文件層級錯誤
<a name="idp-inputs-sync-doc-err"></a>

如果 [ClassifyDocument](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_ClassifyDocument.html) 或 [DetectEntities](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_DetectEntities.html) API 操作在您的輸入文件中偵測到文件層級錯誤，API 會傳回`InvalidRequestException`錯誤回應。

在錯誤回應中， **Reason** 欄位包含值 `INVALID_DOCUMENT`。

**Detail** 欄位包含下列其中一個值：
+ DOCUMENT\_SIZE\_EXCEEDED – 文件大小太大。檢查檔案大小並重新提交請求。
+ UNSUPPORTED\_DOC\_TYPE – 不支援文件類型。檢查檔案類型並重新提交請求。
+ PAGE\_LIMIT\_EXCEEDED – 文件中太多頁面。檢查檔案中的頁數，然後重新提交請求。
+ TEXTRACT\_ACCESS\_DENIED\_EXCEPTION – 拒絕存取 Amazon Textract。確認您的帳戶具有使用 Amazon Textract [DetectDocumentText](https://docs.aws.amazon.com/textract/latest/dg/API_DetectDocumentText.html) 和 [AnalyzeDocument](https://docs.aws.amazon.com/textract/latest/dg/API_AnalyzeDocument.html) API 操作的許可，並重新提交請求。