翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

# リアルタイムカスタム分析用の入力
<a name="idp-inputs-sync"></a>

カスタムモデルを使用したリアルタイム分析では、1 つのドキュメントを入力として扱います。次のトピックでは、使用可能な入力ドキュメントタイプについて説明します。　

**Topics**
+ [プレーンテキストドキュメント](#idp-inputs-sync-text)
+ [半構造化ドキュメント](#idp-inputs-sync-semi)
+ [イメージファイルとスキャンした PDF ファイル](#idp-inputs-sync-ocr)
+ [Amazon Textract 出力](#idp-inputs-sync-textract)
+ [リアルタイム分析用の最大ドキュメントサイズ　](#idp-inputs-sync-sizes)
+ [半構造化ドキュメントのエラー](#idp-inputs-sync-err)

## プレーンテキストドキュメント
<a name="idp-inputs-sync-text"></a>

入力ドキュメントは UTF-8 形式のテキストを提供してください。

## 半構造化ドキュメント
<a name="idp-inputs-sync-semi"></a>

半構造化ドキュメントには、ネイティブ PDF ドキュメントと Word ドキュメントが含まれます。

デフォルトでは、リアルタイムカスタム分析は Amazon Comprehend パーサーを使用して Word ファイルとデジタル PDF ファイルからテキストを抽出します。PDF ファイルの場合は、このデフォルトをオーバーライドして、Amazon Textract を使用してテキストを抽出できます。「[テキスト抽出オプションの設定](idp-set-textract-options.md)」を参照してください。

## イメージファイルとスキャンした PDF ファイル
<a name="idp-inputs-sync-ocr"></a>

サポートされている画像タイプには JPEG、PNG、TIFF があります。

デフォルトでは、カスタムエンティティレコグナイザーは Amazon Textract `DetectDocumentText` API オペレーションを使用して、画像ファイルとスキャンした PDF ファイルからテキストを抽出します。このデフォルトをオーバーライドして、代わりに `AnalyzeDocument` API オペレーションを使用できます。「[テキスト抽出オプションの設定](idp-set-textract-options.md)」を参照してください。

## Amazon Textract 出力
<a name="idp-inputs-sync-textract"></a>

Amazon Textract `DetectDocumentText` API または `AnalyzeDocument` API からの JSON 出力を、カスタム分類とカスタムエンティティレコグナイザー用のリアルタイム API オペレーションへの入力として提供できます。Amazon Comprehend は、リアルタイム API オペレーションではこの入力タイプをサポートしていますが、コンソールではサポートしていません。

## リアルタイム分析用の最大ドキュメントサイズ　
<a name="idp-inputs-sync-sizes"></a>

すべての入力ドキュメントタイプで、入力ファイルの最大数は 1 ページで、10,000 文字以下です。

次の表は、入力ドキュメントの最大ファイルサイズを示しています。


| ファイルタイプ | 最大サイズ (API) | 最大サイズ (コンソール) | 
| --- | --- | --- | 
| A UTF-8 テキストドキュメント | 10 KB | 10 KB | 
| PDF ドキュメント | 10 MB | 5 MB | 
| Word ドキュメント | 10 MB | 1 MB | 
| 画像ファイル | 10 MB | 5 MB | 
| Textract 出力ファイル | 1 MB | 該当なし | 

## 半構造化ドキュメントのエラー
<a name="idp-inputs-sync-err"></a>

 [ClassifyDocument](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_ClassifyDocument.html) または [DetectEntities](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_DetectEntities.html) API オペレーションでは、半構造化ドキュメントまたは画像ファイルからテキストを抽出する際に、ドキュメントレベルまたはページレベルのエラーが発生する可能性があります。

### ページレベルのエラー
<a name="idp-inputs-sync-page-err"></a>

 [ClassifyDocument](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_ClassifyDocument.html) または [DetectEntities](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_DetectEntities.html) API オペレーションで入力ドキュメント内のページを処理中にエラーが発生した場合、API レスポンスには各エラーのエントリが[エラーリスト](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_ErrorsListItem.html)に含まれています。

`ErrorCode` エラーリストのエントリには、次のいずれかの値が含まれます。
+ TEXTRACT\$1BAD\$1PAGE — Amazon Textract はページを読み取ることができません。Amazon Textract のページ制限の詳細については、[「Amazon Textract のページクォータ」](https://docs.aws.amazon.com/textract/latest/dg/limits-document.html) を参照してください。
+ TEXTRACT\$1PROVISIONED\$1THROUTPUT\$1EXCEEDED — リクエストの数がスループット制限を超えました。Amazon Textract のスループットクォータの詳細については、[「Amazon Textract のデフォルトクォータ」](https://docs.aws.amazon.com/textract/latest/dg/limits-quotas-explained.html) を参照してください。
+ PAGE\$1CHARACTERS\$1EXCEEDED — ページ上のテキスト文字数が多すぎます (最大 10,000 文字)。
+ PAGE\$1SIZE\$1EXCEEDED — 最大ページサイズは 10 MB です。
+ INTERNAL\$1SERVER\$1ERROR — リクエストにサービスの問題が発生しました。API リクエストを再試行してください。

### ドキュメントレベルのエラー
<a name="idp-inputs-sync-doc-err"></a>

[ClassifyDocument](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_ClassifyDocument.html) または [DetectEntities](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_DetectEntities.html) API オペレーションが入力ドキュメントでドキュメントレベルのエラーを検出すると、API は `InvalidRequestException` エラーレスポンスを返します。

エラーレスポンスの **Reason** フィールドには `INVALID_DOCUMENT` 値が含まれています。

**Detail** フィールドは、次のいずれかの値を含みます。
+ DOCUMENT\$1SIZE\$1EXCEEDED — ドキュメントのサイズが大きすぎます。　 ファイルのサイズを確認して、リクエストを再送信してください。　
+ UNSUPPORTED\$1DOC\$1TYPE — ドキュメントタイプはサポートされていません。　 ファイルタイプを確認して、リクエストを再送信してください。　
+ PAGE\$1LIMIT\$1EXCEEDED — ドキュメント内のページ数が多すぎます。　 ファイルのページ数を確認して、リクエストを再送信してください。　
+ TEXTRACT\$1ACCESS\$1DENIED\$1EXCEPTION — Amazon Textract へのアクセスが拒否されました。　 アカウントに Amazon Textract [DetectDocumentText](https://docs.aws.amazon.com/textract/latest/dg/API_DetectDocumentText.html) と [AnalyzeDocument](https://docs.aws.amazon.com/textract/latest/dg/API_AnalyzeDocument.html) API オペレーションを使用する権限があることを確認し、リクエストを再送信してください。