翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
非同期カスタム分析の入力
カスタム非同期分析ジョブには複数のドキュメントを入力できます。次のトピックでは、使用可能な入力ドキュメントタイプについて説明します。 最大ファイルサイズは、入力ドキュメントの種類によって異なります。
プレーンテキストドキュメント
プレーンテキストの入力ドキュメントはすべて UTF-8 形式のテキストを提供してください。次の表に、最大ファイルサイズとその他のガイドラインを示します。
注記
これらの制限は、すべての入力ファイルがプレーンテキストの場合に適用されます。
説明 | クォータ/ガイドライン |
---|---|
ファイル形式ごとのドキュメントの最大ファイルサイズ(カスタム分類) | 1 バイト~10 MB。 |
ドキュメントサイズ (カスタムエンティティ認識) | 1 バイト~1 MB。 |
最大ファイル数 (1 ファイルあたり 1 ドキュメント) | 1,000,000 |
1 行につき 1 つのドキュメントの最大合計数 (リクエスト中のすべてのファイル) | 1,000,000 |
ドキュメントコーパスサイズ (プレーンテキストの全ドキュメントを含む) | 1 バイト~5 GB |
半構造化ドキュメント
半構造化ドキュメントには、ネイティブ PDF ドキュメントと Word ドキュメントが含まれます。
次の表に、最大ファイルサイズとその他のガイドラインを示します。
説明 | クォータ/ガイドライン |
---|---|
ドキュメントサイズ (PDF) | 1 バイト~50 MB |
ドキュメントサイズ (Docx) | 1 バイト~5 MB |
ファイルの最大数 | 500 |
PDF または Docx ファイルの最大ページ数 | 100 |
テキスト抽出後のドキュメントコーパスサイズ (プレーンテキスト、すべてのファイルを含む) | 1 バイト~5 GB |
デフォルトでは、カスタム分析は Amazon Comprehend パーサーを使用して Word ファイルおよびデジタル PDF ファイルからテキストを抽出します。PDF ファイルの場合は、このデフォルトをオーバーライドして、Amazon Textract を使用してテキストを抽出できます。テキスト抽出オプションの設定 を参照してください。
イメージファイルとスキャンした PDF ファイル
カスタム分析は JPEG、PNG、TIFF 画像をサポートします。
次の表に、イメージの最大ファイルサイズを示します。スキャンした PDF ファイルには、ネイティブ PDF ファイルと同じく最大サイズが適用されます。
説明 | クォータ/ガイドライン |
---|---|
画像サイズ (JPG または PNG) | 1 バイト~10 MB |
画像サイズ (TIFF) | 1 バイト~10 MB。最大 1 ページ。 |
画像の詳細については、「画像のベストプラクティス」を参照してください。
デフォルトでは、Amazon Comprehend は Amazon Textract DetectDocumentText
API オペレーションを使用して、画像ファイルおよびスキャンされた PDF ファイルからテキストを抽出します。このデフォルトをオーバーライドして、代わりに AnalyzeDocument
API オペレーションを使用できます。テキスト抽出オプションの設定 を参照してください。
Amazon Textract 出力 JSON サイズ
カスタムエンティティ認識の場合は、カスタム分類ではなく、Amazon Textract AnalyzeDocument
API オペレーションからの出力ファイルを分析ジョブの入力として指定できます。