翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
テキスト抽出オプションの設定
デフォルトでは、Amazon Comprehend は入力ファイルのタイプに基づいて次のアクションを実行してファイルからテキストを抽出します。
Word ファイル — Amazon Comprehend パーサーがテキストを抽出します。
デジタル PDF ファイル — Amazon Comprehend パーサーがテキストを抽出します。
画像ファイルおよびスキャンされた PDF ファイル — Amazon Comprehend は Amazon Textract
DetectDocumentText
API を使用してテキストを抽出します。
画像ファイルや PDF ファイルの場合は、DocumentReaderConfig
パラメーターを使用してデフォルトのテキスト抽出アクションをオーバーライドできます。このパラメータは、リアルタイムまたは非同期カスタム分析に Amazon Comprehend コンソールまたは API を使用すると利用できるようになります。
この DocumentReaderConfig
パラメータには次の 3 つのフィールドがあります。
-
DocumentReadMode – Amazon Comprehend
SERVICE_DEFAULT
がデフォルトのアクションを実行するには、 に設定します。Amazon Textract を使用してデジタル PDF ファイルを解析するには、
FORCE_DOCUMENT_READ_ACTION
に設定します。 -
DocumentReadAction – Amazon Comprehend がテキスト抽出に Amazon Textract を使用する場合に使用する Amazon Textract API (DetectDocumentText または AnalyzeDocument) を設定します。
FeatureTypes – AnalyzeDocument API オペレーションを使用するDocumentReadActionように を設定した場合、
FeatureTypes
(TABLES、FORMS) の一方または両方を追加できます。これらの機能は、ドキュメント内の表とフォームに関する追加情報を提供します。これらの機能の詳細については、「Amazon Textract のドキュメント分析のレスポンスオブジェクト」を参照してください。
以下の例は、具体的なユースケースに応じた DocumentReaderConfig
の設定方法を示しています。
すべての PDF ファイルに Amazon Textract を使用する。
-
DocumentReadMode – に設定します
FORCE_DOCUMENT_READ_ACTION
。 -
DocumentReadAction – に設定します
TEXTRACT_DETECT_DOCUMENT_TEXT
。 -
FeatureTypes – 必須ではありません。
-
すべての PDF および画像ファイルに Amazon Textract を使用する。
-
DocumentReadMode – に設定します
FORCE_DOCUMENT_READ_ACTION
。 -
DocumentReadAction – に設定します
TEXTRACT_ANALYZE_DOCUMENT
。 -
FeatureTypes - に設定する
FORMS
かTABLES
、両方の機能。
-
スキャンされたすべての PDF およびすべての画像ファイルに Amazon Textract を使用する。
-
DocumentReadMode – に設定します
SERVICE_DEFAULT
。 -
DocumentReadAction – に設定します
TEXTRACT_ANALYZE_DOCUMENT
。 -
FeatureTypes – に設定する
FORMS
かTABLES
、両方の機能。
-
Amazon Textract オプションの詳細については、「」を参照してくださいDocumentReaderConfig。