テキスト抽出オプションの設定 - Amazon Comprehend

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

テキスト抽出オプションの設定

デフォルトでは、Amazon Comprehend は入力ファイルのタイプに基づいて次のアクションを実行してファイルからテキストを抽出します。

  • Word ファイル — Amazon Comprehend パーサーがテキストを抽出します。

  • デジタル PDF ファイル — Amazon Comprehend パーサーがテキストを抽出します。

  • 画像ファイルおよびスキャンされた PDF ファイル — Amazon Comprehend は Amazon Textract DetectDocumentText API を使用してテキストを抽出します。

画像ファイルや PDF ファイルの場合は、DocumentReaderConfig パラメーターを使用してデフォルトのテキスト抽出アクションをオーバーライドできます。このパラメータは、リアルタイムまたは非同期カスタム分析に Amazon Comprehend コンソールまたは API を使用すると利用できるようになります。

この DocumentReaderConfig パラメータには次の 3 つのフィールドがあります。

  • DocumentReadMode – Amazon Comprehend SERVICE_DEFAULTがデフォルトのアクションを実行するには、 に設定します。

    Amazon Textract を使用してデジタル PDF ファイルを解析するには、FORCE_DOCUMENT_READ_ACTION に設定します。

  • DocumentReadAction – Amazon Comprehend がテキスト抽出に Amazon Textract を使用する場合に使用する Amazon Textract API (DetectDocumentText または AnalyzeDocument) を設定します。

  • FeatureTypes – AnalyzeDocument API オペレーションを使用するDocumentReadActionように を設定した場合、 FeatureTypes (TABLES、FORMS) の一方または両方を追加できます。これらの機能は、ドキュメント内の表とフォームに関する追加情報を提供します。これらの機能の詳細については、「Amazon Textract のドキュメント分析のレスポンスオブジェクト」を参照してください。

以下の例は、具体的なユースケースに応じた DocumentReaderConfig の設定方法を示しています。

  1. すべての PDF ファイルに Amazon Textract を使用する。

    1. DocumentReadMode – に設定しますFORCE_DOCUMENT_READ_ACTION

    2. DocumentReadAction – に設定しますTEXTRACT_DETECT_DOCUMENT_TEXT

    3. FeatureTypes – 必須ではありません。

  2. すべての PDF および画像ファイルに Amazon Textract を使用する。

    1. DocumentReadMode – に設定しますFORCE_DOCUMENT_READ_ACTION

    2. DocumentReadAction – に設定しますTEXTRACT_ANALYZE_DOCUMENT

    3. FeatureTypes - に設定するFORMSTABLES、両方の機能。

  3. スキャンされたすべての PDF およびすべての画像ファイルに Amazon Textract を使用する。

    1. DocumentReadMode – に設定しますSERVICE_DEFAULT

    2. DocumentReadAction – に設定しますTEXTRACT_ANALYZE_DOCUMENT

    3. FeatureTypes – に設定するFORMSTABLES、両方の機能。

Amazon Textract オプションの詳細については、「」を参照してくださいDocumentReaderConfig