AnalyzeDocument - Amazon Textract

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

AnalyzeDocument

入力ドキュメントで検出されたアイテム間の関係を分析します。

返される情報のタイプは次のとおりです。

  • フォームデータ (キーと値のペア)。2 つの関連情報が返されますBlockオブジェクト、各タイプKEY_VALUE_SET: KEYBlockオブジェクトと VALUEBlockオブジェクト。たとえば、名前: アナ・シルバ・カロライナキーと値が含まれます。名前:が鍵です。アナ・シルバ・カロライナは値です。

  • テーブルとテーブルのセルデータ。テーブルBlockオブジェクトには、検出されたテーブルに関する情報が含まれています。セルのあるBlockオブジェクトは、テーブル内の各セルに対して返されます。

  • テキストの行と単語。行線Blockオブジェクトのある WORD が 1 つ以上含まれていますBlockオブジェクト。ドキュメント内で検出されたすべての行と単語が返されます (の値と関係のないテキストを含む)。FeatureTypes).

チェックボックスやオプションボタン (ラジオボタン) などの選択要素は、フォームデータやテーブル内で検出できます。セレクションエレメントBlockオブジェクトには、選択状態など、選択要素に関する情報が含まれます。

実行する解析のタイプは、FeatureTypesリスト。

出力は、のリストに返されます。Blockオブジェクト。

AnalyzeDocument は同期演算です。ドキュメントを非同期的に分析するには、StartDocumentAnalysis

詳細については、「」を参照してください。ドキュメントテキスト分析

リクエストの構文

{ "Document": { "Bytes": blob, "S3Object": { "Bucket": "string", "Name": "string", "Version": "string" } }, "FeatureTypes": [ "string" ], "HumanLoopConfig": { "DataAttributes": { "ContentClassifiers": [ "string" ] }, "FlowDefinitionArn": "string", "HumanLoopName": "string" } }

リクエストパラメータ

リクエストは以下の JSON 形式のデータを受け入れます。

Document

base64 でエンコードされたバイトまたは Amazon S3 オブジェクトとしての入力ドキュメント。AWS CLI を使用して Amazon Textract オペレーションを呼び出す場合、イメージバイトを渡すことはできません。ドキュメントは、JPEG、PNG、PDF、または TIFF 形式の画像である必要があります。

AWS SDK を使用して Amazon Textract を呼び出す場合は、を使用して渡されるイメージバイトを base64 エンコードする必要がない場合があります。Bytesフィールド。

型: Document オブジェクト

: 必須 はい

FeatureTypes

実行する解析のタイプのリスト。TABLES をリストに追加して、入力ドキュメントで検出されたテーブルに関する情報を返します。FORMS を追加して、検出されたフォームデータを返します。両方のタイプの分析を実行するには、TABLES と FORMS をFeatureTypes。ドキュメント内で検出されたすべての行と単語が応答に含まれます(次の値に関連しないテキストを含む)。FeatureTypes).

Type: 文字列の配列

有効な値: TABLES | FORMS

: 必須 はい

HumanLoopConfig

ドキュメントを分析するためのループワークフローで、人間の構成を設定します。

型: HumanLoopConfig オブジェクト

: 必須 いいえ

レスポンスの構文

{ "AnalyzeDocumentModelVersion": "string", "Blocks": [ { "BlockType": "string", "ColumnIndex": number, "ColumnSpan": number, "Confidence": number, "EntityTypes": [ "string" ], "Geometry": { "BoundingBox": { "Height": number, "Left": number, "Top": number, "Width": number }, "Polygon": [ { "X": number, "Y": number } ] }, "Id": "string", "Page": number, "Relationships": [ { "Ids": [ "string" ], "Type": "string" } ], "RowIndex": number, "RowSpan": number, "SelectionStatus": "string", "Text": "string", "TextType": "string" } ], "DocumentMetadata": { "Pages": number }, "HumanLoopActivationOutput": { "HumanLoopActivationConditionsEvaluationResults": "string", "HumanLoopActivationReasons": [ "string" ], "HumanLoopArn": "string" } }

レスポンス要素

アクションが成功すると、サービスは HTTP 200 レスポンスを返します。

サービスから以下のデータが JSON 形式で返されます。

AnalyzeDocumentModelVersion

ドキュメントの分析に使用されたモデルのバージョン。

Type: 文字列

Blocks

によって検出および分析される項目AnalyzeDocument

Type: の配列Blockオブジェクト

DocumentMetadata

分析されたドキュメントに関するメタデータ。一例はページ数です。

型: DocumentMetadata オブジェクト

HumanLoopActivationOutput

ループ評価で人間の結果を表示します。

型: HumanLoopActivationOutput オブジェクト

エラー

AccessDeniedException

そのアクションを実行する権限がありません。そのオペレーションを実行するには、承認されたユーザーまたは IAM ロールの Amazon リソースネーム (ARN) を使用します。

HTTP ステータスコード: 400

BadDocumentException

Amazon Textract はドキュメントを読み取ることができません。Amazon Textract のドキュメント制限の詳細については、「」を参照してください。Amazon Textract のハード制限

HTTP ステータスコード: 400

DocumentTooLargeException

文書が大きすぎるため処理できません。10 MB の同期オペレーションの最大ドキュメントサイズ。非同期操作の最大ドキュメントサイズは、PDF ファイルの場合 500 MB です。

HTTP ステータスコード: 400

HumanLoopQuotaExceededException

使用可能なループワークフローでアクティブな人間の最大数を超過したことを示します

HTTP ステータスコード: 400

InternalServerError

Amazon Textract でサービスの問題が発生しました。もう一度やり直してください。

HTTP ステータスコード: 500

InvalidParameterException

入力パラメータが制約に違反しています。たとえば、同期操作では、InvalidParameterException例外が発生するのは、どちらもS3ObjectまたはBytes値は、Documentリクエストパラメータ。API オペレーションを再度呼び出す前にパラメータを検証します。

HTTP ステータスコード: 400

InvalidS3ObjectException

Amazon Textract は、リクエストで指定された S3 オブジェクトにアクセスできません。詳細については、Amazon S3 へのアクセスの設定トラブルシューティング情報については、「」を参照してください。Amazon S3 トラブルシューティング

HTTP ステータスコード: 400

ProvisionedThroughputExceededException

お客様のスループット制限を超えたリクエストの数。この上限を引き上げる場合は、Amazon Textract までお問い合わせください。

HTTP ステータスコード: 400

ThrottlingException

Amazon Textract は一時的にリクエストを処理できませんでした。もう一度やり直してください。

HTTP ステータスコード: 500

UnsupportedDocumentException

入力ドキュメントの形式はサポートされていません。操作用のドキュメントは、PNG、JPEG、PDF、または TIFF 形式にすることができます。

HTTP ステータスコード: 400

以下の資料も参照してください。

言語固有の AWS SDK のいずれかでこの API を使用する方法の詳細については、次を参照してください: