テキスト検出および文書分析応答オブジェクト - Amazon Textract

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

テキスト検出および文書分析応答オブジェクト

Amazon Textract がドキュメントを処理すると、次のリストが作成されます。Block検出または解析されたテキストのオブジェクト。各ブロックには、検出されたアイテム、それがどこにあるか、Amazon Textract が処理の精度に持っている信頼度に関する情報が含まれています。

ドキュメントは、次のタイプから構成されます。Blockオブジェクト。

ブロックの内容は、呼び出す操作によって異なります。テキスト検出操作のいずれかを呼び出すと、検出されたテキストのページ、行、および単語が返されます。詳細については、「テキストの検出」を参照してください。文書分析操作のいずれかを呼び出すと、検出されたページ、キーと値のペア、テーブル、選択要素、およびテキストに関する情報が返されます。詳細については、「ドキュメントを分析する」を参照してください。

ある程度Blockオブジェクトフィールドは、両方のタイプの処理に共通しています。たとえば、各ブロックに一意の識別子があります。

使用方法を示す例です。Blockオブジェクト、「」を参照してください。チュートリアル

ドキュメントレイアウト

Amazon Textract は、ドキュメントの表現をさまざまなタイプのリストとして返します。Block親子関係またはキーと値のペアでリンクされているオブジェクト。ドキュメント内のページ数を示すメタデータも返されます。以下に、一般的な JSON を示します。Block型のオブジェクトPAGE

{ "Blocks": [ { "Geometry": { "BoundingBox": { "Width": 1.0, "Top": 0.0, "Left": 0.0, "Height": 1.0 }, "Polygon": [ { "Y": 0.0, "X": 0.0 }, { "Y": 0.0, "X": 1.0 }, { "Y": 1.0, "X": 1.0 }, { "Y": 1.0, "X": 0.0 } ] }, "Relationships": [ { "Type": "CHILD", "Ids": [ "2602b0a6-20e3-4e6e-9e46-3be57fd0844b", "82aedd57-187f-43dd-9eb1-4f312ca30042", "52be1777-53f7-42f6-a7cf-6d09bdc15a30", "7ca7caa6-00ef-4cda-b1aa-5571dfed1a7c" ] } ], "BlockType": "PAGE", "Id": "8136b2dc-37c1-4300-a9da-6ed8b276ea97" }..... ], "DocumentMetadata": { "Pages": 1 } }

ドキュメントは、1 つ以上のもので作成されます。PAGEブロック。各ページには、テキスト行や表など、ページで検出されたプライマリアイテムの子ブロックのリストが含まれています。詳細については、「ページ」を参照してください。

のタイプを判断できます。Blockオブジェクトを検査してBlockTypeフィールド。

あるBlockオブジェクトには関連のリストが含まれています。BlockのオブジェクトRelationshipsフィールド。これは、の配列です。Relationshipオブジェクト。あるRelationships配列は CHILD 型または VALUE 型のいずれかです。CHILD 型の配列は、現在のブロックの子である項目を一覧表示するために使用されます。たとえば、現在のブロックのタイプが LINE の場合、Relationshipsテキスト行を構成する WORD ブロックの ID のリストが含まれます。VALUE 型の配列は、キーと値のペアを格納するために使用されます。関係のタイプを調べて、関係の種類を判断できます。TypeのフィールドRelationshipオブジェクト。

子ブロックには、親ブロックオブジェクトに関する情報がありません。

示す例についてはBlock詳細については、を参照してください。同期操作によるドキュメントの処理

Confidence

Amazon Textract オペレーションは、検出された商品の精度に対する Amazon Textract の信頼度のパーセンテージを返します。信頼を得るには、ConfidenceのフィールドBlockオブジェクト。値が高いほど、信頼度が高いことを示します。シナリオによっては、信頼性の低い検出では、人間による視覚的な確認が必要になる場合があります。

ジオメトリ

Amazon Textract オペレーションは、ID 分析を除き、ドキュメントページ上で検出されたアイテムの場所に関する位置情報を返します。場所を取得するには、GeometryのフィールドBlockオブジェクト。詳細については、「」を参照してください。ドキュメントページ上のアイテムの場所