Block - Amazon Textract

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

Block

あるBlockは、互いに近いピクセルのグループ内で文書内で認識される項目を表します。で返された情報Blockオブジェクトは、操作のタイプに応じて異なります。ドキュメントのテキスト検出 (例:DetectDocumentText) をクリックすると、検出された単語とテキスト行に関する情報が取得されます。テキスト分析(例:AnalyzeDocument) では、ドキュメント内で検出されたフィールド、テーブル、および選択要素に関する情報を取得することもできます。

の配列Blockオブジェクトは、同期操作と非同期操作の両方によって返されます。同期操作では、DetectDocumentTextの配列Blockオブジェクトは、結果のセット全体です。非同期操作では、GetDocumentAnalysisの場合、配列は 1 つ以上の応答に対して返されます。

詳細については、「」を参照してください。Amazon Textract 仕組み

内容

BlockType

認識されるテキスト項目のタイプ。テキスト検出の操作では、次のタイプが返されます。

  • ページ-LINEのリストが含まれます。Blockドキュメントページで検出されたオブジェクト。

  • 単語-文書ページで検出された単語。単語とは、スペースで区切られていない、1 個以上の ISO 基本ラテンアルファベットです。

  • ライン-文書ページで検出された、タブ区切りの連続した単語の文字列。

テキスト分析操作では、次のタイプが返されます。

  • ページ-子のリストが含まれます。Blockドキュメントページで検出されたオブジェクト。

  • KEY_VALUE_SET-キーと値を格納するBlockドキュメントページで検出されたリンクされたテキストのオブジェクト。を使用するEntityTypeフィールドを使用して、KEY_VALUE_SET オブジェクトがキーかどうかを判別します。Blockオブジェクトまたは VALUEBlockオブジェクト。

  • 単語-文書ページで検出された単語。単語とは、スペースで区切られていない、1 個以上の ISO 基本ラテンアルファベットです。

  • ライン-文書ページで検出された、タブ区切りの連続した単語の文字列。

  • テーブル-ドキュメントページで検出されたテーブル。テーブルは、2 つ以上の行または列を持つグリッドベースの情報で、セル範囲はそれぞれ 1 行と 1 列です。

  • 細胞-検出されたテーブル内のセル。セルは、セル内のテキストを含むブロックの親です。

  • ELEMENT-ドキュメントページで検出されるオプションボタン (ラジオボタン) やチェックボックスなどの選択要素。の値を使うSelectionStatus選択要素のステータスを確認することができます。

Type: 文字列

有効な値: KEY_VALUE_SET | PAGE | LINE | WORD | TABLE | CELL | SELECTION_ELEMENT

: 必須 いいえ

ColumnIndex

表のセルが表示される列です。最初の列の位置は 1 です。ColumnIndexが返されませんDetectDocumentTextそしてGetDocumentTextDetection

Type: 整数

有効範囲: 最小値は 0 です。

: 必須 いいえ

ColumnSpan

表のセルがまたがる列の数。現在、この値は、スパンされる列数が 1 より大きい場合でも、常に 1 です。ColumnSpanが返されませんDetectDocumentTextそしてGetDocumentTextDetection

Type: 整数

有効範囲: 最小値は 0 です。

: 必須 いいえ

Confidence

Amazon Textract の信頼スコアは、認識されたテキストの精度と、認識されたテキストの周囲にあるジオメトリの精度を示します。

Type: 浮動小数点

有効範囲: 最小値は 0 です。最大値は 100 です。

: 必須 いいえ

EntityTypes

エンティティのタイプ。次のものが返されます。

  • キー-ドキュメント上のフィールドの識別子。

  • -フィールドテキスト。

EntityTypesが返されませんDetectDocumentTextそしてGetDocumentTextDetection

Type: 文字列の配列

有効な値: KEY | VALUE

: 必須 いいえ

Geometry

イメージ上の認識されたテキストの位置。これには、テキストを囲む軸揃えの粗い境界ボックスと、より正確な空間情報を得るための、細かい粒度のポリゴンが含まれています。

型: Geometry オブジェクト

: 必須 いいえ

Id

認識されたテキストの識別子。この識別子は、1 つの操作に対してのみ一意です。

Type: 文字列

パターン: .*\S.*

: 必須 いいえ

Page

ブロックが検出されたページ。Page非同期操作によって返されます。1 より大きいページ値は、PDF または TIFF 形式の複数ページのドキュメントに対してのみ返されます。スキャンした画像(JPEG/PNG)は、複数のドキュメントページを含む場合でも、単一ページのドキュメントと見なされます。の価値Pageは常に1です。同期操作は返されないPageなぜなら、すべての入力ドキュメントは単一ページのドキュメントと見なされるからです。

Type: 整数

有効範囲: 最小値は 0 です。

: 必須 いいえ

Relationships

現在のブロックの子ブロックのリスト。たとえば、LINE オブジェクトには、テキスト行の一部である各 WORD ブロックの子ブロックがあります。現在のブロックに子ブロックがない場合など、存在しないリレーションシップについては、リストに Relationship オブジェクトがありません。リストのサイズは、次のようになります。

  • 0-ブロックには子ブロックがありません。

  • 1-ブロックに子ブロックがあります。

Type: の配列Relationshipオブジェクト

: 必須 いいえ

RowIndex

表のセルが配置されている行。最初の行の位置は 1 です。RowIndexが返されませんDetectDocumentTextそしてGetDocumentTextDetection

Type: 整数

有効範囲: 最小値は 0 です。

: 必須 いいえ

RowSpan

テーブルのセルがまたがる行数。現在、この値は、スパンされる行数が 1 より大きい場合でも、常に 1 です。RowSpanが返されませんDetectDocumentTextそしてGetDocumentTextDetection

Type: 整数

有効範囲: 最小値は 0 です。

: 必須 いいえ

SelectionStatus

オプションボタンやチェックボックスなど、選択要素の選択ステータス。

Type: 文字列

有効な値: SELECTED | NOT_SELECTED

: 必須 いいえ

Text

Amazon Textract で認識される単語またはテキスト行。

Type: 文字列

: 必須 いいえ

TextType

Amazon Textract が検出したテキストの種類です。手書きのテキストと印刷されたテキストをチェックできます。

Type: 文字列

有効な値: HANDWRITING | PRINTED

: 必須 いいえ

以下の資料も参照してください。

言語固有の AWS SDK のいずれかでこの API を使用する方法の詳細については、次を参照してください: