翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
Block
あるBlock
は、互いに近いピクセルのグループ内で文書内で認識される項目を表します。で返された情報Block
オブジェクトは、操作のタイプに応じて異なります。ドキュメントのテキスト検出 (例:DetectDocumentText) をクリックすると、検出された単語とテキスト行に関する情報が取得されます。テキスト分析(例:AnalyzeDocument) では、ドキュメント内で検出されたフィールド、テーブル、および選択要素に関する情報を取得することもできます。
の配列Block
オブジェクトは、同期操作と非同期操作の両方によって返されます。同期操作では、DetectDocumentTextの配列Block
オブジェクトは、結果のセット全体です。非同期操作では、GetDocumentAnalysisの場合、配列は 1 つ以上の応答に対して返されます。
詳細については、「」を参照してください。Amazon Textract 仕組み。
内容
- BlockType
-
認識されるテキスト項目のタイプ。テキスト検出の操作では、次のタイプが返されます。
-
ページ-LINEのリストが含まれます。
Block
ドキュメントページで検出されたオブジェクト。 -
単語-文書ページで検出された単語。単語とは、スペースで区切られていない、1 個以上の ISO 基本ラテンアルファベットです。
-
ライン-文書ページで検出された、タブ区切りの連続した単語の文字列。
テキスト分析操作では、次のタイプが返されます。
-
ページ-子のリストが含まれます。
Block
ドキュメントページで検出されたオブジェクト。 -
KEY_VALUE_SET-キーと値を格納する
Block
ドキュメントページで検出されたリンクされたテキストのオブジェクト。を使用するEntityType
フィールドを使用して、KEY_VALUE_SET オブジェクトがキーかどうかを判別します。Block
オブジェクトまたは VALUEBlock
オブジェクト。 -
単語-文書ページで検出された単語。単語とは、スペースで区切られていない、1 個以上の ISO 基本ラテンアルファベットです。
-
ライン-文書ページで検出された、タブ区切りの連続した単語の文字列。
-
テーブル-ドキュメントページで検出されたテーブル。テーブルは、2 つ以上の行または列を持つグリッドベースの情報で、セル範囲はそれぞれ 1 行と 1 列です。
-
細胞-検出されたテーブル内のセル。セルは、セル内のテキストを含むブロックの親です。
-
ELEMENT-ドキュメントページで検出されるオプションボタン (ラジオボタン) やチェックボックスなどの選択要素。の値を使う
SelectionStatus
選択要素のステータスを確認することができます。
Type: 文字列
有効な値:
KEY_VALUE_SET | PAGE | LINE | WORD | TABLE | CELL | SELECTION_ELEMENT
: 必須 いいえ
-
- ColumnIndex
-
表のセルが表示される列です。最初の列の位置は 1 です。
ColumnIndex
が返されませんDetectDocumentText
そしてGetDocumentTextDetection
。Type: 整数
有効範囲: 最小値は 0 です。
: 必須 いいえ
- ColumnSpan
-
表のセルがまたがる列の数。現在、この値は、スパンされる列数が 1 より大きい場合でも、常に 1 です。
ColumnSpan
が返されませんDetectDocumentText
そしてGetDocumentTextDetection
。Type: 整数
有効範囲: 最小値は 0 です。
: 必須 いいえ
- Confidence
-
Amazon Textract の信頼スコアは、認識されたテキストの精度と、認識されたテキストの周囲にあるジオメトリの精度を示します。
Type: 浮動小数点
有効範囲: 最小値は 0 です。最大値は 100 です。
: 必須 いいえ
- EntityTypes
-
エンティティのタイプ。次のものが返されます。
-
キー-ドキュメント上のフィールドの識別子。
-
値-フィールドテキスト。
EntityTypes
が返されませんDetectDocumentText
そしてGetDocumentTextDetection
。Type: 文字列の配列
有効な値:
KEY | VALUE
: 必須 いいえ
-
- Geometry
-
イメージ上の認識されたテキストの位置。これには、テキストを囲む軸揃えの粗い境界ボックスと、より正確な空間情報を得るための、細かい粒度のポリゴンが含まれています。
型: Geometry オブジェクト
: 必須 いいえ
- Id
-
認識されたテキストの識別子。この識別子は、1 つの操作に対してのみ一意です。
Type: 文字列
パターン:
.*\S.*
: 必須 いいえ
- Page
-
ブロックが検出されたページ。
Page
非同期操作によって返されます。1 より大きいページ値は、PDF または TIFF 形式の複数ページのドキュメントに対してのみ返されます。スキャンした画像(JPEG/PNG)は、複数のドキュメントページを含む場合でも、単一ページのドキュメントと見なされます。の価値Page
は常に1です。同期操作は返されないPage
なぜなら、すべての入力ドキュメントは単一ページのドキュメントと見なされるからです。Type: 整数
有効範囲: 最小値は 0 です。
: 必須 いいえ
- Relationships
-
現在のブロックの子ブロックのリスト。たとえば、LINE オブジェクトには、テキスト行の一部である各 WORD ブロックの子ブロックがあります。現在のブロックに子ブロックがない場合など、存在しないリレーションシップについては、リストに Relationship オブジェクトがありません。リストのサイズは、次のようになります。
-
0-ブロックには子ブロックがありません。
-
1-ブロックに子ブロックがあります。
Type: の配列Relationshipオブジェクト
: 必須 いいえ
-
- RowIndex
-
表のセルが配置されている行。最初の行の位置は 1 です。
RowIndex
が返されませんDetectDocumentText
そしてGetDocumentTextDetection
。Type: 整数
有効範囲: 最小値は 0 です。
: 必須 いいえ
- RowSpan
-
テーブルのセルがまたがる行数。現在、この値は、スパンされる行数が 1 より大きい場合でも、常に 1 です。
RowSpan
が返されませんDetectDocumentText
そしてGetDocumentTextDetection
。Type: 整数
有効範囲: 最小値は 0 です。
: 必須 いいえ
- SelectionStatus
-
オプションボタンやチェックボックスなど、選択要素の選択ステータス。
Type: 文字列
有効な値:
SELECTED | NOT_SELECTED
: 必須 いいえ
- Text
-
Amazon Textract で認識される単語またはテキスト行。
Type: 文字列
: 必須 いいえ
- TextType
-
Amazon Textract が検出したテキストの種類です。手書きのテキストと印刷されたテキストをチェックできます。
Type: 文字列
有効な値:
HANDWRITING | PRINTED
: 必須 いいえ
以下の資料も参照してください。
言語固有の AWS SDK のいずれかでこの API を使用する方法の詳細については、次を参照してください: