翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
AnalyzeDocument
入力ドキュメントで検出されたアイテム間の関係を分析します。
返される情報のタイプは次のとおりです。
-
フォームデータ (キーと値のペア)。2 つの関連情報が返されますBlockオブジェクト、各タイプ
KEY_VALUE_SET
: KEYBlock
オブジェクトと VALUEBlock
オブジェクト。たとえば、名前: アナ・シルバ・カロライナキーと値が含まれます。名前:が鍵です。アナ・シルバ・カロライナは値です。 -
テーブルとテーブルのセルデータ。テーブル
Block
オブジェクトには、検出されたテーブルに関する情報が含まれています。セルのあるBlock
オブジェクトは、テーブル内の各セルに対して返されます。 -
テキストの行と単語。行線
Block
オブジェクトのある WORD が 1 つ以上含まれていますBlock
オブジェクト。ドキュメント内で検出されたすべての行と単語が返されます (の値と関係のないテキストを含む)。FeatureTypes
).
チェックボックスやオプションボタン (ラジオボタン) などの選択要素は、フォームデータやテーブル内で検出できます。セレクションエレメントBlock
オブジェクトには、選択状態など、選択要素に関する情報が含まれます。
実行する解析のタイプは、FeatureTypes
リスト。
出力は、のリストに返されます。Block
オブジェクト。
AnalyzeDocument
は同期演算です。ドキュメントを非同期的に分析するには、StartDocumentAnalysis。
詳細については、「」を参照してください。ドキュメントテキスト分析。
リクエストの構文
{
"Document": {
"Bytes": blob
,
"S3Object": {
"Bucket": "string
",
"Name": "string
",
"Version": "string
"
}
},
"FeatureTypes": [ "string
" ],
"HumanLoopConfig": {
"DataAttributes": {
"ContentClassifiers": [ "string
" ]
},
"FlowDefinitionArn": "string
",
"HumanLoopName": "string
"
}
}
リクエストパラメータ
リクエストは以下の JSON 形式のデータを受け入れます。
- Document
-
base64 でエンコードされたバイトまたは Amazon S3 オブジェクトとしての入力ドキュメント。AWS CLI を使用して Amazon Textract オペレーションを呼び出す場合、イメージバイトを渡すことはできません。ドキュメントは、JPEG、PNG、PDF、または TIFF 形式の画像である必要があります。
AWS SDK を使用して Amazon Textract を呼び出す場合は、を使用して渡されるイメージバイトを base64 エンコードする必要がない場合があります。
Bytes
フィールド。型: Document オブジェクト
: 必須 はい
- FeatureTypes
-
実行する解析のタイプのリスト。TABLES をリストに追加して、入力ドキュメントで検出されたテーブルに関する情報を返します。FORMS を追加して、検出されたフォームデータを返します。両方のタイプの分析を実行するには、TABLES と FORMS を
FeatureTypes
。ドキュメント内で検出されたすべての行と単語が応答に含まれます(次の値に関連しないテキストを含む)。FeatureTypes
).Type: 文字列の配列
有効な値:
TABLES | FORMS
: 必須 はい
- HumanLoopConfig
-
ドキュメントを分析するためのループワークフローで、人間の構成を設定します。
型: HumanLoopConfig オブジェクト
: 必須 いいえ
レスポンスの構文
{
"AnalyzeDocumentModelVersion": "string",
"Blocks": [
{
"BlockType": "string",
"ColumnIndex": number,
"ColumnSpan": number,
"Confidence": number,
"EntityTypes": [ "string" ],
"Geometry": {
"BoundingBox": {
"Height": number,
"Left": number,
"Top": number,
"Width": number
},
"Polygon": [
{
"X": number,
"Y": number
}
]
},
"Id": "string",
"Page": number,
"Relationships": [
{
"Ids": [ "string" ],
"Type": "string"
}
],
"RowIndex": number,
"RowSpan": number,
"SelectionStatus": "string",
"Text": "string",
"TextType": "string"
}
],
"DocumentMetadata": {
"Pages": number
},
"HumanLoopActivationOutput": {
"HumanLoopActivationConditionsEvaluationResults": "string",
"HumanLoopActivationReasons": [ "string" ],
"HumanLoopArn": "string"
}
}
レスポンス要素
アクションが成功すると、サービスは HTTP 200 レスポンスを返します。
サービスから以下のデータが JSON 形式で返されます。
- AnalyzeDocumentModelVersion
-
ドキュメントの分析に使用されたモデルのバージョン。
Type: 文字列
- Blocks
-
によって検出および分析される項目
AnalyzeDocument
。Type: の配列Blockオブジェクト
- DocumentMetadata
-
分析されたドキュメントに関するメタデータ。一例はページ数です。
型: DocumentMetadata オブジェクト
- HumanLoopActivationOutput
-
ループ評価で人間の結果を表示します。
型: HumanLoopActivationOutput オブジェクト
エラー
- AccessDeniedException
-
そのアクションを実行する権限がありません。そのオペレーションを実行するには、承認されたユーザーまたは IAM ロールの Amazon リソースネーム (ARN) を使用します。
HTTP ステータスコード: 400
- BadDocumentException
-
Amazon Textract はドキュメントを読み取ることができません。Amazon Textract のドキュメント制限の詳細については、「」を参照してください。Amazon Textract のハード制限。
HTTP ステータスコード: 400
- DocumentTooLargeException
-
文書が大きすぎるため処理できません。10 MB の同期オペレーションの最大ドキュメントサイズ。非同期操作の最大ドキュメントサイズは、PDF ファイルの場合 500 MB です。
HTTP ステータスコード: 400
- HumanLoopQuotaExceededException
-
使用可能なループワークフローでアクティブな人間の最大数を超過したことを示します
HTTP ステータスコード: 400
- InternalServerError
-
Amazon Textract でサービスの問題が発生しました。もう一度やり直してください。
HTTP ステータスコード: 500
- InvalidParameterException
-
入力パラメータが制約に違反しています。たとえば、同期操作では、
InvalidParameterException
例外が発生するのは、どちらもS3Object
またはBytes
値は、Document
リクエストパラメータ。API オペレーションを再度呼び出す前にパラメータを検証します。HTTP ステータスコード: 400
- InvalidS3ObjectException
-
Amazon Textract は、リクエストで指定された S3 オブジェクトにアクセスできません。詳細については、Amazon S3 へのアクセスの設定トラブルシューティング情報については、「」を参照してください。Amazon S3 トラブルシューティング
HTTP ステータスコード: 400
- ProvisionedThroughputExceededException
-
お客様のスループット制限を超えたリクエストの数。この上限を引き上げる場合は、Amazon Textract までお問い合わせください。
HTTP ステータスコード: 400
- ThrottlingException
-
Amazon Textract は一時的にリクエストを処理できませんでした。もう一度やり直してください。
HTTP ステータスコード: 500
- UnsupportedDocumentException
-
入力ドキュメントの形式はサポートされていません。操作用のドキュメントは、PNG、JPEG、PDF、または TIFF 形式にすることができます。
HTTP ステータスコード: 400
以下の資料も参照してください。
言語固有の AWS SDK のいずれかでこの API を使用する方法の詳細については、次を参照してください: