翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
GetDocumentAnalysis
ドキュメント内のテキストを分析する Amazon Textract 非同期オペレーションの結果を取得します。
非同期テキスト分析を開始するには、を呼び出します。StartDocumentAnalysis。ジョブ識別子 (JobId
). テキスト分析操作が完了すると、Amazon Textract は、への最初の呼び出しに登録された Amazon Simple Notification Service (Amazon SNS) トピックに完了ステータスを公開します。StartDocumentAnalysis
。テキスト検出操作の結果を取得するには、まず Amazon SNS トピックに発行されたステータス値がSUCCEEDED
。もしそうなら、電話してくださいGetDocumentAnalysis
をクリックし、ジョブ識別子を渡します (JobId
) の最初の呼び出しからStartDocumentAnalysis
。
GetDocumentAnalysis
の配列を返します。Blockオブジェクト。次のタイプの情報が返されます。
-
フォームデータ (キーと値のペア)。関連情報は 2 つで返されます。Blockオブジェクト、各タイプ
KEY_VALUE_SET
: KeyBlock
オブジェクトと VALUEBlock
オブジェクト。たとえば、名前: アナ・シルバ・カロライナキーと値が含まれます。名前:が鍵です。アナ・シルバ・カロライナは値です。 -
表および表のセルデータ。テーブル
Block
オブジェクトには、検出されたテーブルに関する情報が含まれています。セルのあるBlock
オブジェクトは、テーブル内の各セルに対して返されます。 -
テキストの行と単語。[1 行]
Block
オブジェクトには、1 つ以上の WORD が含まれていますBlock
オブジェクト。ドキュメント内で検出されたすべての行と単語が返されます (文字列の値と関係のないテキストを含む)。StartDocumentAnalysis
FeatureTypes
入力パラメータ)。
チェックボックスやオプションボタン (ラジオボタン) などの選択要素は、フォームデータやテーブル内で検出できます。セレクションエレメントBlock
オブジェクトには、選択状態など、選択要素に関する情報が含まれます。
を使用するMaxResults
返されるブロックの数を制限するパラメータです。で指定した数を超える結果がある場合MaxResults
とすると、の値NextToken
オペレーションのレスポンスは、次の結果セットを取得するためのページ割りトークンが含まれています。次の結果ページを取得したい場合GetDocumentAnalysis
を設定し、NextToken
前回の呼び出しから返されたトークン値を持つリクエストパラメータGetDocumentAnalysis
。
詳細については、「」を参照してください。ドキュメントテキスト分析。
リクエストの構文
{
"JobId": "string
",
"MaxResults": number
,
"NextToken": "string
"
}
リクエストパラメータ
リクエストは以下の JSON 形式のデータを受け入れます。
- JobId
-
テキスト検出ジョブの一意の識別子。-
JobId
から返されましたStartDocumentAnalysis
。あるJobId
値は 7 日間だけ有効です。Type: 文字列
長さの制約: 最小長は 1 です。 最大長は 64 です。
パターン:
^[a-zA-Z0-9-_]+$
必須: はい
- MaxResults
-
ページ割りコールごとに返す結果の最大数。指定できる最大値は 1,000 です。1,000 より大きい値を指定した場合、最大 1,000 件の結果が返されます。デフォルト値は 1,000 です。
Type: 整数
有効範囲: 最小値は 1 です。
必須: いいえ
- NextToken
-
前のレスポンスが不完全だった場合 (取得するブロックが多いため)、Amazon Textract はレスポンスでページ割りトークンを返します。このページ割りトークンを使用して、次のブロックのセットを取得できます。
Type: 文字列
長さの制約: 最小長は 1 です。 最大長は 255 です。
パターン:
.*\S.*
必須: いいえ
レスポンスの構文
{
"AnalyzeDocumentModelVersion": "string",
"Blocks": [
{
"BlockType": "string",
"ColumnIndex": number,
"ColumnSpan": number,
"Confidence": number,
"EntityTypes": [ "string" ],
"Geometry": {
"BoundingBox": {
"Height": number,
"Left": number,
"Top": number,
"Width": number
},
"Polygon": [
{
"X": number,
"Y": number
}
]
},
"Id": "string",
"Page": number,
"Relationships": [
{
"Ids": [ "string" ],
"Type": "string"
}
],
"RowIndex": number,
"RowSpan": number,
"SelectionStatus": "string",
"Text": "string",
"TextType": "string"
}
],
"DocumentMetadata": {
"Pages": number
},
"JobStatus": "string",
"NextToken": "string",
"StatusMessage": "string",
"Warnings": [
{
"ErrorCode": "string",
"Pages": [ number ]
}
]
}
レスポンス要素
アクションが成功すると、サービスは HTTP 200 レスポンスを返します。
サービスから以下のデータが JSON 形式で返されます。
- AnalyzeDocumentModelVersion
-
Type: 文字列
- Blocks
-
テキスト分析操作の結果。
Type: の配列Blockオブジェクト
- DocumentMetadata
-
Amazon Textract が処理したドキュメントに関する情報。
DocumentMetadata
は、Amazon Textract ビデオオペレーションからページ分割されたレスポンスの各ページに返されます。型: DocumentMetadata オブジェクト
- JobStatus
-
テキスト検出ジョブの現在のステータス。
Type: 文字列
有効な値:
IN_PROGRESS | SUCCEEDED | FAILED | PARTIAL_SUCCESS
- NextToken
-
レスポンスが切り捨てられた場合、Amazon Textract はこのトークンを返します。次のリクエストでこのトークンを使用して、次のテキスト検出結果セットを取得できます。
Type: 文字列
長さの制約: 最小長は 1 です。 最大長は 255 です。
パターン:
.*\S.*
- StatusMessage
-
検出ジョブを完了できなかった場合に返します。発生したエラーの説明が含まれています。
Type: 文字列
- Warnings
-
ドキュメント分析操作中に発生した警告のリスト。
Type: の配列Warningオブジェクト
エラー
- AccessDeniedException
-
そのアクションを実行する権限がありません。そのオペレーションを実行するには、承認されたユーザーまたは IAM ロールの Amazon リソースネーム (ARN) を使用します。
HTTP ステータスコード: 400
- InternalServerError
-
Amazon Textract でサービスの問題が発生しました。もう一度やり直してください。
HTTP ステータスコード: 500
- InvalidJobIdException
-
無効なジョブ識別子が渡されましたGetDocumentAnalysisまたはGetDocumentAnalysis。
HTTP ステータスコード: 400
- InvalidKMSKeyException
-
KMS キーが入力された状態で復号化権限がないか、KMS キーが誤って入力されたことを示します。
HTTP ステータスコード: 400
- InvalidParameterException
-
入力パラメータが制約に違反しています。たとえば、同期操作では、
InvalidParameterException
例外が発生するのは、どちらもS3Object
またはBytes
値は、Document
リクエストパラメータ。API オペレーションを再度呼び出す前にパラメータを検証します。HTTP ステータスコード: 400
- InvalidS3ObjectException
-
Amazon Textract は、リクエストで指定された S3 オブジェクトにアクセスできません。詳細については、Amazon S3 へのアクセスの設定トラブルシューティング情報については、「」を参照してください。Amazon S3 トラブルシューティング
HTTP ステータスコード: 400
- ProvisionedThroughputExceededException
-
お客様のスループット制限を超えたリクエストの数。この上限を引き上げる場合は、Amazon Textract までお問い合わせください。
HTTP ステータスコード: 400
- ThrottlingException
-
Amazon Textract は一時的にリクエストを処理できませんでした。もう一度やり直してください。
HTTP ステータスコード: 500
以下の資料も参照してください。
言語固有の AWS SDK のいずれかでこの API を使用する方法の詳細については、次を参照してください: