StartDocumentAnalysis - Amazon Textract

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

StartDocumentAnalysis

キーと値のペア、表、選択要素など、検出された項目間のリレーションシップについて、入力ドキュメントの非同期分析を開始します。

StartDocumentAnalysisでは、JPEG、PNG、TIFF、および PDF 形式のドキュメント内のテキストを分析できます。ドキュメントは Amazon S3 バケットに格納されます。を使用するDocumentLocationを使用して、ドキュメントのバケット名とファイル名を指定します。

StartDocumentAnalysisジョブ識別子を返します (JobId) を使用して、オペレーションの結果を取得します。テキスト分析が完了すると、Amazon Textract は、で指定した Amazon Simple Notification Service (Amazon SNS) トピックに完了ステータスを発行します。NotificationChannel。テキスト分析操作の結果を取得するには、まず Amazon SNS トピックに発行されたステータス値がSUCCEEDED。もしそうなら、電話してくださいGetDocumentAnalysisをクリックし、ジョブ識別子を渡します (JobId) の最初の呼び出しからStartDocumentAnalysis

詳細については、「」を参照してください。ドキュメントテキスト分析

リクエストの構文

{ "ClientRequestToken": "string", "DocumentLocation": { "S3Object": { "Bucket": "string", "Name": "string", "Version": "string" } }, "FeatureTypes": [ "string" ], "JobTag": "string", "KMSKeyId": "string", "NotificationChannel": { "RoleArn": "string", "SNSTopicArn": "string" }, "OutputConfig": { "S3Bucket": "string", "S3Prefix": "string" } }

リクエストパラメータ

リクエストは以下の JSON 形式のデータを受け入れます。

ClientRequestToken

開始リクエストを識別するために使用するべき等トークン。同じトークンを複数で使用する場合StartDocumentAnalysisリクエスト、同じJobIdが返されます。を使用するClientRequestToken同じジョブが誤って複数回開始されないようにするためです。詳細については、「」を参照してください。Amazon Textract 非同期オペレーションを呼び出す

Type: 文字列

長さの制約: 最小長は 1 です。 最大長は 64 です。

パターン: ^[a-zA-Z0-9-_]+$

必須: いいえ

DocumentLocation

処理されるドキュメントの場所。

型: DocumentLocation オブジェクト

必須: はい

FeatureTypes

実行する解析のタイプのリスト。TABLES をリストに追加して、入力ドキュメントで検出されたテーブルに関する情報を返します。FORMS を追加して、検出されたフォームデータを返します。両方のタイプの分析を実行するには、TABLES と FORMS をFeatureTypes。ドキュメント内で検出されたすべての行と単語が応答に含まれます(次の値に関連しないテキストを含む)FeatureTypes).

Type: 文字列の配列

有効な値: TABLES | FORMS

必須: はい

JobTag

Amazon SNS トピックに対して発行される完了通知に含まれる、指定する識別子。例えば、次を使用できます。JobTag完了通知が対応する文書のタイプ(納税フォームや領収書など)を識別します。

Type: 文字列

長さの制約: 最小長は 1 です。 最大長は 64 です。

パターン: [a-zA-Z0-9_.\-:]+

必須: いいえ

KMSKeyId

推論結果の暗号化に使用される KMS キー。これは、キー ID 形式またはキーエイリアス形式のいずれかになります。KMS キーが提供されると、KMS キーは、カスタマーバケット内のオブジェクトのサーバー側の暗号化に使用されます。このパラメータが有効でない場合、結果は SSE-S3 を使用してサーバー側で暗号化されます。

Type: 文字列

長さの制約: 最小長は 1 です。 最大長は 2,048 です。

パターン: ^[A-Za-z0-9][A-Za-z0-9:_/+=,@.-]{0,2048}$

必須: いいえ

NotificationChannel

Amazon Textract でオペレーションの完了ステータスを公開する Amazon SNS トピック ARN。

型: NotificationChannel オブジェクト

必須: いいえ

OutputConfig

出力が顧客定義のバケットに送られるかどうかを設定します。デフォルトでは、Amazon Textract は内部的に結果を保存し、GetDocumentAnalysis s オペレーションによってアクセスされます。

型: OutputConfig オブジェクト

必須: いいえ

レスポンスの構文

{ "JobId": "string" }

レスポンス要素

アクションが成功すると、サービスは HTTP 200 レスポンスを返します。

サービスから以下のデータが JSON 形式で返されます。

JobId

ドキュメントテキスト検出ジョブの識別子。を使用するJobId以降の呼び出しでジョブを識別するにはGetDocumentAnalysis。あるJobId値は 7 日間だけ有効です。

Type: 文字列

長さの制約: 最小長は 1 です。 最大長は 64 です。

パターン: ^[a-zA-Z0-9-_]+$

エラー

AccessDeniedException

そのアクションを実行する権限がありません。そのオペレーションを実行するには、承認されたユーザーまたは IAM ロールの Amazon リソースネーム (ARN) を使用します。

HTTP ステータスコード: 400

BadDocumentException

Amazon Textract はドキュメントを読み取ることができません。Amazon Textract のドキュメント制限の詳細については、「」を参照してください。Amazon Textract のハード制限

HTTP ステータスコード: 400

DocumentTooLargeException

文書が大きすぎるため処理できません。同期オペレーションの最大ドキュメントサイズ 10 MB。非同期操作の最大ドキュメントサイズは、PDF ファイルの場合 500 MB です。

HTTP ステータスコード: 400

IdempotentParameterMismatchException

あるClientRequestToken入力パラメータがオペレーションに再利用されましたが、他の入力パラメータの少なくとも 1 つが、オペレーションに対する前回の呼び出しとは異なります。

HTTP ステータスコード: 400

InternalServerError

Amazon Textract でサービスの問題が発生しました。もう一度やり直してください。

HTTP ステータスコード: 500

InvalidKMSKeyException

KMS キーが入力された状態で復号化権限がないか、KMS キーが誤って入力されたことを示します。

HTTP ステータスコード: 400

InvalidParameterException

入力パラメータが制約に違反しています。たとえば、同期操作ではInvalidParameterException例外が発生するのは、どちらもS3ObjectまたはBytes値は、Documentリクエストパラメータ。API オペレーションを再度呼び出す前にパラメータを検証します。

HTTP ステータスコード: 400

InvalidS3ObjectException

Amazon Textract は、リクエストで指定された S3 オブジェクトにアクセスできません。詳細については、を参照してください。Amazon S3 へのアクセスの設定トラブルシューティング情報については、「」を参照してください。Amazon S3 トラブルシューティング

HTTP ステータスコード: 400

LimitExceededException

Amazon Textract サービスの制限を超えました。たとえば、同時起動する非同期ジョブが多すぎると、オペレーションの開始を呼び出します (StartDocumentTextDetectionたとえば、) 同時に実行されるジョブの数が Amazon Textract のサービスの制限を下回るまで、limitExceptionException の例外 (HTTP ステータスコード:400) を受け取ります。

HTTP ステータスコード: 400

ProvisionedThroughputExceededException

お客様のスループット制限を超えたリクエストの数。この上限を引き上げる場合は、Amazon Textract までお問い合わせください。

HTTP ステータスコード: 400

ThrottlingException

Amazon Textract は一時的にリクエストを処理できませんでした。もう一度やり直してください。

HTTP ステータスコード: 500

UnsupportedDocumentException

入力ドキュメントの形式はサポートされていません。操作用のドキュメントは、PNG、JPEG、PDF、または TIFF 形式にすることができます。

HTTP ステータスコード: 400

以下の資料も参照してください。

言語固有の AWS SDK のいずれかでこの API を使用する方法の詳細については、次を参照してください: