StartDocumentTextDetection - Amazon Textract

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

StartDocumentTextDetection

ドキュメント内のテキストの非同期検出を開始します。Amazon Textract では、テキスト行とテキスト行を構成する単語を検出できます。

StartDocumentTextDetectionでは、JPEG、PNG、TIFF、および PDF 形式のドキュメント内のテキストを分析できます。ドキュメントは Amazon S3 バケットに格納されます。を使用するDocumentLocationを選択して、ドキュメントのバケット名とファイル名を指定します。

StartTextDetectionジョブ識別子を返します (JobId) を使用して、オペレーションの結果を取得します。テキストの検出が完了すると、Amazon Textract は、で指定した Amazon Simple Notification Service (Amazon SNS) トピックに完了ステータスを発行します。NotificationChannel。テキスト検出操作の結果を取得するには、まず Amazon SNS トピックに発行されたステータス値がSUCCEEDED。もしそうなら、電話してくださいGetDocumentTextDetectionをクリックし、ジョブ識別子を渡します (JobId) の最初の呼び出しからStartDocumentTextDetection

詳細については、「」を参照してください。ドキュメントのテキストの検出

リクエストの構文

{ "ClientRequestToken": "string", "DocumentLocation": { "S3Object": { "Bucket": "string", "Name": "string", "Version": "string" } }, "JobTag": "string", "KMSKeyId": "string", "NotificationChannel": { "RoleArn": "string", "SNSTopicArn": "string" }, "OutputConfig": { "S3Bucket": "string", "S3Prefix": "string" } }

リクエストパラメータ

リクエストは以下の JSON 形式のデータを受け入れます。

ClientRequestToken

開始リクエストを識別するために使用されるべき等トークン。複数で同じトークンを使用する場合StartDocumentTextDetectionリクエスト、同じJobIdが返されました。を使用するClientRequestToken同じジョブが誤って複数回開始されないようにする。詳細については、「」を参照してください。Amazon Textract 非同期オペレーションを呼び出す

Type: 文字列

長さの制約: 最小長は 1 です。 最大長は 64 です。

パターン: ^[a-zA-Z0-9-_]+$

必須: いいえ

DocumentLocation

処理されるドキュメントの場所。

型: DocumentLocation オブジェクト

必須: はい

JobTag

Amazon SNS トピックに対して発行される完了通知に含まれる、指定した ID。例えば、JobTag完了通知が対応する文書のタイプ(納税フォームや領収書など)を識別します。

Type: 文字列

長さの制約: 最小長は 1 です。 最大長は 64 です。

パターン: [a-zA-Z0-9_.\-:]+

必須: いいえ

KMSKeyId

推論結果の暗号化に使用される KMS キーです。これは、キー ID またはキーエイリアスの形式のいずれかになります。KMS キーが提供されると、KMS キーは、カスタマーバケット内のオブジェクトのサーバー側の暗号化に使用されます。このパラメータが有効でない場合、結果は SSE-S3 を使用してサーバー側で暗号化されます。

Type: 文字列

長さの制約: 最小長は 1 です。 最大長は 2,048 です。

パターン: ^[A-Za-z0-9][A-Za-z0-9:_/+=,@.-]{0,2048}$

必須: いいえ

NotificationChannel

Amazon Textract でオペレーションの完了ステータスを公開する Amazon SNS トピック ARN。

型: NotificationChannel オブジェクト

必須: いいえ

OutputConfig

出力が顧客定義のバケットに送られるかどうかを設定します。デフォルトでは、Amazon Textract は、GetDocumentTextDetection オペレーションでアクセスするために内部的に結果を保存します。

型: OutputConfig オブジェクト

必須: いいえ

レスポンスの構文

{ "JobId": "string" }

レスポンス要素

アクションが成功すると、サービスは HTTP 200 レスポンスを返します。

サービスから以下のデータが JSON 形式で返されます。

JobId

ドキュメントのテキスト検出ジョブの識別子。を使用するJobId以降の呼び出しでジョブを識別するにはGetDocumentTextDetection。あるJobId値は 7 日間有効です。

Type: 文字列

長さの制約: 最小長は 1 です。 最大長は 64 です。

パターン: ^[a-zA-Z0-9-_]+$

エラー

AccessDeniedException

そのアクションを実行する権限がありません。そのオペレーションを実行するには、承認されたユーザーまたは IAM ロールの Amazon リソースネーム (ARN) を使用します。

HTTP ステータスコード: 400

BadDocumentException

Amazon Textract はドキュメントを読み取ることができません。Amazon Textract のドキュメント制限の詳細については、「」を参照してください。Amazon Textract のハード制限

HTTP ステータスコード: 400

DocumentTooLargeException

文書が大きすぎるため処理できません。同期オペレーションの最大ドキュメントサイズは 10 MB です。非同期操作の最大ドキュメントサイズは、PDF ファイルの場合 500 MB です。

HTTP ステータスコード: 400

IdempotentParameterMismatchException

あるClientRequestToken入力パラメータがオペレーションで再利用されましたが、他の入力パラメータの少なくとも 1 つが、オペレーションに対する前回の呼び出しとは異なります。

HTTP ステータスコード: 400

InternalServerError

Amazon Textract でサービスの問題が発生しました。もう一度やり直してください。

HTTP ステータスコード: 500

InvalidKMSKeyException

KMS キーが入力された状態で復号化権限がないか、KMS キーが誤って入力されたことを示します。

HTTP ステータスコード: 400

InvalidParameterException

入力パラメータが制約に違反しています。たとえば、同期操作では、InvalidParameterException例外が発生するのは、どちらもS3ObjectまたはBytes値は、Documentリクエストパラメータ。API オペレーションを再度呼び出す前にパラメータを検証します。

HTTP ステータスコード: 400

InvalidS3ObjectException

Amazon Textract は、リクエストで指定された S3 オブジェクトにアクセスできません。詳細については、Amazon S3 へのアクセスの設定トラブルシューティング情報については、「」を参照してください。Amazon S3 トラブルシューティング

HTTP ステータスコード: 400

LimitExceededException

Amazon Textract のサービスの制限を超えました。たとえば、同時起動する非同期ジョブが多すぎると、オペレーションの開始を呼び出します (StartDocumentTextDetectionたとえば、LimitExceededException の例外 (HTTP ステータスコード:400) を受け取ります。同時に実行されるジョブの数が Amazon Textract のサービスの制限を下回るまで、limitException の例外 (HTTP ステータスコード:400) を受け取ります。

HTTP ステータスコード: 400

ProvisionedThroughputExceededException

お客様のスループット制限を超えたリクエストの数。この制限を引き上げる場合は、Amazon Textract までお問い合わせください。

HTTP ステータスコード: 400

ThrottlingException

Amazon Textract は一時的にリクエストを処理できませんでした。もう一度やり直してください。

HTTP ステータスコード: 500

UnsupportedDocumentException

入力ドキュメントの形式はサポートされていません。操作用のドキュメントは、PNG、JPEG、PDF、または TIFF 形式にすることができます。

HTTP ステータスコード: 400

以下の資料も参照してください。

言語固有の AWS SDK のいずれかでこの API を使用する方法の詳細については、次を参照してください: