翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
StartDocumentTextDetection
ドキュメント内のテキストの非同期検出を開始します。Amazon Textract では、テキスト行とテキスト行を構成する単語を検出できます。
StartDocumentTextDetection
では、JPEG、PNG、TIFF、および PDF 形式のドキュメント内のテキストを分析できます。ドキュメントは Amazon S3 バケットに格納されます。を使用するDocumentLocationを選択して、ドキュメントのバケット名とファイル名を指定します。
StartTextDetection
ジョブ識別子を返します (JobId
) を使用して、オペレーションの結果を取得します。テキストの検出が完了すると、Amazon Textract は、で指定した Amazon Simple Notification Service (Amazon SNS) トピックに完了ステータスを発行します。NotificationChannel
。テキスト検出操作の結果を取得するには、まず Amazon SNS トピックに発行されたステータス値がSUCCEEDED
。もしそうなら、電話してくださいGetDocumentTextDetectionをクリックし、ジョブ識別子を渡します (JobId
) の最初の呼び出しからStartDocumentTextDetection
。
詳細については、「」を参照してください。ドキュメントのテキストの検出。
リクエストの構文
{
"ClientRequestToken": "string
",
"DocumentLocation": {
"S3Object": {
"Bucket": "string
",
"Name": "string
",
"Version": "string
"
}
},
"JobTag": "string
",
"KMSKeyId": "string
",
"NotificationChannel": {
"RoleArn": "string
",
"SNSTopicArn": "string
"
},
"OutputConfig": {
"S3Bucket": "string
",
"S3Prefix": "string
"
}
}
リクエストパラメータ
リクエストは以下の JSON 形式のデータを受け入れます。
- ClientRequestToken
-
開始リクエストを識別するために使用されるべき等トークン。複数で同じトークンを使用する場合
StartDocumentTextDetection
リクエスト、同じJobId
が返されました。を使用するClientRequestToken
同じジョブが誤って複数回開始されないようにする。詳細については、「」を参照してください。Amazon Textract 非同期オペレーションを呼び出す。Type: 文字列
長さの制約: 最小長は 1 です。 最大長は 64 です。
パターン:
^[a-zA-Z0-9-_]+$
必須: いいえ
- DocumentLocation
-
処理されるドキュメントの場所。
型: DocumentLocation オブジェクト
必須: はい
- JobTag
-
Amazon SNS トピックに対して発行される完了通知に含まれる、指定した ID。例えば、
JobTag
完了通知が対応する文書のタイプ(納税フォームや領収書など)を識別します。Type: 文字列
長さの制約: 最小長は 1 です。 最大長は 64 です。
パターン:
[a-zA-Z0-9_.\-:]+
必須: いいえ
- KMSKeyId
-
推論結果の暗号化に使用される KMS キーです。これは、キー ID またはキーエイリアスの形式のいずれかになります。KMS キーが提供されると、KMS キーは、カスタマーバケット内のオブジェクトのサーバー側の暗号化に使用されます。このパラメータが有効でない場合、結果は SSE-S3 を使用してサーバー側で暗号化されます。
Type: 文字列
長さの制約: 最小長は 1 です。 最大長は 2,048 です。
パターン:
^[A-Za-z0-9][A-Za-z0-9:_/+=,@.-]{0,2048}$
必須: いいえ
- NotificationChannel
-
Amazon Textract でオペレーションの完了ステータスを公開する Amazon SNS トピック ARN。
型: NotificationChannel オブジェクト
必須: いいえ
- OutputConfig
-
出力が顧客定義のバケットに送られるかどうかを設定します。デフォルトでは、Amazon Textract は、GetDocumentTextDetection オペレーションでアクセスするために内部的に結果を保存します。
型: OutputConfig オブジェクト
必須: いいえ
レスポンスの構文
{
"JobId": "string"
}
レスポンス要素
アクションが成功すると、サービスは HTTP 200 レスポンスを返します。
サービスから以下のデータが JSON 形式で返されます。
- JobId
-
ドキュメントのテキスト検出ジョブの識別子。を使用する
JobId
以降の呼び出しでジョブを識別するにはGetDocumentTextDetection
。あるJobId
値は 7 日間有効です。Type: 文字列
長さの制約: 最小長は 1 です。 最大長は 64 です。
パターン:
^[a-zA-Z0-9-_]+$
エラー
- AccessDeniedException
-
そのアクションを実行する権限がありません。そのオペレーションを実行するには、承認されたユーザーまたは IAM ロールの Amazon リソースネーム (ARN) を使用します。
HTTP ステータスコード: 400
- BadDocumentException
-
Amazon Textract はドキュメントを読み取ることができません。Amazon Textract のドキュメント制限の詳細については、「」を参照してください。Amazon Textract のハード制限。
HTTP ステータスコード: 400
- DocumentTooLargeException
-
文書が大きすぎるため処理できません。同期オペレーションの最大ドキュメントサイズは 10 MB です。非同期操作の最大ドキュメントサイズは、PDF ファイルの場合 500 MB です。
HTTP ステータスコード: 400
- IdempotentParameterMismatchException
-
ある
ClientRequestToken
入力パラメータがオペレーションで再利用されましたが、他の入力パラメータの少なくとも 1 つが、オペレーションに対する前回の呼び出しとは異なります。HTTP ステータスコード: 400
- InternalServerError
-
Amazon Textract でサービスの問題が発生しました。もう一度やり直してください。
HTTP ステータスコード: 500
- InvalidKMSKeyException
-
KMS キーが入力された状態で復号化権限がないか、KMS キーが誤って入力されたことを示します。
HTTP ステータスコード: 400
- InvalidParameterException
-
入力パラメータが制約に違反しています。たとえば、同期操作では、
InvalidParameterException
例外が発生するのは、どちらもS3Object
またはBytes
値は、Document
リクエストパラメータ。API オペレーションを再度呼び出す前にパラメータを検証します。HTTP ステータスコード: 400
- InvalidS3ObjectException
-
Amazon Textract は、リクエストで指定された S3 オブジェクトにアクセスできません。詳細については、Amazon S3 へのアクセスの設定トラブルシューティング情報については、「」を参照してください。Amazon S3 トラブルシューティング
HTTP ステータスコード: 400
- LimitExceededException
-
Amazon Textract のサービスの制限を超えました。たとえば、同時起動する非同期ジョブが多すぎると、オペレーションの開始を呼び出します (
StartDocumentTextDetection
たとえば、LimitExceededException の例外 (HTTP ステータスコード:400) を受け取ります。同時に実行されるジョブの数が Amazon Textract のサービスの制限を下回るまで、limitException の例外 (HTTP ステータスコード:400) を受け取ります。HTTP ステータスコード: 400
- ProvisionedThroughputExceededException
-
お客様のスループット制限を超えたリクエストの数。この制限を引き上げる場合は、Amazon Textract までお問い合わせください。
HTTP ステータスコード: 400
- ThrottlingException
-
Amazon Textract は一時的にリクエストを処理できませんでした。もう一度やり直してください。
HTTP ステータスコード: 500
- UnsupportedDocumentException
-
入力ドキュメントの形式はサポートされていません。操作用のドキュメントは、PNG、JPEG、PDF、または TIFF 形式にすることができます。
HTTP ステータスコード: 400
以下の資料も参照してください。
言語固有の AWS SDK のいずれかでこの API を使用する方法の詳細については、次を参照してください: