StartDocumentTextDetection - Amazon Textract

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

StartDocumentTextDetection

Inicia a detecção assíncrona de texto em um documento. O Amazon Textract pode detectar linhas de texto e as palavras que compõem uma linha de texto.

StartDocumentTextDetectionpode analisar texto em documentos que estão nos formatos JPEG, PNG, TIFF e PDF. Os documentos são armazenados em um bucket do Amazon S3. Usar oDocumentLocationPara especificar o nome do bucket do e o nome do arquivo do documento.

StartTextDetectionretorna um identificador de trabalho (JobId) que você usa para obter os resultados da operação. Quando a detecção de texto for concluída, o Amazon Textract publica um status de conclusão no tópico do Amazon Simple Notification Service (Amazon SNS) especificado noNotificationChannel. Para obter os resultados da operação de detecção de texto, primeiro verifique se o valor de status publicado no tópico do Amazon SNS éSUCCEEDED. Em caso afirmativo, ligueGetDocumentTextDetectione passar o identificador de trabalho (JobId) da chamada inicial paraStartDocumentTextDetection.

Para obter mais informações, consulteDetecção de texto de documentos.

Sintaxe da solicitação

{ "ClientRequestToken": "string", "DocumentLocation": { "S3Object": { "Bucket": "string", "Name": "string", "Version": "string" } }, "JobTag": "string", "KMSKeyId": "string", "NotificationChannel": { "RoleArn": "string", "SNSTopicArn": "string" }, "OutputConfig": { "S3Bucket": "string", "S3Prefix": "string" } }

Parâmetros de solicitação

A solicitação aceita os dados a seguir no formato JSON.

ClientRequestToken

O token idempotente usado para identificar a solicitação inicial. Se você usar o mesmo token com váriosStartDocumentTextDetectionsolicitações, o mesmoJobIdé retornado. Usar oClientRequestTokenpara evitar que o mesmo trabalho seja iniciado acidentalmente mais de uma vez. Para obter mais informações, consulteChamando operações assíncronas do Amazon Textract.

Type: String

Restrições de comprimento: Tamanho mínimo de 1. Tamanho máximo de 64.

Padrão: ^[a-zA-Z0-9-_]+$

: obrigatório Não

DocumentLocation

A localização do documento a ser processado.

Tipo: objeto DocumentLocation

: obrigatório Sim

JobTag

Um identificador que você especifica que está incluído na notificação de conclusão publicada no tópico do Amazon SNS. Por exemplo, você pode usarJobTagpara identificar o tipo de documento ao qual a notificação de conclusão corresponde (como um formulário fiscal ou um recibo).

Type: String

Restrições de comprimento: Tamanho mínimo de 1. Tamanho máximo de 64.

Padrão: [a-zA-Z0-9_.\-:]+

: obrigatório Não

KMSKeyId

A chave do KMS usada para criptografar os resultados de inferência. Isso pode estar no formato Key ID ou Key Alias. Quando uma chave KMS é fornecida, a chave KMS será usada para criptografia do lado do servidor dos objetos no bucket do cliente. Quando esse parâmetro não estiver habilitado, o resultado será criptografado no lado do servidor, usando o SSE-S3.

Type: String

Restrições de comprimento: Tamanho mínimo de 1. Tamanho máximo de 2048.

Padrão: ^[A-Za-z0-9][A-Za-z0-9:_/+=,@.-]{0,2048}$

: obrigatório Não

NotificationChannel

O tópico ARN do Amazon SNS no qual você deseja que o Amazon Textract publique o status de conclusão da operação.

Tipo: objeto NotificationChannel

: obrigatório Não

OutputConfig

Define se a saída irá para um intervalo definido pelo cliente. Por padrão, o Amazon Textract salvará os resultados internamente para serem acessados com a operação GetDocumentTextDetection.

Tipo: objeto OutputConfig

: obrigatório Não

Sintaxe da resposta

{ "JobId": "string" }

Elementos de resposta

Se a ação for bem-sucedida, o serviço reenviará uma resposta HTTP 200.

Os seguintes dados são retornados no formato JSON pelo serviço.

JobId

O identificador da tarefa de detecção de texto para o documento. Usar oJobIdpara identificar o trabalho em uma chamada subsequente paraGetDocumentTextDetection. UMAJobIdO valor só é válido por 7 dias.

Type: String

Restrições de comprimento: Tamanho mínimo de 1. Tamanho máximo de 64.

Padrão: ^[a-zA-Z0-9-_]+$

Erros

AccessDeniedException

Você não está autorizado a executar a ação. Use o nome de recurso da Amazon (ARN) de um usuário autorizado ou a função do IAM para executar a operação.

Código de status HTTP: 400

BadDocumentException

O Amazon Textract não consegue ler o documento. Para obter mais informações sobre os limites de documentos no Amazon Textract, consulteLimites rígidos no Amazon Textract.

Código de status HTTP: 400

DocumentTooLargeException

O documento não pode ser processado porque é muito grande. O tamanho máximo do documento para operações síncronas 10 MB. O tamanho máximo do documento para operações assíncronas é de 500 MB para arquivos PDF.

Código de status HTTP: 400

IdempotentParameterMismatchException

UMAClientRequestTokenO parâmetro de entrada foi reutilizado com uma operação, mas pelo menos um dos outros parâmetros de entrada é diferente da chamada anterior para a operação.

Código de status HTTP: 400

InternalServerError

O Amazon Textract teve um problema de serviço. Tente fazer a chamada novamente.

Código de status HTTP: 500

InvalidKMSKeyException

Indica que você não tem permissões de descriptografia com a chave KMS inserida ou a chave KMS foi inserida incorretamente.

Código de status HTTP: 400

InvalidParameterException

Um parâmetro de entrada violou uma restrição. Por exemplo, em operações síncronas, umInvalidParameterExceptionexceção ocorre quando nenhum dosS3ObjectouBytesvalores são fornecidos naDocumentParâmetro de solicitação. Valide seu parâmetro antes de chamar a operação de API novamente.

Código de status HTTP: 400

InvalidS3ObjectException

O Amazon Textract não pode acessar o objeto do S3 especificado na solicitação. para obter mais informações,Configuração de acesso ao Amazon S3Para obter informações sobre a solução de problemas, consulteSolução de problemas do Amazon S3

Código de status HTTP: 400

LimitExceededException

Um limite de serviço do Amazon Textract foi excedido. Por exemplo, se você iniciar muitos trabalhos assíncronos simultaneamente, chamadas para iniciar operações (StartDocumentTextDetection, por exemplo) gera uma exceção LimitExceededException (código de status HTTP: 400) até que o número de trabalhos simultâneos fique abaixo do limite de serviço Amazon Textract.

Código de status HTTP: 400

ProvisionedThroughputExceededException

O número de solicitações excedeu o limite da taxa de transferência. Se precisar aumentar esse limite, entre em contato com o Amazon Textract.

Código de status HTTP: 400

ThrottlingException

O Amazon Textract está temporariamente indisponível para processar a solicitação. Tente fazer a chamada novamente.

Código de status HTTP: 500

UnsupportedDocumentException

O formato do documento de entrada não é suportado. Os documentos para operações podem estar no formato PNG, JPEG, PDF ou TIFF.

Código de status HTTP: 400

Consulte também

Para obter mais informações sobre como usar essa API em um dos AWS SDKs específicos de linguagem, consulte o seguinte: