StartDocumentAnalysis - Amazon Textract

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

StartDocumentAnalysis

Inicia a análise assíncrona de um documento de entrada para pesquisar relacionamentos entre itens detectados, como pares de chave-valor, tabelas e elementos de seleção.

StartDocumentAnalysispode analisar texto em documentos que estão nos formatos JPEG, PNG, TIFF e PDF. Os documentos são armazenados em um bucket do Amazon S3. Usar oDocumentLocationPara especificar o nome do bucket do e o nome do arquivo do documento.

StartDocumentAnalysisretorna um identificador de trabalho (JobId) que você usa para obter os resultados da operação. Quando a análise de texto for concluída, o Amazon Textract publica um status de conclusão no tópico do Amazon Simple Notification Service (Amazon SNS) especificado noNotificationChannel. Para obter os resultados da operação de análise de texto, primeiro verifique se o valor de status publicado no tópico do Amazon SNS éSUCCEEDED. Em caso afirmativo, ligueGetDocumentAnalysise passar o identificador de trabalho (JobId) da chamada inicial paraStartDocumentAnalysis.

Para obter mais informações, consulteAnálise de texto de documentos.

Sintaxe da solicitação

{ "ClientRequestToken": "string", "DocumentLocation": { "S3Object": { "Bucket": "string", "Name": "string", "Version": "string" } }, "FeatureTypes": [ "string" ], "JobTag": "string", "KMSKeyId": "string", "NotificationChannel": { "RoleArn": "string", "SNSTopicArn": "string" }, "OutputConfig": { "S3Bucket": "string", "S3Prefix": "string" } }

Parâmetros de solicitação

A solicitação aceita os dados a seguir no formato JSON.

ClientRequestToken

O token idempotente que você usa para identificar a solicitação inicial. Se você usar o mesmo token com váriosStartDocumentAnalysissolicitações, o mesmoJobIdO retornado. Usar oClientRequestTokenpara evitar que o mesmo trabalho seja iniciado acidentalmente mais de uma vez. Para obter mais informações, consulteChamando operações assíncronas do Amazon Textract.

Type: String

Restrições de comprimento: Tamanho mínimo de 1. Tamanho máximo de 64.

Padrão: ^[a-zA-Z0-9-_]+$

Obrigatório: Não

DocumentLocation

A localização do documento a ser processado.

Tipo: objeto DocumentLocation

Obrigatório: Sim

FeatureTypes

Uma lista dos tipos de análise a serem executadas. Adicione TABLES à lista para retornar informações sobre as tabelas detectadas no documento de entrada. Adicione FORMS para retornar dados de formulário detectados. Para executar os dois tipos de análise, adicione TABLES e FORMS aoFeatureTypes. Todas as linhas e palavras detectadas no documento estão incluídas na resposta (incluindo texto que não está relacionado ao valor deFeatureTypes).

Type: Matriz de strings

Valores válidos: TABLES | FORMS

Obrigatório: Sim

JobTag

Um identificador que você especifica que está incluído na notificação de conclusão publicada no tópico do Amazon SNS. Por exemplo, você pode usarJobTagpara identificar o tipo de documento ao qual a notificação de conclusão corresponde (como um formulário fiscal ou um recibo).

Type: String

Restrições de comprimento: Tamanho mínimo de 1. Tamanho máximo de 64.

Padrão: [a-zA-Z0-9_.\-:]+

Obrigatório: Não

KMSKeyId

A chave do KMS usada para criptografar os resultados de inferência. Isso pode estar no formato Key ID ou Key Alias. Quando uma chave KMS é fornecida, a chave KMS será usada para criptografia do lado do servidor dos objetos no bucket do cliente. Quando esse parâmetro não estiver habilitado, o resultado será criptografado no lado do servidor, usando o SSE-S3.

Type: String

Restrições de comprimento: Tamanho mínimo de 1. Tamanho máximo de 2048.

Padrão: ^[A-Za-z0-9][A-Za-z0-9:_/+=,@.-]{0,2048}$

Obrigatório: Não

NotificationChannel

O tópico ARN do Amazon SNS no qual você deseja que o Amazon Textract publique o status de conclusão da operação.

Tipo: objeto NotificationChannel

Obrigatório: Não

OutputConfig

Define se a saída irá para um intervalo definido pelo cliente. Por padrão, o Amazon Textract salvará os resultados internamente para serem acessados pela operação GetDocumentAnalysis.

Tipo: objeto OutputConfig

Obrigatório: Não

Sintaxe da resposta

{ "JobId": "string" }

Elementos de resposta

Se a ação for bem-sucedida, o serviço reenviará uma resposta HTTP 200.

Os seguintes dados são retornados no formato JSON pelo serviço.

JobId

O identificador do trabalho de detecção de texto do documento. Usar oJobIdpara identificar o trabalho em uma chamada subsequente paraGetDocumentAnalysis. UMAJobIdO valor só é válido por 7 dias.

Type: String

Restrições de comprimento: Tamanho mínimo de 1. Tamanho máximo de 64.

Padrão: ^[a-zA-Z0-9-_]+$

Erros

AccessDeniedException

Você não está autorizado a executar a ação. Use o nome de recurso da Amazon (ARN) de um usuário autorizado ou a função do IAM para executar a operação.

Código de status HTTP: 400

BadDocumentException

O Amazon Textract não consegue ler o documento. Para obter mais informações sobre os limites de documentos no Amazon Textract, consulteLimites rígidos no Amazon Textract.

Código de status HTTP: 400

DocumentTooLargeException

O documento não pode ser processado porque é muito grande. O tamanho máximo do documento para operações síncronas 10 MB. O tamanho máximo do documento para operações assíncronas é de 500 MB para arquivos PDF.

Código de status HTTP: 400

IdempotentParameterMismatchException

UMAClientRequestTokenO parâmetro de entrada foi reutilizado com uma operação, mas pelo menos um dos outros parâmetros de entrada é diferente da chamada anterior para a operação.

Código de status HTTP: 400

InternalServerError

O Amazon Textract teve um problema de serviço. Tente fazer a chamada novamente.

Código de status HTTP: 500

InvalidKMSKeyException

Indica que você não tem permissões de descriptografia com a chave KMS inserida ou a chave KMS foi inserida incorretamente.

Código de status HTTP: 400

InvalidParameterException

Um parâmetro de entrada violou uma restrição. Por exemplo, em operações síncronas, umInvalidParameterExceptionexceção ocorre quando nenhum dosS3ObjectouBytesvalores são fornecidos naDocumentParâmetro de solicitação. Valide seu parâmetro antes de chamar a operação de API novamente.

Código de status HTTP: 400

InvalidS3ObjectException

O Amazon Textract não pode acessar o objeto do S3 especificado na solicitação. para obter mais informações,Configuração de acesso ao Amazon S3Para obter informações sobre a solução de problemas, consulteSolução de problemas do Amazon S3

Código de status HTTP: 400

LimitExceededException

Um limite do serviço do Amazon Textract foi excedido. Por exemplo, se você iniciar muitos trabalhos assíncronos simultaneamente, chamadas para iniciar operações (StartDocumentTextDetection, por exemplo) gera uma exceção LimitExceededException (código de status HTTP: 400) até que o número de trabalhos simultâneos fique abaixo do limite de serviço do Amazon Textract.

Código de status HTTP: 400

ProvisionedThroughputExceededException

O número de solicitações excedeu o limite da taxa de transferência. Se precisar aumentar esse limite, entre em contato com o Amazon Textract.

Código de status HTTP: 400

ThrottlingException

O Amazon Textract está temporariamente indisponível para processar a solicitação. Tente fazer a chamada novamente.

Código de status HTTP: 500

UnsupportedDocumentException

O formato do documento de entrada não é suportado. Os documentos para operações podem estar no formato PNG, JPEG, PDF ou TIFF.

Código de status HTTP: 400

Consulte também

Para obter mais informações sobre como usar essa API em um dos AWS SDKs específicos de linguagem, consulte o seguinte: