GetDocumentTextDetection - Amazon Textract

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

GetDocumentTextDetection

Obtém os resultados de uma operação assíncrona do Amazon Textract que detecta texto em um documento. O Amazon Textract pode detectar linhas de texto e as palavras que compõem uma linha de texto.

Você inicia a detecção de texto assíncrona chamandoStartDocumentTextDetection, que retorna um identificador de trabalho (JobId). Quando a operação de detecção de texto for concluída, o Amazon Textract publica um status de conclusão no tópico do Amazon Simple Notification Service (Amazon SNS) registrado na chamada inicial paraStartDocumentTextDetection. Para obter os resultados da operação de detecção de texto, primeiro verifique se o valor de status publicado no tópico do Amazon SNS éSUCCEEDED. Em caso afirmativo, ligueGetDocumentTextDetectione passar o identificador de trabalho (JobId) da chamada inicial paraStartDocumentTextDetection.

GetDocumentTextDetectionretorna uma matriz deBlockobjetos.

Cada página do documento tem como associadoBlockdo tipo PAGE. Cada PÁGINABlockobject é o pai de LINEBlockobjetos que representam as linhas do texto detectado em uma página. UMA LINHABlockobject é um pai para cada palavra que compõe a linha. As palavras são representadas porBlockobjetos do tipo WORD.

Use o parâmetro MaxResults para limitar o número de blocos retornados. Se houver mais resultados do que o especificado emMaxResults, o valor deNextTokenA resposta da operação contém um token de paginação para obter o próximo conjunto de resultados. Para obter a próxima página de resultados, ligueGetDocumentTextDetectione preencha oNextTokenparâmetro request com o valor do token retornado da chamada anterior paraGetDocumentTextDetection.

Para obter mais informações, consulteDetecção de texto de documentos.

Sintaxe da solicitação

{ "JobId": "string", "MaxResults": number, "NextToken": "string" }

Parâmetros de solicitação

A solicitação aceita os dados a seguir no formato JSON.

JobId

Um identificador exclusivo para a tarefa de detecção de texto. OJobIdé retornado deStartDocumentTextDetection. UMAJobIdO valor só é válido por 7 dias.

Type: String

Restrições de comprimento: Tamanho mínimo de 1. Tamanho máximo de 64.

Padrão: ^[a-zA-Z0-9-_]+$

Obrigatório: Sim

MaxResults

O número máximo de resultados a serem retornados por chamada paginada. O maior valor que você pode especificar é 1.000. Se você especificar um valor maior que 1.000, um máximo de 1.000 resultados será retornado. O valor padrão é 1,000.

Type: Inteiro

Intervalo válido: Valor mínimo de 1.

Obrigatório: Não

NextToken

Se a resposta anterior estiver incompleta (porque há mais blocos para recuperar), o Amazon Textract retornará um token de paginação na resposta. Você pode usar esse token de paginação para recuperação do próximo conjunto de blocos.

Type: String

Restrições de comprimento: Tamanho mínimo de 1. Tamanho máximo de 255.

Padrão: .*\S.*

Obrigatório: Não

Sintaxe da resposta

{ "Blocks": [ { "BlockType": "string", "ColumnIndex": number, "ColumnSpan": number, "Confidence": number, "EntityTypes": [ "string" ], "Geometry": { "BoundingBox": { "Height": number, "Left": number, "Top": number, "Width": number }, "Polygon": [ { "X": number, "Y": number } ] }, "Id": "string", "Page": number, "Relationships": [ { "Ids": [ "string" ], "Type": "string" } ], "RowIndex": number, "RowSpan": number, "SelectionStatus": "string", "Text": "string", "TextType": "string" } ], "DetectDocumentTextModelVersion": "string", "DocumentMetadata": { "Pages": number }, "JobStatus": "string", "NextToken": "string", "StatusMessage": "string", "Warnings": [ { "ErrorCode": "string", "Pages": [ number ] } ] }

Elementos de resposta

Se a ação for bem-sucedida, o serviço reenviará uma resposta HTTP 200.

Os seguintes dados são retornados no formato JSON pelo serviço.

Blocks

Os resultados da operação de detecção de texto.

Type: Matriz deBlockobjetos

DetectDocumentTextModelVersion

Type: String

DocumentMetadata

Informações sobre um documento que o Amazon Textract processou.DocumentMetadataé retornado em todas as páginas de respostas paginadas de uma operação de vídeo do Amazon Textract.

Tipo: objeto DocumentMetadata

JobStatus

O status atual da tarefa de detecção de texto.

Type: String

Valores válidos: IN_PROGRESS | SUCCEEDED | FAILED | PARTIAL_SUCCESS

NextToken

Se a resposta for truncada, o Amazon Textract retornará esse token. Você pode usar esse token na solicitação subsequente para recuperação do próximo conjunto de resultados de detecção de texto.

Type: String

Restrições de comprimento: Tamanho mínimo de 1. Tamanho máximo de 255.

Padrão: .*\S.*

StatusMessage

O retorna se o trabalho de detecção não puder ser concluído. Contém explicação para qual erro ocorreu.

Type: String

Warnings

Uma lista de avisos ocorridos durante a operação de detecção de texto do documento.

Type: Matriz deWarningobjetos

Erros

AccessDeniedException

Você não está autorizado a executar a ação. Use o nome de recurso da Amazon (ARN) de um usuário autorizado ou a função do IAM para executar a operação.

Código de status HTTP: 400

InternalServerError

O Amazon Textract teve um problema de serviço. Tente fazer a chamada novamente.

Código de status HTTP: 500

InvalidJobIdException

Um identificador de trabalho inválido foi passado paraGetDocumentAnalysisou paraGetDocumentAnalysis.

Código de status HTTP: 400

InvalidKMSKeyException

Indica que você não tem permissões de descriptografia com a chave KMS inserida ou a chave KMS foi inserida incorretamente.

Código de status HTTP: 400

InvalidParameterException

Um parâmetro de entrada violou uma restrição. Por exemplo, em operações síncronas, umInvalidParameterExceptionexceção ocorre quando nenhum dosS3ObjectouBytesvalores são fornecidos noDocumentParâmetro de solicitação. Valide seu parâmetro antes de chamar a operação de API novamente.

Código de status HTTP: 400

InvalidS3ObjectException

O Amazon Textract não pode acessar o objeto do S3 especificado na solicitação. para obter mais informações,Configuração de acesso ao Amazon S3Para obter informações sobre a solução de problemas, consulteSolução de problemas do Amazon S3

Código de status HTTP: 400

ProvisionedThroughputExceededException

O número de solicitações excedeu o limite da taxa de transferência. Se quiser aumentar esse limite, entre em contato com o Amazon Textract.

Código de status HTTP: 400

ThrottlingException

O Amazon Textract está temporariamente indisponível para processar a solicitação. Tente fazer a chamada novamente.

Código de status HTTP: 500

Consulte também

Para obter mais informações sobre como usar essa API em um dos AWS SDKs específicos de linguagem, consulte o seguinte: