GetDocumentAnalysis - Amazon Textract

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

GetDocumentAnalysis

Obtém os resultados de uma operação assíncrona do Amazon Textract que analisa o texto em um documento.

Você inicia a análise de texto assíncrona chamandoStartDocumentAnalysis, que retorna um identificador de trabalho (JobId). Quando a operação de análise de texto termina, o Amazon Textract publica um status de conclusão no tópico do Amazon Simple Notification Service (Amazon SNS) registrado na chamada inicial paraStartDocumentAnalysis. Para obter os resultados da operação de detecção de texto, primeiro verifique se o valor de status publicado no tópico do Amazon SNS éSUCCEEDED. Em caso afirmativo, ligueGetDocumentAnalysise passar o identificador de trabalho (JobId) da chamada inicial paraStartDocumentAnalysis.

GetDocumentAnalysisretorna uma matriz deBlockobjetos. Os seguintes tipos de informações são retornados:

  • Dados de formulário (pares de chave-valor). As informações relacionadas são retornadas em doisBlockobjetos, cada um dos tiposKEY_VALUE_SET: uma CHAVEBlockobjeto e um VALORBlockobjeto. Por exemplo,Name (Nome): Ana Silva Carolinacontém uma chave e um valor. Name (Nome):é a chave. Ana Silva CarolinaÉ o valor.

  • Dados de células de tabela e tabela. UMA TABELABlockobjeto contém informações sobre uma tabela detectada. UMA CÉLULABlockobjeto é retornado para cada célula em uma tabela.

  • Linhas e palavras de texto. UMA LINHABlockO objeto contém um ou mais WORDBlockobjetos. Todas as linhas e palavras detectadas no documento são retornadas (incluindo texto que não tem relação com o valor doStartDocumentAnalysis FeatureTypesparâmetro de entrada).

Elementos de seleção, como caixas de seleção e botões de opção (botões de opção), podem ser detectados em dados de formulário e em tabelas. UM SELECTION_ELEMENTBlockobjeto contém informações sobre um elemento de seleção, incluindo o status da seleção.

Usar aMaxResultsParâmetro para limitar o número de blocos retornados. Se houver mais resultados do que o especificado emMaxResults, o valor deNextTokenNa resposta da operação contém um token de paginação para obter o próximo conjunto de resultados. Para obter a próxima página de resultados, ligue paraGetDocumentAnalysise preencha oNextTokenparâmetro request com o valor do token retornado da chamada anterior paraGetDocumentAnalysis.

Para obter mais informações, consulteAnálise de texto do documento.

Sintaxe da solicitação

{ "JobId": "string", "MaxResults": number, "NextToken": "string" }

Parâmetros de solicitação

A solicitação aceita os dados a seguir no formato JSON.

JobId

Um identificador exclusivo para o trabalho de detecção de texto. OJobIdé retornado deStartDocumentAnalysis. UMAJobIdO valor só é válido por 7 dias.

Type: String

Restrições de comprimento: Tamanho mínimo de 1. Tamanho máximo de 64.

Padrão: ^[a-zA-Z0-9-_]+$

Obrigatório Sim

MaxResults

O número máximo de resultados a serem retornados por chamada paginada. O maior valor que você pode especificar é 1.000. Se precisar um valor maior que 1.000, um máximo de 1.000 resultados será retornado. O valor padrão é 1,000.

Type: Inteiro

Intervalo válido: Valor mínimo de 1.

Obrigatório Não

NextToken

Se a resposta anterior estiver incompleta (porque há mais blocos para recuperar), o Amazon Textract retornará um token de paginação na resposta. Você pode usar esse token de paginação para recuperar o próximo conjunto de blocos.

Type: String

Restrições de comprimento: Tamanho mínimo de 1. Tamanho máximo de 255.

Padrão: .*\S.*

Obrigatório Não

Sintaxe da resposta

{ "AnalyzeDocumentModelVersion": "string", "Blocks": [ { "BlockType": "string", "ColumnIndex": number, "ColumnSpan": number, "Confidence": number, "EntityTypes": [ "string" ], "Geometry": { "BoundingBox": { "Height": number, "Left": number, "Top": number, "Width": number }, "Polygon": [ { "X": number, "Y": number } ] }, "Id": "string", "Page": number, "Relationships": [ { "Ids": [ "string" ], "Type": "string" } ], "RowIndex": number, "RowSpan": number, "SelectionStatus": "string", "Text": "string", "TextType": "string" } ], "DocumentMetadata": { "Pages": number }, "JobStatus": "string", "NextToken": "string", "StatusMessage": "string", "Warnings": [ { "ErrorCode": "string", "Pages": [ number ] } ] }

Elementos de resposta

Se a ação for bem-sucedida, o serviço reenviará uma resposta HTTP 200.

Os seguintes dados são retornados no formato JSON pelo serviço.

AnalyzeDocumentModelVersion

Type: String

Blocks

Os resultados da operação de análise de texto.

Type: Matriz deBlockobjetos

DocumentMetadata

Informações sobre um documento que o Amazon Textract processou.DocumentMetadataé retornado em todas as páginas de respostas paginadas de uma operação de vídeo do Amazon Textract.

Tipo: objeto DocumentMetadata

JobStatus

O status atual do trabalho de detecção de texto.

Type: String

Valores válidos: IN_PROGRESS | SUCCEEDED | FAILED | PARTIAL_SUCCESS

NextToken

Se a resposta for truncada, o Amazon Textract retornará esse token. Você pode usar esse token na solicitação subsequente para recuperar o próximo conjunto de resultados de detecção de texto.

Type: String

Restrições de comprimento: Tamanho mínimo de 1. Tamanho máximo de 255.

Padrão: .*\S.*

StatusMessage

Retorna se o trabalho de detecção não puder ser concluído. Contém explicação para qual erro ocorreu.

Type: String

Warnings

Uma lista de avisos ocorridos durante a operação de análise de documentos.

Type: Matriz deWarningobjetos

Erros

AccessDeniedException

Você não está autorizado a executar a ação. Use o nome de recurso da Amazon (ARN) de um usuário autorizado ou a função do IAM para executar a operação.

Código de status HTTP: 400

InternalServerError

O Amazon Textract teve um problema de serviço. Tente fazer a chamada novamente.

Código de status HTTP: 500

InvalidJobIdException

Um identificador de trabalho inválido foi passado paraGetDocumentAnalysisou paraGetDocumentAnalysis.

Código de status HTTP: 400

InvalidKMSKeyException

Indica que você não tem permissões de descriptografia com a chave KMS inserida ou a chave KMS foi inserida incorretamente.

Código de status HTTP: 400

InvalidParameterException

Um parâmetro de entrada violou uma restrição. Por exemplo, em operações síncronas, umInvalidParameterExceptionexceção ocorre quando nenhum dosS3ObjectouBytesvalores são fornecidos naDocumentParâmetro de solicitação. Valide seu parâmetro antes de chamar a operação de API novamente.

Código de status HTTP: 400

InvalidS3ObjectException

O Amazon Textract não pode acessar o objeto do S3 especificado na solicitação. para obter mais informações,Configurar o acesso ao Amazon S3Para obter informações sobre a solução de problemas, consulteSolução de problemas do Amazon S3

Código de status HTTP: 400

ProvisionedThroughputExceededException

O número de solicitações excedeu o limite da taxa de transferência. Se precisar aumentar esse limite, entre em contato com o Amazon Textract.

Código de status HTTP: 400

ThrottlingException

O Amazon Textract está temporariamente indisponível para processar a solicitação. Tente fazer a chamada novamente.

Código de status HTTP: 500

Consulte também

Para obter mais informações sobre como usar essa API em um dos AWS SDKs específicos de linguagem, consulte o seguinte: