DetectDocumentText - Amazon Textract

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

DetectDocumentText

Detecta texto no documento de entrada. O Amazon Textract pode detectar linhas de texto e as palavras que compõem uma linha de texto. O documento de entrada deve ser uma imagem no formato JPEG, PNG, PDF ou TIFF.DetectDocumentTextretorna o texto detectado em uma matriz deBlockobjetos.

Cada página do documento tem como associadoBlockdo tipo PAGE. Cada PÁGINABlockobject é o pai de LINEBlockobjetos que representam as linhas do texto detectado em uma página. UMA LINHABlockobject é um pai para cada palavra que compõe a linha. As palavras são representadas porBlockobjetos do tipo WORD.

DetectDocumentTextÉ uma operação síncrona. Para analisar documentos de forma assíncrona, useStartDocumentTextDetection.

Para obter mais informações, consulteDetecção de texto de documentos.

Sintaxe da solicitação

{ "Document": { "Bytes": blob, "S3Object": { "Bucket": "string", "Name": "string", "Version": "string" } } }

Parâmetros de solicitação

A solicitação aceita os dados a seguir no formato JSON.

Document

O documento de entrada como bytes codificados em base64 ou um objeto do Amazon S3. Se você usar a AWS CLI para chamar as operações do Amazon Textract, não poderá passar bytes de imagem. O documento deve ser uma imagem em formato JPEG ou PNG.

Se você estiver usando um AWS SDK para chamar o Amazon Textract, talvez não seja necessário codificar bytes de imagem que são passados usando oBytescampo.

Tipo: objeto Document

Obrigatório: Sim

Sintaxe da resposta

{ "Blocks": [ { "BlockType": "string", "ColumnIndex": number, "ColumnSpan": number, "Confidence": number, "EntityTypes": [ "string" ], "Geometry": { "BoundingBox": { "Height": number, "Left": number, "Top": number, "Width": number }, "Polygon": [ { "X": number, "Y": number } ] }, "Id": "string", "Page": number, "Relationships": [ { "Ids": [ "string" ], "Type": "string" } ], "RowIndex": number, "RowSpan": number, "SelectionStatus": "string", "Text": "string", "TextType": "string" } ], "DetectDocumentTextModelVersion": "string", "DocumentMetadata": { "Pages": number } }

Elementos de resposta

Se a ação for bem-sucedida, o serviço reenviará uma resposta HTTP 200.

Os seguintes dados são retornados no formato JSON pelo serviço.

Blocks

Uma matriz deBlockobjetos que contêm o texto detectado no documento.

Type: Matriz deBlockobjetos

DetectDocumentTextModelVersion

Type: String

DocumentMetadata

Metadados sobre o documento. Ele contém o número de páginas detectadas no documento.

Tipo: objeto DocumentMetadata

Erros

AccessDeniedException

Você não está autorizado a executar a ação. Use o nome de recurso da Amazon (ARN) de um usuário autorizado ou a função do IAM para executar a operação.

Código de status HTTP: 400

BadDocumentException

O Amazon Textract não consegue ler o documento. Para obter mais informações sobre os limites de documentos no Amazon Textract, consulteLimites rígidos no Amazon Textract.

Código de status HTTP: 400

DocumentTooLargeException

O documento não pode ser processado porque é muito grande. O tamanho máximo do documento para operações síncronas 10 MB. O tamanho máximo do documento para operações assíncronas é de 500 MB para arquivos PDF.

Código de status HTTP: 400

InternalServerError

O Amazon Textract teve um problema de serviço. Tente fazer a chamada novamente.

Código de status HTTP: 500

InvalidParameterException

Um parâmetro de entrada violou uma restrição. Por exemplo, em operações síncronas, umInvalidParameterExceptionexceção ocorre quando nenhum dosS3ObjectouBytesvalores são fornecidos naDocumentParâmetro de solicitação. Valide seu parâmetro antes de chamar a operação de API novamente.

Código de status HTTP: 400

InvalidS3ObjectException

O Amazon Textract está indisponível para acessar o objeto do S3 especificado na solicitação. para obter mais informações,Configuração de acesso ao Amazon S3Para obter informações sobre a solução de problemas, consulteSolução de problemas do Amazon S3

Código de status HTTP: 400

ProvisionedThroughputExceededException

O número de solicitações excedeu o limite da taxa de transferência. Se precisar aumentar esse limite, entre em contato com o Amazon Textract.

Código de status HTTP: 400

ThrottlingException

O Amazon Textract está temporariamente indisponível para processar a solicitação. Tente fazer a chamada novamente.

Código de status HTTP: 500

UnsupportedDocumentException

O formato do documento de entrada não tem suporte. Os documentos para operações podem estar no formato PNG, JPEG, PDF ou TIFF.

Código de status HTTP: 400

Consulte também

Para obter mais informações sobre como usar essa API em um dos AWS SDKs específicos de linguagem, consulte o seguinte: