As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
DetectDocumentText
Detecta texto no documento de entrada. O Amazon Textract pode detectar linhas de texto e as palavras que compõem uma linha de texto. O documento de entrada deve ser uma imagem no formato JPEG, PNG, PDF ou TIFF.DetectDocumentText
retorna o texto detectado em uma matriz deBlockobjetos.
Cada página do documento tem como associadoBlock
do tipo PAGE. Cada PÁGINABlock
object é o pai de LINEBlock
objetos que representam as linhas do texto detectado em uma página. UMA LINHABlock
object é um pai para cada palavra que compõe a linha. As palavras são representadas porBlock
objetos do tipo WORD.
DetectDocumentText
É uma operação síncrona. Para analisar documentos de forma assíncrona, useStartDocumentTextDetection.
Para obter mais informações, consulteDetecção de texto de documentos.
Sintaxe da solicitação
{
"Document": {
"Bytes": blob
,
"S3Object": {
"Bucket": "string
",
"Name": "string
",
"Version": "string
"
}
}
}
Parâmetros de solicitação
A solicitação aceita os dados a seguir no formato JSON.
- Document
-
O documento de entrada como bytes codificados em base64 ou um objeto do Amazon S3. Se você usar a AWS CLI para chamar as operações do Amazon Textract, não poderá passar bytes de imagem. O documento deve ser uma imagem em formato JPEG ou PNG.
Se você estiver usando um AWS SDK para chamar o Amazon Textract, talvez não seja necessário codificar bytes de imagem que são passados usando o
Bytes
campo.Tipo: objeto Document
Obrigatório: Sim
Sintaxe da resposta
{
"Blocks": [
{
"BlockType": "string",
"ColumnIndex": number,
"ColumnSpan": number,
"Confidence": number,
"EntityTypes": [ "string" ],
"Geometry": {
"BoundingBox": {
"Height": number,
"Left": number,
"Top": number,
"Width": number
},
"Polygon": [
{
"X": number,
"Y": number
}
]
},
"Id": "string",
"Page": number,
"Relationships": [
{
"Ids": [ "string" ],
"Type": "string"
}
],
"RowIndex": number,
"RowSpan": number,
"SelectionStatus": "string",
"Text": "string",
"TextType": "string"
}
],
"DetectDocumentTextModelVersion": "string",
"DocumentMetadata": {
"Pages": number
}
}
Elementos de resposta
Se a ação for bem-sucedida, o serviço reenviará uma resposta HTTP 200.
Os seguintes dados são retornados no formato JSON pelo serviço.
- Blocks
-
Uma matriz de
Block
objetos que contêm o texto detectado no documento.Type: Matriz deBlockobjetos
- DetectDocumentTextModelVersion
-
Type: String
- DocumentMetadata
-
Metadados sobre o documento. Ele contém o número de páginas detectadas no documento.
Tipo: objeto DocumentMetadata
Erros
- AccessDeniedException
-
Você não está autorizado a executar a ação. Use o nome de recurso da Amazon (ARN) de um usuário autorizado ou a função do IAM para executar a operação.
Código de status HTTP: 400
- BadDocumentException
-
O Amazon Textract não consegue ler o documento. Para obter mais informações sobre os limites de documentos no Amazon Textract, consulteLimites rígidos no Amazon Textract.
Código de status HTTP: 400
- DocumentTooLargeException
-
O documento não pode ser processado porque é muito grande. O tamanho máximo do documento para operações síncronas 10 MB. O tamanho máximo do documento para operações assíncronas é de 500 MB para arquivos PDF.
Código de status HTTP: 400
- InternalServerError
-
O Amazon Textract teve um problema de serviço. Tente fazer a chamada novamente.
Código de status HTTP: 500
- InvalidParameterException
-
Um parâmetro de entrada violou uma restrição. Por exemplo, em operações síncronas, um
InvalidParameterException
exceção ocorre quando nenhum dosS3Object
ouBytes
valores são fornecidos naDocument
Parâmetro de solicitação. Valide seu parâmetro antes de chamar a operação de API novamente.Código de status HTTP: 400
- InvalidS3ObjectException
-
O Amazon Textract está indisponível para acessar o objeto do S3 especificado na solicitação. para obter mais informações,Configuração de acesso ao Amazon S3Para obter informações sobre a solução de problemas, consulteSolução de problemas do Amazon S3
Código de status HTTP: 400
- ProvisionedThroughputExceededException
-
O número de solicitações excedeu o limite da taxa de transferência. Se precisar aumentar esse limite, entre em contato com o Amazon Textract.
Código de status HTTP: 400
- ThrottlingException
-
O Amazon Textract está temporariamente indisponível para processar a solicitação. Tente fazer a chamada novamente.
Código de status HTTP: 500
- UnsupportedDocumentException
-
O formato do documento de entrada não tem suporte. Os documentos para operações podem estar no formato PNG, JPEG, PDF ou TIFF.
Código de status HTTP: 400
Consulte também
Para obter mais informações sobre como usar essa API em um dos AWS SDKs específicos de linguagem, consulte o seguinte: