As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
AnalyzeDocument
Analisa um documento de entrada para os relacionamentos entre itens detectados em um documento
Os tipos de informações retornadas são os seguintes:
-
Dados do formulário (pares de chave-valor). As informações relacionadas são retornadas em doisBlockobjetos, cada um dos tipos
KEY_VALUE_SET
: uma CHAVEBlock
objeto e um VALORBlock
objeto. Por exemplo,Name (Nome): Ana Silva Carolinacontém uma chave e um valor. Name (Nome):é a chave. Ana Silva CarolinaÉ o valor de. -
Dados de células de tabela e tabela. UMA TABELA
Block
objeto contém informações sobre uma tabela detectada. UMA CÉLULABlock
objeto é retornado para cada célula em uma tabela. -
Linhas e palavras de texto. UMA LINHA
Block
O objeto contém um ou mais WORDBlock
objetos. Todas as linhas e palavras detectadas no documento são retornadas (incluindo texto que não tem relação com o valor deFeatureTypes
).
Elementos de seleção, como caixas de seleção e botões de opção (botões de opção), podem ser detectados em dados de formulário e em tabelas. UM SELECTION_ELEMENTBlock
objeto contém informações sobre um elemento de seleção, incluindo o status da seleção.
Você pode escolher qual tipo de análise executar especificando oFeatureTypes
Lista.
A saída é retornada em uma lista deBlock
objetos.
AnalyzeDocument
É uma operação síncrona. Para analisar documentos de forma assíncrona, useStartDocumentAnalysis.
Para obter mais informações, consulteAnálise de texto de documentos.
Sintaxe da solicitação
{
"Document": {
"Bytes": blob
,
"S3Object": {
"Bucket": "string
",
"Name": "string
",
"Version": "string
"
}
},
"FeatureTypes": [ "string
" ],
"HumanLoopConfig": {
"DataAttributes": {
"ContentClassifiers": [ "string
" ]
},
"FlowDefinitionArn": "string
",
"HumanLoopName": "string
"
}
}
Parâmetros de solicitação
A solicitação aceita os dados a seguir no formato JSON.
- Document
-
O documento de entrada como bytes codificados em base64 ou um objeto do Amazon S3. Se você usar a AWS CLI para chamar as operações do Amazon Textract, não poderá passar bytes de imagem. O documento deve ser uma imagem no formato JPEG, PNG, PDF ou TIFF.
Se você estiver usando um AWS SDK para chamar o Amazon Textract, talvez não seja necessário codificar bytes de imagem que são passados usando o
Bytes
campo.Tipo: objeto Document
: obrigatório Sim
- FeatureTypes
-
Uma lista dos tipos de análise a serem executadas. Adicione TABLES à lista para retornar informações sobre as tabelas detectadas no documento de entrada. Adicione FORMS para retornar dados de formulário detectados. Para executar os dois tipos de análise, adicione TABLES e FORMS ao
FeatureTypes
. Todas as linhas e palavras detectadas no documento estão incluídas na resposta (incluindo texto que não está relacionado ao valor deFeatureTypes
).Type: Matriz de strings
Valores válidos:
TABLES | FORMS
: obrigatório Sim
- HumanLoopConfig
-
Define a configuração para o humano no fluxo de trabalho de loop para analisar documentos.
Tipo: objeto HumanLoopConfig
: obrigatório Não
Sintaxe da resposta
{
"AnalyzeDocumentModelVersion": "string",
"Blocks": [
{
"BlockType": "string",
"ColumnIndex": number,
"ColumnSpan": number,
"Confidence": number,
"EntityTypes": [ "string" ],
"Geometry": {
"BoundingBox": {
"Height": number,
"Left": number,
"Top": number,
"Width": number
},
"Polygon": [
{
"X": number,
"Y": number
}
]
},
"Id": "string",
"Page": number,
"Relationships": [
{
"Ids": [ "string" ],
"Type": "string"
}
],
"RowIndex": number,
"RowSpan": number,
"SelectionStatus": "string",
"Text": "string",
"TextType": "string"
}
],
"DocumentMetadata": {
"Pages": number
},
"HumanLoopActivationOutput": {
"HumanLoopActivationConditionsEvaluationResults": "string",
"HumanLoopActivationReasons": [ "string" ],
"HumanLoopArn": "string"
}
}
Elementos de resposta
Se a ação for bem-sucedida, o serviço reenviará uma resposta HTTP 200.
Os seguintes dados são retornados no formato JSON pelo serviço.
- AnalyzeDocumentModelVersion
-
A versão do modelo usado para analisar o documento.
Type: String
- Blocks
-
Os itens que são detectados e analisados por
AnalyzeDocument
.Type: Matriz deBlockobjetos
- DocumentMetadata
-
Metadados sobre o documento analisado. Um exemplo é o número de páginas.
Tipo: objeto DocumentMetadata
- HumanLoopActivationOutput
-
Mostra os resultados do humano na avaliação de loop.
Tipo: objeto HumanLoopActivationOutput
Erros
- AccessDeniedException
-
Você não está autorizado a executar a ação. Use o nome de recurso da Amazon (ARN) de um usuário autorizado ou a função do IAM para executar a operação.
Código de status HTTP: 400
- BadDocumentException
-
O Amazon Textract não consegue ler o documento. Para obter mais informações sobre os limites de documentos no Amazon Textract, consulteLimites rígidos no Amazon Textract.
Código de status HTTP: 400
- DocumentTooLargeException
-
O documento não pode ser processado porque é muito grande. O tamanho máximo do documento para operações síncronas 10 MB. O tamanho máximo do documento para operações assíncronas é de 500 MB para arquivos PDF.
Código de status HTTP: 400
- HumanLoopQuotaExceededException
-
Indica que você excedeu o número máximo de humanos ativos nos fluxos de trabalho de loop disponíveis
Código de status HTTP: 400
- InternalServerError
-
O Amazon Textract teve um problema de serviço. Tente fazer a chamada novamente.
Código de status HTTP: 500
- InvalidParameterException
-
Um parâmetro de entrada violou uma restrição. Por exemplo, em operações síncronas, um
InvalidParameterException
exceção ocorre quando nenhum dosS3Object
ouBytes
valores são fornecidos naDocument
Parâmetro de solicitação. Valide seu parâmetro antes de chamar a operação de API novamente.Código de status HTTP: 400
- InvalidS3ObjectException
-
O Amazon Textract não pode acessar o objeto do S3 especificado na solicitação. para obter mais informações,Configuração de acesso ao Amazon S3Para obter informações sobre a solução de problemas, consulteSolução de problemas do Amazon S3
Código de status HTTP: 400
- ProvisionedThroughputExceededException
-
O número de solicitações excedeu o limite da taxa de transferência. Se precisar aumentar esse limite, entre em contato com o Amazon Textract.
Código de status HTTP: 400
- ThrottlingException
-
O Amazon Textract está temporariamente indisponível para processar a solicitação. Tente fazer a chamada novamente.
Código de status HTTP: 500
- UnsupportedDocumentException
-
O formato do documento de entrada não é compatível. Os documentos para operações podem estar no formato PNG, JPEG, PDF ou TIFF.
Código de status HTTP: 400
Consulte também
Para obter mais informações sobre como usar essa API em um dos AWS SDKs específicos de linguagem, consulte o seguinte: