As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Analisar documentos
Amazon Textract analisa documentos e formulários para relacionamentos entre o texto detectado. As operações de análise Amazon Textract retornam 3 categorias de extração de documentos — texto, formulários e tabelas. A análise de faturas e recibos é tratada por meio de um processo diferente, para obter mais informações consulteAnalisando faturas e recibos.
Extração de texto
O texto bruto extraído de um documento. Para obter mais informações, consulteLinhas e palavras de texto.
Extração de formulário
Os dados do formulário são vinculados a itens de texto extraídos de um documento. Amazon Textract representa dados de formulário como pares de chave-valor. No exemplo a seguir, uma das linhas de texto detectadas pelo Amazon Textract éName (Nome): Jane Doe. Amazon Textract também identifica uma chave (Name (Nome):) e um valor (Jane Doe). Para obter mais informações, consulteDados do formulário (pares de valores-chave).
Name (Nome): Jane Doe
Endereço: 123 Any Street, Anytown, Estados Unidos da América
Data de nascimento: 12-26-1980
Os pares de valores-chave também são usados para representar caixas de seleção ou botões de opção (botões de opção) extraídos dos formulários.
Masculino:☑
Para obter mais informações, consulteElementos de seleção.
Extração de mesa
O Amazon Textract pode extrair tabelas, células de tabela e os itens dentro das células da tabela e pode ser programado para retornar os resultados em um arquivo JSON, .csv ou .txt.
Name (Nome) | Endereço |
---|---|
Ana Carolina |
123 Any Town |
Para obter mais informações, consulte Tabelas. Elementos de seleção também podem ser extraídos das tabelas. Para obter mais informações, consulteElementos de seleção.
Para itens analisados, Amazon Textract retorna o seguinte em váriosBlockobjects:
-
As linhas e palavras do texto detectado
-
O conteúdo dos itens detectados
-
A relação entre itens detectados
-
A página em que o item foi detectado
-
A localização do item na página do documento
Você pode usar operações síncronas ou assíncronas para analisar texto em um documento. Para analisar o texto de forma síncrona, use oAnalyzeDocumente passe um documento como entrada.AnalyzeDocument
retorna todo o conjunto de resultados. Para obter mais informações, consulte Analisando texto do documento com o Amazon Textract.
Para detectar texto de forma assíncrona, useStartDocumentAnalysispara iniciar o processamento. Para obter resultados, ligue paraGetDocumentAnalysis. Os resultados são retornados em uma ou mais respostas deGetDocumentAnalysis
. Para obter mais informações e um exemplo, consulte Detectando ou analisando texto em um documento de várias páginas.
Para especificar qual tipo de análise executar, você pode usar oFeatureTypes
parâmetro de entrada de lista. Adicione TABLES à lista para retornar informações sobre as tabelas detectadas no documento de entrada — por exemplo, células de tabela, texto de célula e elementos de seleção nas células. Adicione FORMS para retornar relacionamentos de palavras, como pares de chave-valor e elementos de seleção. Para executar os dois tipos de análise, adicione TABLES e FORMS aoFeatureTypes
.
Todas as linhas e palavras detectadas no documento são incluídas na resposta (incluindo texto não relacionado ao valor deFeatureTypes
).