Analisar documentos - Amazon Textract

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Analisar documentos

Amazon Textract analisa documentos e formulários para relacionamentos entre o texto detectado. As operações de análise Amazon Textract retornam 3 categorias de extração de documentos — texto, formulários e tabelas. A análise de faturas e recibos é tratada por meio de um processo diferente, para obter mais informações consulteAnalisando faturas e recibos.

Extração de texto

O texto bruto extraído de um documento. Para obter mais informações, consulteLinhas e palavras de texto.

Extração de formulário

Os dados do formulário são vinculados a itens de texto extraídos de um documento. Amazon Textract representa dados de formulário como pares de chave-valor. No exemplo a seguir, uma das linhas de texto detectadas pelo Amazon Textract éName (Nome): Jane Doe. Amazon Textract também identifica uma chave (Name (Nome):) e um valor (Jane Doe). Para obter mais informações, consulteDados do formulário (pares de valores-chave).

Name (Nome): Jane Doe

Endereço: 123 Any Street, Anytown, Estados Unidos da América

Data de nascimento: 12-26-1980

Os pares de valores-chave também são usados para representar caixas de seleção ou botões de opção (botões de opção) extraídos dos formulários.

Masculino:

Para obter mais informações, consulteElementos de seleção.

Extração de mesa

O Amazon Textract pode extrair tabelas, células de tabela e os itens dentro das células da tabela e pode ser programado para retornar os resultados em um arquivo JSON, .csv ou .txt.

Name (Nome) Endereço

Ana Carolina

123 Any Town

Para obter mais informações, consulte Tabelas. Elementos de seleção também podem ser extraídos das tabelas. Para obter mais informações, consulteElementos de seleção.

Para itens analisados, Amazon Textract retorna o seguinte em váriosBlockobjects:

  • As linhas e palavras do texto detectado

  • O conteúdo dos itens detectados

  • A relação entre itens detectados

  • A página em que o item foi detectado

  • A localização do item na página do documento

Você pode usar operações síncronas ou assíncronas para analisar texto em um documento. Para analisar o texto de forma síncrona, use oAnalyzeDocumente passe um documento como entrada.AnalyzeDocumentretorna todo o conjunto de resultados. Para obter mais informações, consulte Analisando texto do documento com o Amazon Textract.

Para detectar texto de forma assíncrona, useStartDocumentAnalysispara iniciar o processamento. Para obter resultados, ligue paraGetDocumentAnalysis. Os resultados são retornados em uma ou mais respostas deGetDocumentAnalysis. Para obter mais informações e um exemplo, consulte Detectando ou analisando texto em um documento de várias páginas.

Para especificar qual tipo de análise executar, você pode usar oFeatureTypesparâmetro de entrada de lista. Adicione TABLES à lista para retornar informações sobre as tabelas detectadas no documento de entrada — por exemplo, células de tabela, texto de célula e elementos de seleção nas células. Adicione FORMS para retornar relacionamentos de palavras, como pares de chave-valor e elementos de seleção. Para executar os dois tipos de análise, adicione TABLES e FORMS aoFeatureTypes.

Todas as linhas e palavras detectadas no documento são incluídas na resposta (incluindo texto não relacionado ao valor deFeatureTypes).