Linhas e palavras de texto - Amazon Textract

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Linhas e palavras de texto

O texto detectado retornado pelas operações Amazon Textract é retornado em uma lista deBlockobjects. Esses objetos representam linhas de texto ou palavras textuais detectadas em uma página de documento. O texto a seguir mostra duas linhas de texto que são feitas de várias palavras.

Isso é texto.

Em duas linhas separadas.

O texto detectado é retornado naTextcampo de umBlockobjeto. OBlockTypecampo determina se o texto é uma linha de texto (LINE) ou uma palavra (WORD). UMAPALAVRAUm ou mais caracteres latinos ISO básicos não separados por espaços. UMALINHAé uma série de palavras delimitadas por tabulação e contíguas.

Além disso, o Amazon Textract determinará se um pedaço de texto foi escrito à mão ou impresso usando oTextTypescampo. Eles retornam como MANUSCRITA E IMPRESSA, respectivamente.

O outroBlockas propriedades são comuns a todos os tipos de blocos, como informações de ID, confiança e geometria. Para obter mais informações, consulte Objetos de resposta de detecção de texto e análise de.

Para detectar apenas linhas e palavras, você pode usarDetectDocumentTextouStartDocumentTextDetection. Para obter mais informações, consulte Detectar texto. Para obter o texto detectado (linhas e palavras) e informações sobre como ele se relaciona com outras partes do documento, como tabelas, você pode usarAnalyzeDocumentouStartDocumentAnalysis. Para obter mais informações, consulte Analisar documentos.

PAGE,LINE, eWORDblocos estão relacionados entre si em um relacionamento pai-filho. UMAPAGEblock é o pai de todosLINEblocos de objetos em uma página de documento. Como um LINE pode ter uma ou mais palavras, aRelationshipsarray para um bloco LINE armazena as IDs para blocos WORD filhos que compõem a linha de texto.

O diagrama a seguir mostra como a linhaOlá, mundo.no textoOlá, mundo. Como você está?é representado porBlockobjects.

A seguir está a saída JSON deDetectDocumentTextquando a fraseOlá, mundo. Como você está?é detectado. O primeiro exemplo é o JSON para a página do documento. Observe como as IDs CHILD permitem que você navegue pelo documento.

{ "Geometry": {...}, "Relationships": [ { "Type": "CHILD", "Ids": [ "d7fbd604-d609-4d69-857d-247a3f591238", // Line - Hello, world. "b6c19a93-6493-4d8e-958f-853c8f7ca055" // Line - How are you? ] } ], "BlockType": "PAGE", "Id": "56ec1d77-171f-4881-9852-2b5b7e761608" },

Veja a seguir o JSON para os blocos LINE que compõem a linha “Hello, World”:

{ "Relationships": [ { "Type": "CHILD", "Ids": [ "7f97e2ca-063e-47a8-981c-8beee31afc01", // Word - Hello, "4b990aa0-af96-4369-b90f-dbe02538ed21" // Word - world. ] } ], "Confidence": 99.63229370117188, "Geometry": {...}, "Text": "Hello, world.", "BlockType": "LINE", "Id": "d7fbd604-d609-4d69-857d-247a3f591238" },

Veja a seguir o JSON para o bloco WORD para a palavraOlá,:

{ "Geometry": {...}, "Text": "Hello,", "TextType": "PRINTED", "BlockType": "WORD", "Confidence": 99.74746704101562, "Id": "7f97e2ca-063e-47a8-981c-8beee31afc01" },

O JSON final é o bloco WORD para a palavramundo.:

{ "Geometry": {...}, "Text": "world.", "TextType": "PRINTED", "BlockType": "WORD", "Confidence": 99.5171127319336, "Id": "4b990aa0-af96-4369-b90f-dbe02538ed21" },