As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Linhas e palavras de texto
O texto detectado retornado pelas operações Amazon Textract é retornado em uma lista deBlockobjects. Esses objetos representam linhas de texto ou palavras textuais detectadas em uma página de documento. O texto a seguir mostra duas linhas de texto que são feitas de várias palavras.
Isso é texto.
Em duas linhas separadas.
O texto detectado é retornado naText
campo de umBlock
objeto. OBlockType
campo determina se o texto é uma linha de texto (LINE) ou uma palavra (WORD). UMAPALAVRAUm ou mais caracteres latinos ISO básicos não separados por espaços. UMALINHAé uma série de palavras delimitadas por tabulação e contíguas.
Além disso, o Amazon Textract determinará se um pedaço de texto foi escrito à mão ou impresso usando oTextTypes
campo. Eles retornam como MANUSCRITA E IMPRESSA, respectivamente.
O outroBlock
as propriedades são comuns a todos os tipos de blocos, como informações de ID, confiança e geometria. Para obter mais informações, consulte Objetos de resposta de detecção de texto e análise de.
Para detectar apenas linhas e palavras, você pode usarDetectDocumentTextouStartDocumentTextDetection. Para obter mais informações, consulte Detectar texto. Para obter o texto detectado (linhas e palavras) e informações sobre como ele se relaciona com outras partes do documento, como tabelas, você pode usarAnalyzeDocumentouStartDocumentAnalysis. Para obter mais informações, consulte Analisar documentos.
PAGE
,LINE
, eWORD
blocos estão relacionados entre si em um relacionamento pai-filho. UMAPAGE
block é o pai de todosLINE
blocos de objetos em uma página de documento. Como um LINE pode ter uma ou mais palavras, aRelationships
array para um bloco LINE armazena as IDs para blocos WORD filhos que compõem a linha de texto.
O diagrama a seguir mostra como a linhaOlá, mundo.no textoOlá, mundo. Como você está?é representado porBlock
objects.
A seguir está a saída JSON deDetectDocumentText
quando a fraseOlá, mundo. Como você está?é detectado. O primeiro exemplo é o JSON para a página do documento. Observe como as IDs CHILD permitem que você navegue pelo documento.
{ "Geometry": {...}, "Relationships": [ { "Type": "CHILD", "Ids": [ "d7fbd604-d609-4d69-857d-247a3f591238", // Line - Hello, world. "b6c19a93-6493-4d8e-958f-853c8f7ca055" // Line - How are you? ] } ], "BlockType": "PAGE", "Id": "56ec1d77-171f-4881-9852-2b5b7e761608" },
Veja a seguir o JSON para os blocos LINE que compõem a linha “Hello, World”:
{ "Relationships": [ { "Type": "CHILD", "Ids": [ "7f97e2ca-063e-47a8-981c-8beee31afc01", // Word - Hello, "4b990aa0-af96-4369-b90f-dbe02538ed21" // Word - world. ] } ], "Confidence": 99.63229370117188, "Geometry": {...}, "Text": "Hello, world.", "BlockType": "LINE", "Id": "d7fbd604-d609-4d69-857d-247a3f591238" },
Veja a seguir o JSON para o bloco WORD para a palavraOlá,:
{ "Geometry": {...}, "Text": "Hello,", "TextType": "PRINTED", "BlockType": "WORD", "Confidence": 99.74746704101562, "Id": "7f97e2ca-063e-47a8-981c-8beee31afc01" },
O JSON final é o bloco WORD para a palavramundo.:
{ "Geometry": {...}, "Text": "world.", "TextType": "PRINTED", "BlockType": "WORD", "Confidence": 99.5171127319336, "Id": "4b990aa0-af96-4369-b90f-dbe02538ed21" },