Objetos de respuesta de detección de texto y análisis de documentos - Amazon Textract

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Objetos de respuesta de detección de texto y análisis de documentos

Cuando Amazon Textract procesa un documento, crea una lista deBlockobjetos del texto detectado o analizado. Cada bloque contiene información sobre un artículo detectado, dónde se encuentra y la confianza que Amazon Textract tiene en la exactitud del procesamiento.

Un documento se compone de los siguientes tipos deBlockobjects.

El contenido de un bloque depende de la operación a la que llame. Si llama a una de las operaciones de detección de texto, se devuelven las páginas, las líneas y las palabras del texto detectado. Para obtener más información, consulte Detección de texto. Si llama a una de las operaciones de análisis de documentos, se devuelve información sobre las páginas detectadas, los pares clave-valor, las tablas, los elementos de selección y el texto. Para obtener más información, consulte Análisis de documentos.

AlgunoBlockLos campos de objetos son comunes a ambos tipos de procesamiento. Por ejemplo, cada bloque tiene un identificador único.

Para ver ejemplos donde se muestra cómo usarBlockobjetos, consulteTutoriales.

Diseño de documento

Amazon Textract Texact devuelve una representación de un documento como una lista de diferentes tipos deBlockobjetos vinculados en una relación padre a hijo o en un par clave-valor. También se devuelven metadatos que proporcionan el número de páginas de un documento. A continuación se muestra el JSON para un típicoBlockobjeto de tipoPAGE.

{ "Blocks": [ { "Geometry": { "BoundingBox": { "Width": 1.0, "Top": 0.0, "Left": 0.0, "Height": 1.0 }, "Polygon": [ { "Y": 0.0, "X": 0.0 }, { "Y": 0.0, "X": 1.0 }, { "Y": 1.0, "X": 1.0 }, { "Y": 1.0, "X": 0.0 } ] }, "Relationships": [ { "Type": "CHILD", "Ids": [ "2602b0a6-20e3-4e6e-9e46-3be57fd0844b", "82aedd57-187f-43dd-9eb1-4f312ca30042", "52be1777-53f7-42f6-a7cf-6d09bdc15a30", "7ca7caa6-00ef-4cda-b1aa-5571dfed1a7c" ] } ], "BlockType": "PAGE", "Id": "8136b2dc-37c1-4300-a9da-6ed8b276ea97" }..... ], "DocumentMetadata": { "Pages": 1 } }

Un documento se elabora a partir de uno o variosPAGEbloques. Cada página contiene una lista de bloques secundarios para los elementos principales detectados en la página, como líneas de texto y tablas. Para obtener más información, consulte Páginas.

Puede determinar el tipo deBlockobjeto inspeccionando elBlockType.

UNABlockcontiene una lista deBlockobjetos delRelationships, que es una matriz deRelationshipobjects. UNARelationshipsarray es del tipo CHILD o del tipo VALUE. Se utiliza una matriz de tipo CHILD para enumerar los elementos secundarios del bloque actual. Por ejemplo, si el bloque actual es del tipo LINE,Relationshipscontiene una lista de identificadores de los bloques WORD que componen la línea de texto. Una matriz de tipo VALUE se utiliza para contener pares clave-valor. Puede determinar el tipo de relación inspeccionando elTypedelRelationshipobject.

Los bloques secundarios no tienen información sobre sus objetos Bloquear padre.

Para ver ejemplos que muestranBlockinformación, consulteProcesamiento de documentos con operaciones síncronas.

Confianza

Las operaciones de Amazon Textract Texact devuelven el porcentaje de confianza que Amazon Textract Texact tiene respecto a la precisión del artículo detectado. Para obtener la confianza, utilice elConfidencedelBlockobject. Un valor más elevado indica una mayor confianza. Según el escenario, las detecciones con poca confianza podrían necesitar la confirmación visual de un humano.

Geometry

Las operaciones de Amazon Textract, a excepción del análisis de identidad, devuelven información de ubicación sobre la ubicación de los artículos detectados en una página de documento. Para obtener la ubicación, utilice laGeometrydelBlockobject. Para obtener más información, consulteUbicación del elemento en una página de documento