Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Block
UNABlock
representa elementos que se reconocen en un documento dentro de un grupo de píxeles cerca uno del otro. La información devuelta en unBlock
depende del tipo de operación. Detección de texto para documentos (por ejemploDetectDocumentText), obtendrá información sobre las palabras y líneas de texto detectadas. En el análisis de texto (por ejemploAnalyzeDocument), también puede obtener información sobre los campos, tablas y elementos de selección detectados en el documento.
Una matriz deBlock
los objetos se devuelven mediante operaciones síncronas y asíncronas. En operaciones sincrónicas, tales comoDetectDocumentText, la matriz deBlock
objetos es todo el conjunto de resultados. En operaciones asíncronas, tales comoGetDocumentAnalysis, la matriz se devuelve a lo largo de una o más respuestas.
Para obtener más información, consulteFuncionamiento de Amazon Textract.
Contenido
- BlockType
-
El tipo de elemento de texto que se reconoce. En las operaciones de detección de texto, se devuelven los siguientes tipos:
-
PÁGINA- Contiene una lista de la línea
Block
objetos detectados en una página de documento. -
PALABRA- Palabra detectada en una página de documento. Una palabra consta de uno o varios caracteres en alfabeto latino básico ISO que no están separados por espacios.
-
LÍNEA- Una cadena de palabras contiguas delimitadas por tabuladores que se detectan en una página de documento.
En las operaciones de análisis de texto, se devuelven los siguientes tipos:
-
PÁGINA- Contiene una lista de niños
Block
objetos detectados en una página de documento. -
KEY_VALUE_SET- Almacena la CLAVE y el VALOR
Block
objetos para texto vinculado que se detecta en una página de documento. UsarEntityType
para determinar si un objeto KEY_VALUE_SET es KEYBlock
objeto o VALUEBlock
objeto. -
PALABRA- Palabra que se detecta en una página de documento. Una palabra consta de uno o varios caracteres en alfabeto latino básico ISO que no están separados por espacios.
-
LÍNEA- Una cadena de palabras contiguas delimitadas por tabuladores que se detectan en una página de documento.
-
TABLA- Tabla que se detecta en una página de documento. Una tabla es información basada en cuadrícula con dos o más filas o columnas, con un rango de celdas de una fila y una columna cada una.
-
CELDA- Una celda dentro de una tabla detectada. La celda es el padre del bloque que contiene el texto de la celda.
-
SELECTION_ELEMENT- Elemento de selección, como un botón de opción (botón de opción) o una casilla de verificación detectada en una página de documento. Utilice el valor de
SelectionStatus
para determinar el estado del elemento de selección.
Type: Cadena
Valores válidos:
KEY_VALUE_SET | PAGE | LINE | WORD | TABLE | CELL | SELECTION_ELEMENT
Obligatorio: No
-
- ColumnIndex
-
Columna en la que aparece una celda de tabla. La primera posición de columna es 1.
ColumnIndex
no es devuelto porDetectDocumentText
yGetDocumentTextDetection
.Type: Entero
Rango válido: Valor mínimo de 0.
Obligatorio: No
- ColumnSpan
-
El número de columnas que abarca una celda de tabla. Actualmente, este valor es siempre 1, incluso si el número de columnas extendidas es mayor que 1.
ColumnSpan
no es devuelto porDetectDocumentText
yGetDocumentTextDetection
.Type: Entero
Rango válido: Valor mínimo de 0.
Obligatorio: No
- Confidence
-
La puntuación de confianza que tiene Amazon Textract Texact en la exactitud del texto reconocido y la precisión de los puntos de geometría alrededor del texto reconocido.
Type: Float
Rango válido: Valor mínimo de 0. Valor máximo de 100.
Obligatorio: No
- EntityTypes
-
El tipo de entidad. Se puede devolver lo siguiente:
-
CLAVE- Identificador de un campo del documento.
-
VALUE- El texto del campo.
EntityTypes
no es devuelto porDetectDocumentText
yGetDocumentTextDetection
.Type: Matriz de cadenas
Valores válidos:
KEY | VALUE
Obligatorio: No
-
- Geometry
-
La ubicación del texto reconocido en la imagen. Incluye un cuadro delimitador grueso alineado con ejes que rodea el texto y un polígono de grano fino para obtener información espacial más precisa.
Tipo: objeto Geometry
Obligatorio: No
- Id
-
Identificador del texto reconocido. El identificador solo es exclusivo para una sola operación.
Type: Cadena
Patrón:
.*\S.*
Obligatorio: No
- Page
-
Página en la que se ha detectado un bloque.
Page
se devuelve mediante operaciones asíncronas. Los valores de página superiores a 1 solo se devuelven para documentos de varias páginas en formato PDF o TIFF. Una imagen escaneada (JPEG/PNG), aunque contenga varias páginas de documentos, se considera un documento de una sola página. El valor dePage
es siempre 1. Las operaciones sincrónicas no regresanPage
porque cada documento de entrada se considera un documento de una sola página.Type: Entero
Rango válido: Valor mínimo de 0.
Obligatorio: No
- Relationships
-
Lista de bloques secundarios del bloque actual. Por ejemplo, un objeto LINE tiene bloques secundarios para cada bloque WORD que forma parte de la línea de texto. No hay objetos Relationship en la lista para relaciones que no existen, como cuando el bloque actual no tiene bloques secundarios. El tamaño de la lista puede ser el siguiente:
-
0 - El bloque no tiene bloques secundarios.
-
1 - El bloque tiene bloques secundarios.
Type: Matriz deRelationshipobjects
Obligatorio: No
-
- RowIndex
-
Fila en la que se encuentra una celda de tabla. La primera posición de la fila es 1.
RowIndex
no es devuelto porDetectDocumentText
yGetDocumentTextDetection
.Type: Entero
Rango válido: Valor mínimo de 0.
Obligatorio: No
- RowSpan
-
El número de filas que abarca una celda de tabla. Actualmente, este valor es siempre 1, incluso si el número de filas extendidas es mayor que 1.
RowSpan
no es devuelto porDetectDocumentText
yGetDocumentTextDetection
.Type: Entero
Rango válido: Valor mínimo de 0.
Obligatorio: No
- SelectionStatus
-
El estado de selección de un elemento de selección, como un botón de opción o una casilla de verificación.
Type: Cadena
Valores válidos:
SELECTED | NOT_SELECTED
Obligatorio: No
- Text
-
La palabra o línea de texto reconocida por Amazon Textract.
Type: Cadena
Obligatorio: No
- TextType
-
El tipo de texto que Amazon Textract ha detectado. Puede comprobar si hay texto escrito a mano y texto impreso.
Type: Cadena
Valores válidos:
HANDWRITING | PRINTED
Obligatorio: No
Véase también
Para obtener más información sobre el uso de esta API en un SDK de AWS de un lenguaje específico, consulte: