Tables - Amazon Textract

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Tables

Amazon Textract peut extraire des tables et des cellules d'une table. Par exemple, lorsque le tableau suivant est détecté sur un formulaire, Amazon Textract détecte une table comportant quatre cellules.

Nom Address

Ana Caroline

123 Any Town

Les tables détectées sont renvoyées sous formeBlockobjets dans les réponses deAnalyzeDocumentetGetDocumentAnalysis. Vous pouvez utiliser le pluginFeatureTypesparamètre d'entrée pour récupérer des informations sur les paires clé-valeur, les tables ou les deux. Pour les tables uniquement, utilisez la valeurTABLES. Pour voir un exemple, consultez Exportation de tables dans un fichier CSV. Pour obtenir des informations générales sur la représentation d'un documentBlockobjets, voirObjets de réponse Détection de texte et analyse de documents.

Le schéma suivant montre comment une cellule unique d'un tableau est représentée parBlockobjets.

Une cellule contientWORDblocs pour les mots détectés, etSELECTION_ELEMENTblocs pour les éléments de sélection tels que les cases à cocher.

Ce qui suit est un JSON partiel pour le tableau précédent, qui comporte quatre cellules.

L'objet PAGE Block contient une liste d'ID de bloc ENFANT pour le bloc TABLE et chaque LIGNE de texte détectée.

{ "Geometry": {...}, "Relationships": [ { "Type": "CHILD", "Ids": [ "f2a4ad7b-f21d-4966-b548-c859b84f66a4", // Line - Name "4dce3516-ffeb-45e0-92a2-60770e9cb744", // Line - Address "ee506578-768f-4696-8f4b-e4917e429f50", // Line - Ana Carolina "33fc7223-411b-4399-8a90-ccd3c5a2c196", // Line - 123 Any Town "3f9665be-379d-4ae7-be44-d02f32b049c2" // Table ] } ], "BlockType": "PAGE", "Id": "78c3ce84-ae70-418e-add7-27058418adf6" },

Le bloc TABLE inclut une liste d'ID enfants pour les cellules du tableau. Un bloc TABLE inclut également des informations de géométrie pour l'emplacement de la table dans le document. Le fichier JSON suivant indique que la table comporte quatre cellules répertoriées dans leIdstableau.

{ "Geometry": {...}, "Relationships": [ { "Type": "CHILD", "Ids": [ "505e9581-0d1c-42fb-a214-6ff736822e8c", "6fca44d4-d3d3-46ab-b22f-7fca1fbaaf02", "9778bd78-f3fe-4ae1-9b78-e6d29b89e5e9", "55404b05-ae12-4159-9003-92b7c129532e" ] } ], "BlockType": "TABLE", "Confidence": 92.5705337524414, "Id": "3f9665be-379d-4ae7-be44-d02f32b049c2" },

Le type de bloc des cellules du tableau est CELL. LeBlockpour chaque cellule contient des informations sur l'emplacement de la cellule par rapport aux autres cellules du tableau. Il inclut également des informations géométriques pour l'emplacement de la cellule sur le document. Dans l'exemple précédent,505e9581-0d1c-42fb-a214-6ff736822e8cest l'ID enfant de la cellule contenant le motNom. L'exemple suivant illustre les informations relatives à la cellule.

{ "Geometry": {...}, "Relationships": [ { "Type": "CHILD", "Ids": [ "e9108c8e-0167-4482-989e-8b6cd3c3653e" ] } ], "Confidence": 100.0, "RowSpan": 1, "RowIndex": 1, "ColumnIndex": 1, "ColumnSpan": 1, "BlockType": "CELL", "Id": "505e9581-0d1c-42fb-a214-6ff736822e8c" },

Chaque cellule a un emplacement dans un tableau, la première cellule étant 1,1. Dans l'exemple précédent, la cellule avec la valeurNomse trouve à la ligne 1, colonne 1. La cellule avec la valeur123 Any Townse trouve à la ligne 2, colonne 2. Un objet de bloc de cellules contient ces informations dans leRowIndexetColumnIndex. La liste enfant contient les ID des objets WORD Block qui contiennent le texte qui se trouve dans la cellule. Les mots de la liste sont dans l'ordre dans lequel ils sont détectés, du haut à gauche de la cellule jusqu'en bas à droite de la cellule. Dans l'exemple précédent, la cellule a un ID enfant avec la valeur e9108c8e-0167-4482-989e-8b6cd3c3653e. La sortie suivante concerne le bloc WORD dont la valeur d'ID est e9108c8e-0167-4482-989e-8b6cd3c3653e :

"Geometry": {...}, "Text": "Name", "TextType": "Printed", "BlockType": "WORD", "Confidence": 99.81139373779297, "Id": "e9108c8e-0167-4482-989e-8b6cd3c3653e" },