Analyse des documents - Amazon Textract

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Analyse des documents

Amazon Textract analyse les documents et les formulaires à la recherche de relations entre le texte détecté. Les opérations d'analyse Amazon Textract renvoient trois catégories d'extraction de documents : texte, formulaires et tableaux. L'analyse des factures et des reçus est gérée par un processus différent. Pour plus d'informations, voirAnalyse des factures et des reçus.

Extraction de texte

Texte brut extrait d'un document. Pour de plus amples informations, veuillez consulterLignes et mots de texte.

Extraction de formulaire

Les données de formulaire sont liées à des éléments de texte extraits d'un document. Amazon Textract représente les données de formulaire sous forme de paires clé-valeur. Dans l'exemple suivant, l'une des lignes de texte détectées par Amazon Textract estName : Jane Die. Amazon Textract identifie également une clé (Name :) et une valeur (Jane Die). Pour de plus amples informations, veuillez consulterDonnées de formulaire (paires clé-valeur).

Name : Jane Die

Adresse : 123 Any Street, Anytown, États-Unis

Date de naissance : 26-1980

Les paires clé-valeur sont également utilisées pour représenter des cases à cocher ou des boutons d'option (boutons radio) extraits des formulaires.

Homme :

Pour de plus amples informations, veuillez consulterÉléments de sélection.

Extraction de table

Amazon Textract peut extraire des tables, des cellules de tableau et les éléments contenus dans des cellules de tableau et peut être programmé pour renvoyer les résultats dans un fichier JSON, .csv ou .txt.

Nom Address

Ana Caroline

123 Any Town

Pour de plus amples informations, veuillez consulter Tables. Les éléments de sélection peuvent également être extraits des tableaux. Pour de plus amples informations, veuillez consulterÉléments de sélection.

Pour les articles analysés, Amazon Textract renvoie ce qui suit en plusieursBlockobjets :

  • Les lignes et les mots du texte détecté

  • Le contenu des éléments détectés

  • La relation entre les éléments détectés

  • La page sur laquelle l'élément a été détecté

  • L'emplacement de l'élément sur la page de document

Vous pouvez utiliser des opérations synchrone ou asynchrone pour analyser du texte dans un document. Pour analyser du texte de manière synchrone, utilisez leAnalyzeDocumentet transmettez un document en entrée.AnalyzeDocumentrenvoie l'ensemble des résultats. Pour plus d'informations, consultez Analyse du texte du document avec Amazon Textract.

Pour détecter du texte de manière asynchrone, utilisezStartDocumentAnalysispour commencer le traitement. Pour obtenir les résultats, appelezGetDocumentAnalysis. Les résultats sont renvoyés dans une ou plusieurs réponses deGetDocumentAnalysis. Pour plus d'informations et pour voir un exemple, consultez Détection ou analyse de texte dans un document multipage.

Pour spécifier le type d'analyse à effectuer, vous pouvez utiliser leFeatureTypesparamètre d'entrée de liste. Ajoutez TABLES à la liste pour renvoyer des informations sur les tables détectées dans le document en entrée, par exemple les cellules du tableau, le texte de cellule et les éléments de sélection dans les cellules. Ajoutez FORMS pour renvoyer des relations entre mots, telles que des paires clé-valeur et des éléments de sélection. Pour effectuer les deux types d'analyse, ajoutez TABLES et FORMS àFeatureTypes.

Toutes les lignes et tous les mots détectés dans le document sont inclus dans la réponse (y compris le texte non lié à la valeur deFeatureTypes).