AnalyzeDocument - Amazon Textract

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

AnalyzeDocument

Analyse un document d'entrée afin de rechercher des relations entre les éléments détectés.

Les types d'informations renvoyées sont les suivants :

  • Données de formulaire (paires clé-valeur). Les informations associées sont renvoyées dans deuxBlockobjets, chacun de typeKEY_VALUE_SET: une cléBlockobjet et une VALEURBlockobjet. Par exemple,Name : Ana Silva Carolinecontient une clé et une valeur. Name :est la clé. Ana Silva Carolineest la valeur.

  • Données de cellules de table et de table. UNE TABLEBlockcontient des informations sur une table détectée. UNE CELLULEBlockest renvoyé pour chaque cellule d'un tableau.

  • Lignes et mots de texte. UNE LIGNEBlockl'objet contient un ou plusieurs motsBlockobjets. Toutes les lignes et tous les mots détectés dans le document sont renvoyés (y compris le texte qui n'a pas de relation avec la valeur deFeatureTypes).

Les éléments de sélection tels que les cases à cocher et les boutons d'option (boutons radio) peuvent être détectés dans les données de formulaire et dans les tableaux. UN ÉLÉMENT SÉLECTION_Blockcontient des informations sur un élément de sélection, y compris l'état de la sélection.

Vous pouvez choisir le type d'analyse à effectuer en spécifiant leFeatureTypesliste.

La sortie est renvoyée dans une liste deBlockobjets.

AnalyzeDocumentest une opération synchrone. Pour analyser des documents de manière asynchrone, utilisezStartDocumentAnalysis.

Pour de plus amples informations, veuillez consulterAnalyse du texte du document.

Syntaxe de la demande

{ "Document": { "Bytes": blob, "S3Object": { "Bucket": "string", "Name": "string", "Version": "string" } }, "FeatureTypes": [ "string" ], "HumanLoopConfig": { "DataAttributes": { "ContentClassifiers": [ "string" ] }, "FlowDefinitionArn": "string", "HumanLoopName": "string" } }

Paramètres de demande

Cette demande accepte les données suivantes au format JSON.

Document

Le document d'entrée sous forme d'octets codés en base64 ou d'un objet Amazon S3. Si vous utilisez l'interface de ligne de commande AWS pour appeler les opérations Amazon Textract, vous ne pouvez pas transmettre d'octets d'image. Le document doit être une image au format JPEG, PNG, PDF ou TIFF.

Si vous utilisez un kit SDK AWS pour appeler Amazon Textract, il est possible que vous n'ayez pas besoin de coder en base64 octets d'image transmis à l'aide de l'optionBytes.

Type : objet Document

Obligatoire Oui

FeatureTypes

Liste des types d'analyses à effectuer. Ajoutez TABLES à la liste pour renvoyer des informations sur les tables détectées dans le document d'entrée. Ajoutez FORMS pour renvoyer les données de formulaire détectées. Pour effectuer les deux types d'analyse, ajoutez TABLES et FORMS àFeatureTypes. Toutes les lignes et tous les mots détectés dans le document sont inclus dans la réponse (y compris le texte qui n'est pas lié à la valeur deFeatureTypes).

Type : Tableau de chaînes

Valeurs valides : TABLES | FORMS

Obligatoire Oui

HumanLoopConfig

Définit la configuration du flux de travail humain dans la boucle pour analyser les documents.

Type : objet HumanLoopConfig

Obligatoire Non

Syntaxe de la réponse

{ "AnalyzeDocumentModelVersion": "string", "Blocks": [ { "BlockType": "string", "ColumnIndex": number, "ColumnSpan": number, "Confidence": number, "EntityTypes": [ "string" ], "Geometry": { "BoundingBox": { "Height": number, "Left": number, "Top": number, "Width": number }, "Polygon": [ { "X": number, "Y": number } ] }, "Id": "string", "Page": number, "Relationships": [ { "Ids": [ "string" ], "Type": "string" } ], "RowIndex": number, "RowSpan": number, "SelectionStatus": "string", "Text": "string", "TextType": "string" } ], "DocumentMetadata": { "Pages": number }, "HumanLoopActivationOutput": { "HumanLoopActivationConditionsEvaluationResults": "string", "HumanLoopActivationReasons": [ "string" ], "HumanLoopArn": "string" } }

Eléments de réponse

Si l’action aboutit, le service renvoie une réponse HTTP 200.

Les données suivantes sont renvoyées au format JSON par le service.

AnalyzeDocumentModelVersion

Version du modèle utilisée pour analyser le document.

Type : Chaîne

Blocks

Les éléments détectés et analysés parAnalyzeDocument.

Type : Tableau deBlockobjets

DocumentMetadata

Métadonnées concernant le document analysé. Par exemple, le nombre de pages est le nombre de pages.

Type : objet DocumentMetadata

HumanLoopActivationOutput

Affiche les résultats de l'évaluation humaine dans la boucle.

Type : objet HumanLoopActivationOutput

Erreurs

AccessDeniedException

Vous n'êtes pas autorisé à effectuer l'action. Utilisez l'Amazon Resource Name (ARN) d'un utilisateur ou d'un rôle IAM autorisé pour effectuer l'opération.

HTTP Status Code : 400

BadDocumentException

Amazon Textract n'est pas en mesure de lire le document. Pour plus d'informations sur les limites de documents dans Amazon Textract, voirLimites strictes dans Amazon Textract.

HTTP Status Code : 400

DocumentTooLargeException

Le document ne peut pas être traité car il est trop volumineux. Taille maximale du document pour les opérations synchrone 10 Mo. La taille maximale du document pour les opérations asynchrones est de 500 Mo pour les fichiers PDF.

HTTP Status Code : 400

HumanLoopQuotaExceededException

Indique que vous avez dépassé le nombre maximum d'humains actifs dans les flux de travail en boucle disponibles

HTTP Status Code : 400

InternalServerError

Amazon Textract a rencontré un problème de service. Renouvelez votre appel.

HTTP Status Code : 500

InvalidParameterException

Un paramètre d'entrée a enfreint une contrainte. Par exemple, dans les opérations synchrone, unInvalidParameterExceptionexception se produit lorsque aucune des optionsS3ObjectouBytesles valeurs sont fournies dans leDocumentparamètre de demande. Validez votre paramètre avant d'appeler à nouveau l'opération d'API.

HTTP Status Code : 400

InvalidS3ObjectException

Amazon Textract n'est pas en mesure d'accéder à l'objet S3 spécifié dans la demande. Pour plus d'informations,Configuration de l'accès à Amazon S3Pour plus d'informations sur le dépannage, consultezRésolutions des problèmes liés à Amazon S3

HTTP Status Code : 400

ProvisionedThroughputExceededException

Le nombre de demandes dépasse votre limite de débit. Si vous avez besoin d'augmenter cette limite, contactez Amazon Textract.

HTTP Status Code : 400

ThrottlingException

Amazon Textract est temporairement dans l'impossibilité de traiter la demande. Renouvelez votre appel.

HTTP Status Code : 500

UnsupportedDocumentException

Le format du document d'entrée n'est pas pris en charge. Les documents utilisés pour les opérations peuvent être au format PNG, JPEG, PDF ou TIFF.

HTTP Status Code : 400

Voir aussi

Pour plus d’informations sur l’utilisation de cette API dans l’un des kits SDK AWS spécifiques au langage, consultez les ressources suivantes :