Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
AnalyzeDocument
Analyse un document d'entrée afin de rechercher des relations entre les éléments détectés.
Les types d'informations renvoyées sont les suivants :
-
Données de formulaire (paires clé-valeur). Les informations associées sont renvoyées dans deuxBlockobjets, chacun de type
KEY_VALUE_SET
: une cléBlock
objet et une VALEURBlock
objet. Par exemple,Name : Ana Silva Carolinecontient une clé et une valeur. Name :est la clé. Ana Silva Carolineest la valeur. -
Données de cellules de table et de table. UNE TABLE
Block
contient des informations sur une table détectée. UNE CELLULEBlock
est renvoyé pour chaque cellule d'un tableau. -
Lignes et mots de texte. UNE LIGNE
Block
l'objet contient un ou plusieurs motsBlock
objets. Toutes les lignes et tous les mots détectés dans le document sont renvoyés (y compris le texte qui n'a pas de relation avec la valeur deFeatureTypes
).
Les éléments de sélection tels que les cases à cocher et les boutons d'option (boutons radio) peuvent être détectés dans les données de formulaire et dans les tableaux. UN ÉLÉMENT SÉLECTION_Block
contient des informations sur un élément de sélection, y compris l'état de la sélection.
Vous pouvez choisir le type d'analyse à effectuer en spécifiant leFeatureTypes
liste.
La sortie est renvoyée dans une liste deBlock
objets.
AnalyzeDocument
est une opération synchrone. Pour analyser des documents de manière asynchrone, utilisezStartDocumentAnalysis.
Pour de plus amples informations, veuillez consulterAnalyse du texte du document.
Syntaxe de la demande
{
"Document": {
"Bytes": blob
,
"S3Object": {
"Bucket": "string
",
"Name": "string
",
"Version": "string
"
}
},
"FeatureTypes": [ "string
" ],
"HumanLoopConfig": {
"DataAttributes": {
"ContentClassifiers": [ "string
" ]
},
"FlowDefinitionArn": "string
",
"HumanLoopName": "string
"
}
}
Paramètres de demande
Cette demande accepte les données suivantes au format JSON.
- Document
-
Le document d'entrée sous forme d'octets codés en base64 ou d'un objet Amazon S3. Si vous utilisez l'interface de ligne de commande AWS pour appeler les opérations Amazon Textract, vous ne pouvez pas transmettre d'octets d'image. Le document doit être une image au format JPEG, PNG, PDF ou TIFF.
Si vous utilisez un kit SDK AWS pour appeler Amazon Textract, il est possible que vous n'ayez pas besoin de coder en base64 octets d'image transmis à l'aide de l'option
Bytes
.Type : objet Document
Obligatoire Oui
- FeatureTypes
-
Liste des types d'analyses à effectuer. Ajoutez TABLES à la liste pour renvoyer des informations sur les tables détectées dans le document d'entrée. Ajoutez FORMS pour renvoyer les données de formulaire détectées. Pour effectuer les deux types d'analyse, ajoutez TABLES et FORMS à
FeatureTypes
. Toutes les lignes et tous les mots détectés dans le document sont inclus dans la réponse (y compris le texte qui n'est pas lié à la valeur deFeatureTypes
).Type : Tableau de chaînes
Valeurs valides :
TABLES | FORMS
Obligatoire Oui
- HumanLoopConfig
-
Définit la configuration du flux de travail humain dans la boucle pour analyser les documents.
Type : objet HumanLoopConfig
Obligatoire Non
Syntaxe de la réponse
{
"AnalyzeDocumentModelVersion": "string",
"Blocks": [
{
"BlockType": "string",
"ColumnIndex": number,
"ColumnSpan": number,
"Confidence": number,
"EntityTypes": [ "string" ],
"Geometry": {
"BoundingBox": {
"Height": number,
"Left": number,
"Top": number,
"Width": number
},
"Polygon": [
{
"X": number,
"Y": number
}
]
},
"Id": "string",
"Page": number,
"Relationships": [
{
"Ids": [ "string" ],
"Type": "string"
}
],
"RowIndex": number,
"RowSpan": number,
"SelectionStatus": "string",
"Text": "string",
"TextType": "string"
}
],
"DocumentMetadata": {
"Pages": number
},
"HumanLoopActivationOutput": {
"HumanLoopActivationConditionsEvaluationResults": "string",
"HumanLoopActivationReasons": [ "string" ],
"HumanLoopArn": "string"
}
}
Eléments de réponse
Si l’action aboutit, le service renvoie une réponse HTTP 200.
Les données suivantes sont renvoyées au format JSON par le service.
- AnalyzeDocumentModelVersion
-
Version du modèle utilisée pour analyser le document.
Type : Chaîne
- Blocks
-
Les éléments détectés et analysés par
AnalyzeDocument
.Type : Tableau deBlockobjets
- DocumentMetadata
-
Métadonnées concernant le document analysé. Par exemple, le nombre de pages est le nombre de pages.
Type : objet DocumentMetadata
- HumanLoopActivationOutput
-
Affiche les résultats de l'évaluation humaine dans la boucle.
Type : objet HumanLoopActivationOutput
Erreurs
- AccessDeniedException
-
Vous n'êtes pas autorisé à effectuer l'action. Utilisez l'Amazon Resource Name (ARN) d'un utilisateur ou d'un rôle IAM autorisé pour effectuer l'opération.
HTTP Status Code : 400
- BadDocumentException
-
Amazon Textract n'est pas en mesure de lire le document. Pour plus d'informations sur les limites de documents dans Amazon Textract, voirLimites strictes dans Amazon Textract.
HTTP Status Code : 400
- DocumentTooLargeException
-
Le document ne peut pas être traité car il est trop volumineux. Taille maximale du document pour les opérations synchrone 10 Mo. La taille maximale du document pour les opérations asynchrones est de 500 Mo pour les fichiers PDF.
HTTP Status Code : 400
- HumanLoopQuotaExceededException
-
Indique que vous avez dépassé le nombre maximum d'humains actifs dans les flux de travail en boucle disponibles
HTTP Status Code : 400
- InternalServerError
-
Amazon Textract a rencontré un problème de service. Renouvelez votre appel.
HTTP Status Code : 500
- InvalidParameterException
-
Un paramètre d'entrée a enfreint une contrainte. Par exemple, dans les opérations synchrone, un
InvalidParameterException
exception se produit lorsque aucune des optionsS3Object
ouBytes
les valeurs sont fournies dans leDocument
paramètre de demande. Validez votre paramètre avant d'appeler à nouveau l'opération d'API.HTTP Status Code : 400
- InvalidS3ObjectException
-
Amazon Textract n'est pas en mesure d'accéder à l'objet S3 spécifié dans la demande. Pour plus d'informations,Configuration de l'accès à Amazon S3Pour plus d'informations sur le dépannage, consultezRésolutions des problèmes liés à Amazon S3
HTTP Status Code : 400
- ProvisionedThroughputExceededException
-
Le nombre de demandes dépasse votre limite de débit. Si vous avez besoin d'augmenter cette limite, contactez Amazon Textract.
HTTP Status Code : 400
- ThrottlingException
-
Amazon Textract est temporairement dans l'impossibilité de traiter la demande. Renouvelez votre appel.
HTTP Status Code : 500
- UnsupportedDocumentException
-
Le format du document d'entrée n'est pas pris en charge. Les documents utilisés pour les opérations peuvent être au format PNG, JPEG, PDF ou TIFF.
HTTP Status Code : 400
Voir aussi
Pour plus d’informations sur l’utilisation de cette API dans l’un des kits SDK AWS spécifiques au langage, consultez les ressources suivantes :