Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Amazon Textract extrait des données pertinentes telles que les informations de contact, les articles achetés et le nom du fournisseur, à partir de presque n'importe quelle facture ou reçu sans aucun modèle ni configuration. Les factures et les reçus utilisent souvent diverses mises en page, ce qui rend difficile et chronophage l'extraction manuelle des données à grande échelle. Amazon Textract utilise ML pour comprendre le contexte des factures et des reçus et extrait automatiquement des données telles que la date de facture ou de réception, le numéro de facture ou de réception, le prix des articles, le montant total et les conditions de paiement pour répondre aux besoins de votre entreprise.
Amazon Textract identifie également les noms de fournisseurs critiques pour vos flux de travail, mais peuvent ne pas être explicitement étiquetés. Par exemple, Amazon Textract peut trouver le nom du fournisseur sur un reçu même s'il n'est indiqué que dans un logo en haut de la page sans combinaison clé-valeur explicite. Amazon Textract vous permet également de consolider facilement les entrées provenant de divers reçus et factures utilisant différents mots pour le même concept. Par exemple, Amazon Textract met en correspondance les relations entre les noms de champs dans différents documents tels que le numéro de client, le numéro de client et l'ID de compte, en affichant une taxonomie standard commeINVOICE_RECEIPT_ID
. Dans ce cas, Amazon Textract représente les données de manière cohérente entre différents types de documents. Les champs qui ne sont pas alignés sur la taxonomie standard sont classés comme suit :OTHER
.
Voici une liste des champs standard pris en charge actuellement par AnalyzeExpense :
-
Nom du fournisseur :
VENDOR_NAME
-
Total :
TOTAL
-
Adresse du destinataire :
RECEIVER_ADDRESS
-
Date de facturation/réception :
INVOICE_RECEIPT_DATE
-
ID de facturation/reçu :
INVOICE_RECEIPT_ID
-
Conditions de paiement :
PAYMENT_TERMS
-
Total partiel :
SUBTOTAL
-
Date d'échéance :
DUE_DATE
-
Taxe :
TAX
-
ID du contribuable sur facture (SSN/ITIN ou EIN) :
TAX_PAYER_ID
-
Nom de l'article :
ITEM_NAME
-
Prix de l'article :
PRICE
-
Quantité de l'article :
QUANTITY
L'API AnalyzeExpense renvoie les éléments suivants pour une page de document donnée :
-
Le nombre de reçus ou de factures dans une page représentée par
ExpenseIndex
-
Le nom normalisé des champs individuels représentés par
Type
-
Nom réel du champ tel qu'il apparaît sur le document, représenté sous forme de
LabelDetection
-
La valeur du champ correspondant représentée par
ValueDetection
-
Le nombre de pages dans le document soumis représenté par
Pages
-
Numéro de page sur lequel le champ, la valeur ou les éléments de ligne ont été détectés, représenté par
PageNumber
-
La géométrie, qui inclut le cadre de sélection et les coordonnées de l'emplacement du champ, de la valeur ou des éléments de ligne individuels sur la page, représentée par
Geometry
-
Le score de confiance associé à chaque élément de données détecté sur le document, représenté par
Confidence
-
La ligne complète des articles de ligne individuels achetés, représentée par
EXPENSE_ROW
Ce qui suit est une partie de la sortie de l'API pour un reçu traité par AnalyzeExpense qui affiche le total : 55,64$ dans le champ Document extrait en tant que standardTOTAL
, texte réel sur le document sous la forme « Total », Score de confiance de « 97,1 », Numéro de page « 1 », Valeur totale « 55,64$ » et le cadre de sélection et les coordonnées surfaciques :
{ "Type": { "Text": "TOTAL", "Confidence": 99.94717407226562 }, "LabelDetection": { "Text": "Total:", "Geometry": { "BoundingBox": { "Width": 0.09809663146734238, "Height": 0.0234375, "Left": 0.36822840571403503, "Top": 0.8017578125 }, "Polygon": [ { "X": 0.36822840571403503, "Y": 0.8017578125 }, { "X": 0.466325044631958, "Y": 0.8017578125 }, { "X": 0.466325044631958, "Y": 0.8251953125 }, { "X": 0.36822840571403503, "Y": 0.8251953125 } ] }, "Confidence": 97.10792541503906 }, "ValueDetection": { "Text": "$55.64", "Geometry": { "BoundingBox": { "Width": 0.10395314544439316, "Height": 0.0244140625, "Left": 0.66837477684021, "Top": 0.802734375 }, "Polygon": [ { "X": 0.66837477684021, "Y": 0.802734375 }, { "X": 0.7723279595375061, "Y": 0.802734375 }, { "X": 0.7723279595375061, "Y": 0.8271484375 }, { "X": 0.66837477684021, "Y": 0.8271484375 } ] }, "Confidence": 99.85165405273438 }, "PageNumber": 1 }
Vous pouvez utiliser des opérations synchrone pour analyser une facture ou un reçu. Pour analyser ces documents, vous utilisez l'opération AnalyzeExpense et vous lui transmettez un reçu ou une facture.AnalyzeExpense
renvoie l'ensemble des résultats. Pour plus d'informations, consultez Analyse des factures et des reçus avec Amazon Textract.
Pour analyser les factures et les reçus de manière asynchrone, utilisezStartExpenseAnalysispour commencer le traitement d'un fichier de document d'entrée. Pour obtenir les résultats, appelezGetExpenseAnalysis. Les résultats d'un appel donné àStartExpenseAnalysissont renvoyés parGetExpenseAnalysis
. Pour plus d'informations et pour voir un exemple, consultez Traitement de documents avec des opérations asynchrones.