Analyse des factures et des reçus - Amazon Textract

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Analyse des factures et des reçus

Amazon Textract extrait des données pertinentes telles que les informations de contact, les articles achetés et le nom du fournisseur, à partir de presque n'importe quelle facture ou reçu sans aucun modèle ni configuration. Les factures et les reçus utilisent souvent diverses mises en page, ce qui rend difficile et chronophage l'extraction manuelle des données à grande échelle. Amazon Textract utilise ML pour comprendre le contexte des factures et des reçus et extrait automatiquement des données telles que la date de facture ou de réception, le numéro de facture ou de réception, le prix des articles, le montant total et les conditions de paiement pour répondre aux besoins de votre entreprise.

Amazon Textract identifie également les noms de fournisseurs critiques pour vos flux de travail, mais peuvent ne pas être explicitement étiquetés. Par exemple, Amazon Textract peut trouver le nom du fournisseur sur un reçu même s'il n'est indiqué que dans un logo en haut de la page sans combinaison clé-valeur explicite. Amazon Textract vous permet également de consolider facilement les entrées provenant de divers reçus et factures utilisant différents mots pour le même concept. Par exemple, Amazon Textract met en correspondance les relations entre les noms de champs dans différents documents tels que le numéro de client, le numéro de client et l'ID de compte, en affichant une taxonomie standard commeINVOICE_RECEIPT_ID. Dans ce cas, Amazon Textract représente les données de manière cohérente entre différents types de documents. Les champs qui ne sont pas alignés sur la taxonomie standard sont classés comme suit :OTHER.

Voici une liste des champs standard pris en charge actuellement par AnalyzeExpense :

  • Nom du fournisseur :VENDOR_NAME

  • Total :TOTAL

  • Adresse du destinataire :RECEIVER_ADDRESS

  • Date de facturation/réception :INVOICE_RECEIPT_DATE

  • ID de facturation/reçu :INVOICE_RECEIPT_ID

  • Conditions de paiement :PAYMENT_TERMS

  • Total partiel :SUBTOTAL

  • Date d'échéance :DUE_DATE

  • Taxe :TAX

  • ID du contribuable sur facture (SSN/ITIN ou EIN) :TAX_PAYER_ID

  • Nom de l'article :ITEM_NAME

  • Prix de l'article :PRICE

  • Quantité de l'article :QUANTITY

L'API AnalyzeExpense renvoie les éléments suivants pour une page de document donnée :

  • Le nombre de reçus ou de factures dans une page représentée parExpenseIndex

  • Le nom normalisé des champs individuels représentés parType

  • Nom réel du champ tel qu'il apparaît sur le document, représenté sous forme deLabelDetection

  • La valeur du champ correspondant représentée parValueDetection

  • Le nombre de pages dans le document soumis représenté parPages

  • Numéro de page sur lequel le champ, la valeur ou les éléments de ligne ont été détectés, représenté parPageNumber

  • La géométrie, qui inclut le cadre de sélection et les coordonnées de l'emplacement du champ, de la valeur ou des éléments de ligne individuels sur la page, représentée parGeometry

  • Le score de confiance associé à chaque élément de données détecté sur le document, représenté parConfidence

  • La ligne complète des articles de ligne individuels achetés, représentée parEXPENSE_ROW

Ce qui suit est une partie de la sortie de l'API pour un reçu traité par AnalyzeExpense qui affiche le total : 55,64$ dans le champ Document extrait en tant que standardTOTAL, texte réel sur le document sous la forme « Total », Score de confiance de « 97,1 », Numéro de page « 1 », Valeur totale « 55,64$ » et le cadre de sélection et les coordonnées surfaciques :

{ "Type": { "Text": "TOTAL", "Confidence": 99.94717407226562 }, "LabelDetection": { "Text": "Total:", "Geometry": { "BoundingBox": { "Width": 0.09809663146734238, "Height": 0.0234375, "Left": 0.36822840571403503, "Top": 0.8017578125 }, "Polygon": [ { "X": 0.36822840571403503, "Y": 0.8017578125 }, { "X": 0.466325044631958, "Y": 0.8017578125 }, { "X": 0.466325044631958, "Y": 0.8251953125 }, { "X": 0.36822840571403503, "Y": 0.8251953125 } ] }, "Confidence": 97.10792541503906 }, "ValueDetection": { "Text": "$55.64", "Geometry": { "BoundingBox": { "Width": 0.10395314544439316, "Height": 0.0244140625, "Left": 0.66837477684021, "Top": 0.802734375 }, "Polygon": [ { "X": 0.66837477684021, "Y": 0.802734375 }, { "X": 0.7723279595375061, "Y": 0.802734375 }, { "X": 0.7723279595375061, "Y": 0.8271484375 }, { "X": 0.66837477684021, "Y": 0.8271484375 } ] }, "Confidence": 99.85165405273438 }, "PageNumber": 1 }

Vous pouvez utiliser des opérations synchrone pour analyser une facture ou un reçu. Pour analyser ces documents, vous utilisez l'opération AnalyzeExpense et vous lui transmettez un reçu ou une facture.AnalyzeExpenserenvoie l'ensemble des résultats. Pour plus d'informations, consultez Analyse des factures et des reçus avec Amazon Textract.

Pour analyser les factures et les reçus de manière asynchrone, utilisezStartExpenseAnalysispour commencer le traitement d'un fichier de document d'entrée. Pour obtenir les résultats, appelezGetExpenseAnalysis. Les résultats d'un appel donné àStartExpenseAnalysissont renvoyés parGetExpenseAnalysis. Pour plus d'informations et pour voir un exemple, consultez Traitement de documents avec des opérations asynchrones.