請求書と領収書の分析

Amazon Textract は、テンプレートや設定を必要とせずに、ほぼすべての請求書や領収書から、連絡先情報、購入した商品、ベンダー名などの関連データを抽出します。請求書や領収書では多くの場合、さまざまなレイアウトが使用されるため、大規模なデータを手動で抽出するのは困難で時間がかかります。Amazon Textract は ML を使用して請求書と領収書のコンテキストを理解し、お客様のビジネスニーズに合わせて請求書または受領日、請求書または領収書番号、商品価格、合計金額、支払い条件などのデータを自動的に抽出します。

Amazon Textract は、ワークフローにとって重要であるが明示的にラベル付けされていないベンダー名も識別します。たとえば、Amazon Textract は、明示的なキーと値のペアの組み合わせなしで、ページ上部のロゴ内にのみ表示されていても、レシートでベンダー名を見つけることができます。Amazon Textract を使用すると、同じコンセプトに異なる単語を使用するさまざまな領収書や請求書からの入力を簡単に統合できます。たとえば、Amazon Textract は、顧客番号、顧客番号、アカウント ID などの異なるドキュメント内のフィールド名間の関係をマッピングし、標準分類を次のように出力します。INVOICE_RECEIPT_ID。この場合、Amazon Textract は、異なるドキュメントタイプにわたって一貫してデータを表します。標準タクソノミと一致しないフィールドは、次のように分類されます。OTHER。

以下に、AnalyzeExpense で現在サポートされている標準フィールドを示します。

ベンダー名:VENDOR_NAME
合計:TOTAL
受信者のアドレス:RECEIVER_ADDRESS
請求書/受領日:INVOICE_RECEIPT_DATE
請求書/領収書 ID:INVOICE_RECEIPT_ID
支払条件:PAYMENT_TERMS
小計:SUBTOTAL
期日:DUE_DATE
税:TAX
請求書納税者 ID (SSN/ITIN または EIN):TAX_PAYER_ID
項目名:ITEM_NAME
商品価格:PRICE
商品数量:QUANTITY

AnalyzeExpense API は、特定のドキュメントページに対して次の要素を返します。

ページ内の領収書または請求書の件数は、次のように表されます。ExpenseIndex
として表される個々のフィールドの標準化された名前Type
ドキュメントに表示される実際のフィールド名。次のように表示されます。LabelDetection
次のように表される対応するフィールドの値ValueDetection
送信されたドキュメント内のページ数が次のように表されます。Pages
フィールド、値、またはラインアイテムが検出されたページ番号。PageNumber
ページ上の個々のフィールド、値、またはラインアイテムの境界ボックスと座標位置を含むジオメトリ。Geometry
ドキュメントで検出された各データに関連付けられた信頼スコア。次のように表されます。Confidence
購入された個々の明細項目の行全体。EXPENSE_ROW

以下は、AnalyzeExpense によって処理された領収書の API 出力の一部で、標準フィールドとして抽出されたドキュメントの「合計:$55.64」を示しています。TOTAL、ドキュメント上の実際のテキストを「合計」、信頼スコア「97.1」、ページ番号「1」、合計値を「$55.64」、境界ボックスとポリゴン座標：


{
    "Type": {
        "Text": "TOTAL",
        "Confidence": 99.94717407226562
    },
    "LabelDetection": {
        "Text": "Total:",
        "Geometry": {
            "BoundingBox": {
                "Width": 0.09809663146734238,
                "Height": 0.0234375,
                "Left": 0.36822840571403503,
                "Top": 0.8017578125
            },
            "Polygon": [
                {
                    "X": 0.36822840571403503,
                    "Y": 0.8017578125
                },
                {
                    "X": 0.466325044631958,
                    "Y": 0.8017578125
                },
                {
                    "X": 0.466325044631958,
                    "Y": 0.8251953125
                },
                {
                    "X": 0.36822840571403503,
                    "Y": 0.8251953125
                }
        ]
    },
    "Confidence": 97.10792541503906
},
    "ValueDetection": {
        "Text": "$55.64",
        "Geometry": {
            "BoundingBox": {
                "Width": 0.10395314544439316,
                "Height": 0.0244140625,
                "Left": 0.66837477684021,
                "Top": 0.802734375
            },
            "Polygon": [
                {
                    "X": 0.66837477684021,
                    "Y": 0.802734375
                },
                {
                    "X": 0.7723279595375061,
                    "Y": 0.802734375
                },
                {
                    "X": 0.7723279595375061,
                    "Y": 0.8271484375
                },
                {
                    "X": 0.66837477684021,
                    "Y": 0.8271484375
                }
            ]
        },
    "Confidence": 99.85165405273438
},
"PageNumber": 1
}

同期操作を使用して、請求書または受入を分析できます。これらの文書を分析するには、AnalyzeExpense オペレーションを使用して、領収書または請求書をそれに渡します。AnalyzeExpense結果セット全体を返します。詳細については、「Amazon Textract を使用した請求書と領収書の分析」を参照してください。

請求書と領収書を非同期に分析するには、StartExpenseAnalysisをクリックして、入力ドキュメントファイルの処理を開始します。結果を取得するには、GetExpenseAnalysis。に対する特定の呼び出しの結果StartExpenseAnalysisによって返されるGetExpenseAnalysis。詳細と例については、「非同期操作によるドキュメントの処理」を参照してください。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

ドキュメントを分析する

アイデンティティドキュメントの分析