請求書と領収書の分析 - Amazon Textract

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

請求書と領収書の分析

Amazon Textract は、テンプレートや設定を必要とせずに、ほぼすべての請求書や領収書から、連絡先情報、購入した商品、ベンダー名などの関連データを抽出します。請求書や領収書では多くの場合、さまざまなレイアウトが使用されるため、大規模なデータを手動で抽出するのは困難で時間がかかります。Amazon Textract は ML を使用して請求書と領収書のコンテキストを理解し、お客様のビジネスニーズに合わせて請求書または受領日、請求書または領収書番号、商品価格、合計金額、支払い条件などのデータを自動的に抽出します。

Amazon Textract は、ワークフローにとって重要であるが明示的にラベル付けされていないベンダー名も識別します。たとえば、Amazon Textract は、明示的なキーと値のペアの組み合わせなしで、ページ上部のロゴ内にのみ表示されていても、レシートでベンダー名を見つけることができます。Amazon Textract を使用すると、同じコンセプトに異なる単語を使用するさまざまな領収書や請求書からの入力を簡単に統合できます。たとえば、Amazon Textract は、顧客番号、顧客番号、アカウント ID などの異なるドキュメント内のフィールド名間の関係をマッピングし、標準分類を次のように出力します。INVOICE_RECEIPT_ID。この場合、Amazon Textract は、異なるドキュメントタイプにわたって一貫してデータを表します。標準タクソノミと一致しないフィールドは、次のように分類されます。OTHER

以下に、AnalyzeExpense で現在サポートされている標準フィールドを示します。

  • ベンダー名:VENDOR_NAME

  • 合計:TOTAL

  • 受信者のアドレス:RECEIVER_ADDRESS

  • 請求書/受領日:INVOICE_RECEIPT_DATE

  • 請求書/領収書 ID:INVOICE_RECEIPT_ID

  • 支払条件:PAYMENT_TERMS

  • 小計:SUBTOTAL

  • 期日:DUE_DATE

  • 税:TAX

  • 請求書納税者 ID (SSN/ITIN または EIN):TAX_PAYER_ID

  • 項目名:ITEM_NAME

  • 商品価格:PRICE

  • 商品数量:QUANTITY

AnalyzeExpense API は、特定のドキュメントページに対して次の要素を返します。

  • ページ内の領収書または請求書の件数は、次のように表されます。ExpenseIndex

  • として表される個々のフィールドの標準化された名前Type

  • ドキュメントに表示される実際のフィールド名。次のように表示されます。LabelDetection

  • 次のように表される対応するフィールドの値ValueDetection

  • 送信されたドキュメント内のページ数が次のように表されます。Pages

  • フィールド、値、またはラインアイテムが検出されたページ番号。PageNumber

  • ページ上の個々のフィールド、値、またはラインアイテムの境界ボックスと座標位置を含むジオメトリ。Geometry

  • ドキュメントで検出された各データに関連付けられた信頼スコア。次のように表されます。Confidence

  • 購入された個々の明細項目の行全体。EXPENSE_ROW

以下は、AnalyzeExpense によって処理された領収書の API 出力の一部で、標準フィールドとして抽出されたドキュメントの「合計:$55.64」を示しています。TOTAL、ドキュメント上の実際のテキストを「合計」、信頼スコア「97.1」、ページ番号「1」、合計値を「$55.64」、境界ボックスとポリゴン座標:

{ "Type": { "Text": "TOTAL", "Confidence": 99.94717407226562 }, "LabelDetection": { "Text": "Total:", "Geometry": { "BoundingBox": { "Width": 0.09809663146734238, "Height": 0.0234375, "Left": 0.36822840571403503, "Top": 0.8017578125 }, "Polygon": [ { "X": 0.36822840571403503, "Y": 0.8017578125 }, { "X": 0.466325044631958, "Y": 0.8017578125 }, { "X": 0.466325044631958, "Y": 0.8251953125 }, { "X": 0.36822840571403503, "Y": 0.8251953125 } ] }, "Confidence": 97.10792541503906 }, "ValueDetection": { "Text": "$55.64", "Geometry": { "BoundingBox": { "Width": 0.10395314544439316, "Height": 0.0244140625, "Left": 0.66837477684021, "Top": 0.802734375 }, "Polygon": [ { "X": 0.66837477684021, "Y": 0.802734375 }, { "X": 0.7723279595375061, "Y": 0.802734375 }, { "X": 0.7723279595375061, "Y": 0.8271484375 }, { "X": 0.66837477684021, "Y": 0.8271484375 } ] }, "Confidence": 99.85165405273438 }, "PageNumber": 1 }

同期操作を使用して、請求書または受入を分析できます。これらの文書を分析するには、AnalyzeExpense オペレーションを使用して、領収書または請求書をそれに渡します。AnalyzeExpense結果セット全体を返します。詳細については、「Amazon Textract を使用した請求書と領収書の分析」を参照してください。

請求書と領収書を非同期に分析するには、StartExpenseAnalysisをクリックして、入力ドキュメントファイルの処理を開始します。結果を取得するには、GetExpenseAnalysis。に対する特定の呼び出しの結果StartExpenseAnalysisによって返されるGetExpenseAnalysis。詳細と例については、「非同期操作によるドキュメントの処理」を参照してください。