非同期操作によるドキュメントの処理 - Amazon Textract

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

非同期操作によるドキュメントの処理

Amazon Textract は、PDF または TIFF 形式の複数ページのドキュメント内のテキストを検出して分析できます。これには、請求書と領収書が含まれます。複数ページのドキュメント処理は、非同期オペレーションです。ドキュメントの非同期処理は、大規模な複数ページのドキュメントを処理する場合に便利です。たとえば、1,000 ページを超える PDF ファイルの処理には時間がかかります。PDF ファイルを非同期的に処理すると、アプリケーションはプロセスの完了を待っている間に他のタスクを完了できます。

このセクションでは、Amazon Textract を使用して、複数ページまたは単一ページのドキュメントのテキストを非同期的に検出して分析する方法について説明します。複数ページのドキュメントは PDF 形式または TIFF 形式である必要があります。非同期操作で処理される単一ページのドキュメントは、JPEG、PNG、TIFF、または PDF 形式にすることができます。

Amazon Textract 非同期オペレーションは、次の目的に使用できます。

  • テキスト検出-複数ページの文書の行と単語を検出できます。非同期操作は次のとおりです。StartDocumentTextDetectionそしてGetDocumentTextDetection。詳細については、「テキストの検出」を参照してください。

  • テキスト分析-複数ページのドキュメントで検出されたテキスト間の関係を特定できます。非同期操作は次のとおりです。StartDocumentAnalysisそしてGetDocumentAnalysis。詳細については、「ドキュメントを分析する」を参照してください。

  • 経費分析 — 複数ページの請求書と領収書のデータ関係を特定できます。Amazon Textract は、複数ページのドキュメントの各請求書または領収書ページを個別の領収書または請求書として扱います。複数ページドキュメントの 1 つのページから別のページへのコンテキストは保持されません。非同期操作は次のとおりです。StartExpenseAnalysisそしてGetExpenseAnalysis。詳細については、「請求書と領収書の分析」を参照してください。