非同期操作によるドキュメントの処理

Amazon Textract は、PDF または TIFF 形式の複数ページのドキュメント内のテキストを検出して分析できます。これには、請求書と領収書が含まれます。複数ページのドキュメント処理は、非同期オペレーションです。ドキュメントの非同期処理は、大規模な複数ページのドキュメントを処理する場合に便利です。たとえば、1,000 ページを超える PDF ファイルの処理には時間がかかります。PDF ファイルを非同期的に処理すると、アプリケーションはプロセスの完了を待っている間に他のタスクを完了できます。

このセクションでは、Amazon Textract を使用して、複数ページまたは単一ページのドキュメントのテキストを非同期的に検出して分析する方法について説明します。複数ページのドキュメントは PDF 形式または TIFF 形式である必要があります。非同期操作で処理される単一ページのドキュメントは、JPEG、PNG、TIFF、または PDF 形式にすることができます。

Amazon Textract 非同期オペレーションは、次の目的に使用できます。

テキスト検出-複数ページの文書の行と単語を検出できます。非同期操作は次のとおりです。StartDocumentTextDetectionそしてGetDocumentTextDetection。詳細については、「テキストの検出」を参照してください。
テキスト分析-複数ページのドキュメントで検出されたテキスト間の関係を特定できます。非同期操作は次のとおりです。StartDocumentAnalysisそしてGetDocumentAnalysis。詳細については、「ドキュメントを分析する」を参照してください。
経費分析 — 複数ページの請求書と領収書のデータ関係を特定できます。Amazon Textract は、複数ページのドキュメントの各請求書または領収書ページを個別の領収書または請求書として扱います。複数ページドキュメントの 1 つのページから別のページへのコンテキストは保持されません。非同期操作は次のとおりです。StartExpenseAnalysisそしてGetExpenseAnalysis。詳細については、「請求書と領収書の分析」を参照してください。

トピック

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

ID ドキュメントの分析

非同期オペレーションの呼び出し