データソースの解析オプション

フォーカスモード

データソースの解析オプション - Amazon Bedrock

解析とは、未加工データからのコンテンツの理解と抽出を指します。Amazon Bedrock ナレッジベースには、取り込み中にデータソースを解析するための以下のオプションが用意されています。

Amazon Bedrock デフォルトパーサー – .txt、.md、.html、.doc/.docx、.xls/.xlsx、.pdf ファイルなど、テキストファイル内のテキストのみを解析します。このパーサーには使用料はかかりません。

注記
デフォルトのパーサーはテキストのみを出力するため、ドキュメントに図、グラフ、テーブル、または画像が含まれている場合は、Amazon Bedrock Data Automation または基盤モデルをデフォルトのパーサーの代わりにパーサーとして使用することをお勧めします。Amazon Bedrock Data Automation および基盤モデルは、ドキュメントからこれらの要素を抽出し、出力として返すことができます。
Amazon Bedrock ナレッジベースには、.jpeg および .png イメージファイルに加えて、.pdf ファイル内の図、グラフ、テーブルを含むマルチモーダルデータを解析するための以下のパーサーが用意されています。これらのパーサーは、これらの図、グラフ、テーブル、イメージを抽出し、ナレッジベースの作成時に指定した S3 送信先にファイルとして保存することもできます。ナレッジベースの取得中に、これらのファイルをレスポンスまたはソース属性で返すことができます。
- Amazon Bedrock Data Automation – 追加のプロンプトを提供することなく、マルチモーダルデータを効果的に処理するフルマネージドサービス。このパーサーのコストは、ドキュメント内のページ数または処理するイメージの数によって異なります。このサービスの詳細については、「Amazon Bedrock Data Automation」を参照してください。
- 基盤モデル – 基盤モデルを使用してマルチモーダルデータを処理します。このパーサーは、データ抽出に使用されるデフォルトのプロンプトをカスタマイズするオプションを提供します。このパーサーのコストは、基盤モデルによって処理される入出力トークンの数によって異なります。Amazon Bedrock ナレッジベースのデータの解析をサポートするモデルのリストについては、「」を参照してください解析でサポートされているモデルとリージョン。

重要

Amazon Bedrock Data Automation または基盤モデルをパーサーとして選択すると、選択したメソッドを使用して、.pdf ファイルにテキストのみが含まれている場合でも、データソース内のすべての .pdf ファイルを解析します。デフォルトのパーサーは、これらの .pdf ファイルの解析には使用されません。アカウントでは、これらのファイルの解析に Amazon Bedrock Data Automation または基盤モデルを使用した場合、料金が発生します。

データの解析方法を選択するときは、次の点を考慮してください。

データが純粋にテキスト形式であるか、ナレッジベースがクエリできるようにする画像、グラフ、グラフなどのマルチモーダルデータが含まれているか。
データの解析方法をモデルに指示するために使用されるプロンプトをカスタマイズするオプションが必要かどうか。
パーサーのコスト。Amazon Bedrock Data Automation はページあたりの料金を使用しますが、基盤モデルパーサーは入出力トークンに基づいて課金されます。詳細については、「Amazon Bedrock の料金体系」ページを参照してください。

ナレッジベースの解析方法を設定する方法については、のデータソースの接続設定を参照してくださいデータソースをナレッジベースに接続する。