翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
解析とは、未加工データからのコンテンツの理解と抽出を指します。Amazon Bedrock ナレッジベースには、取り込み中にデータソースを解析するための以下のオプションがあります。
-
Amazon Bedrock のデフォルトパーサー – .txt、.md、.html、.doc/.docx、.xls/.xlsx、.pdf ファイルなどのテキストファイル内のテキストのみを解析します。このパーサーには使用料金は発生しません。
注記
デフォルトのパーサーはテキストのみを出力するため、ドキュメントに図、チャート、テーブル、または画像が含まれている場合は、Amazon Bedrock Data Automation または基盤モデルをデフォルトのパーサーの代わりにパーサーとして使用することをお勧めします。Amazon Bedrock Data Automation と基盤モデルは、ドキュメントからこれらの要素を抽出し、出力として返すことができます。
-
Amazon Bedrock ナレッジベースには、.jpeg および .png イメージファイルに加えて、.pdf ファイル内の図、チャート、テーブルを含むマルチモーダルデータを解析するための次のパーサーが用意されています。これらのパーサーは、これらの図、チャート、テーブル、イメージを抽出し、ナレッジベースの作成時に指定した S3 送信先にファイルとして保存することもできます。ナレッジベースの取得中に、これらのファイルをレスポンスまたはソース属性で返すことができます。
-
Amazon Bedrock Data Automation – 追加のプロンプトを提供することなく、マルチモーダルデータを効果的に処理するフルマネージドサービス。このパーサーのコストは、ドキュメント内のページ数または処理するイメージの数によって異なります。このサービスの詳細については、「Amazon Bedrock Data Automation」を参照してください。
-
基盤モデル – 基盤モデルを使用してマルチモーダルデータを処理します。このパーサーは、データ抽出に使用されるデフォルトのプロンプトをカスタマイズするオプションを提供します。このパーサーのコストは、基盤モデルによって処理される入出力トークンの数によって異なります。Amazon Bedrock ナレッジベースのデータの解析をサポートするモデルのリストについては、「」を参照してください解析でサポートされているモデルとリージョン。
-
重要
Amazon Bedrock Data Automation または基盤モデルをパーサーとして選択した場合、選択した方法を使用して、.pdf ファイルに含まれているテキストのみがデータソース内のすべての .pdf ファイルを解析します。デフォルトのパーサーは、これらの .pdf ファイルの解析には使用されません。アカウントでは、これらのファイルの解析に Amazon Bedrock Data Automation または基盤モデルを使用した場合、料金が発生します。
データの解析方法を選択するときは、次の点を考慮してください。
-
データが純粋にテキスト形式であるか、イメージ、グラフ、グラフなどのマルチモーダルデータが含まれているかにかかわらず、ナレッジベースでクエリを実行できるようにします。
-
データの解析方法をモデルに指示するために使用されるプロンプトをカスタマイズするオプションが必要かどうか。
-
パーサーのコスト。Amazon Bedrock Data Automation はページごとの料金を使用しますが、基盤モデルパーサーは入出力トークンに基づいて課金します。詳細については、「Amazon Bedrock の料金体系
」ページを参照してください。
ナレッジベースの解析方法を設定する方法については、「」のデータソースの接続設定を参照してくださいデータソースをナレッジベースに接続する。