翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
Amazon Bedrock ナレッジベースとデータを同期する
ナレッジベースを作成したら、データを取り込むか同期して、クエリできるようにします。取り込み時には、指定したベクトル埋め込みモデルと設定に基づいて、データソースの未加工データがベクトル埋め込みに変換されます。
取り込みの開始前に、データソースが次の条件を満たしていることを確認してください。
-
データソースの接続情報が設定されている。データソースリポジトリのデータをクローリングするようにデータソースコネクタを設定する場合は、サポート対象のデータソースコネクタをご確認ください。データソースの設定は、ナレッジベースの作成過程で行います。
-
選択したベクトル埋め込みモデルとベクトルストアが設定されている。サポート対象のベクトル埋め込みモデルとナレッジベース用のベクトルストアをご確認ください。ベクトル埋め込みの設定は、ナレッジベースの作成過程で行います。
-
ファイルがサポート対象の形式である。詳細については、「Support document formats」を参照してください。
-
ファイルのサイズが、「 AWS 全般のリファレンス」の「Amazon Bedrock エンドポイントとクォータ」で指定されている取り込みジョブのファイルサイズを超えていない。
-
データソースにメタデータファイルが含まれている場合は、メタデータファイルが無視されないように、次の条件を確認してください。
-
各
.metadata.jsonファイルが、関連付けられているソースファイルと同じファイル名と拡張子を共有している。 -
ナレッジベースのベクトルインデックスが Amazon OpenSearch Serverless ベクトルストア内にある場合は、ベクトルインデックスが
faissエンジンで設定されていることを確認してください。ベクトルインデックスがnmslibエンジンで設定されている場合は、次のいずれかを行う必要があります。-
コンソールで新しいナレッジベースを作成し、Amazon Bedrock が Amazon OpenSearch Serverless でベクトルインデックスを自動作成できるようにします。
-
ベクトルストアに別のベクトルインデックスを作成し、[エンジン] として
faissを選択します。次に、新しいナレッジベースを作成し、新しいベクトルインデックスを指定します。
-
-
ナレッジベースのベクトルインデックスが Amazon Aurora データベースクラスター内にある場合は、カスタムメタデータフィールドを使用してすべてのメタデータを 1 つの列に保存し、この列にインデックスを作成することをお勧めします。カスタムメタデータフィールドを指定しない場合は、取り込みを開始する前に、インデックスのテーブルにメタデータファイル内の各メタデータプロパティの列が含まれていることを確認する必要があります。詳細については、「ナレッジベース用に作成したベクトルストアを使用するための前提条件」を参照してください。
-
データソースからファイルを追加、変更、または削除するたびに、ナレッジベースでファイルのインデックスが再作成されるように、データソースを同期する必要があります。同期は増分処理であるため、前回の同期以降に追加、変更、または削除されたドキュメントだけが処理されます。
ナレッジベースが再同期を処理する方法
データソースからファイルを追加、変更、または削除するたびに、データソースを同期してナレッジベースでインデックスを再作成する必要があります。同期は増分であるため、Amazon Bedrock は前回の同期以降に追加、変更、または削除されたドキュメントのみを処理します。データソースを同期すると、Amazon Bedrock はドキュメントを再取り込みして、正確性と一貫性を確保します。再取り込みには、解析、チャンキング、埋め込みの生成、ベクトルストアへのインデックス作成が含まれます。
| シナリオ | どうなるのか |
|---|---|
| 変更が検出されませんでした | ドキュメントはスキップされます。 |
| コンテンツまたはメタデータが変更されました | ドキュメントは再取り込まれます (再解析、再チャンク、再埋め込み、再インデックス)。 |
| 新しいドキュメントが追加されました | 新しいドキュメントのみが取り込まれます。 |
| 削除されたドキュメント | ドキュメントはベクトルストアから削除されます。 |
メタデータのみの最適化
場合によっては、Amazon Bedrock はそのメタデータファイルに関連付けられたドキュメントを再取り込みせずにメタデータを更新できます。この最適化は、ベクトルストアから既存のベクトル埋め込みを取得し、新しいメタデータをマージして、更新された埋め込みを書き戻し、埋め込みモデルへの呼び出しを回避します。
この最適化は、以下の条件がすべて満たされた場合にのみ適用されます。
-
metadata.jsonファイルのみが変更されます。コンテンツファイルは変更されません。 -
関連付けられたコンテンツファイルは CSV ファイルではありません。
-
データソースはカスタム変換 Lambda 関数を使用しません。
CSV ファイルの再取り込み動作
CSV ファイルでは、メタデータの documentStructureConfigurationフィールドを使用して、インデックスを作成する列を制御します。Amazon Bedrock は、ファイルを再処理せずにこの構造設定が変更されたかどうかを判断できないため、メタデータファイルが更新されると CSV ファイルは常に再取り込みされます。
データをナレッジベースに取り込み、最新のデータと同期する方法を確認するには、任意の方法のタブを選択してステップを実行してください。