Voraussetzungen für einen eigenen Vector Store für eine Wissensdatenbank - Amazon Bedrock

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Voraussetzungen für einen eigenen Vector Store für eine Wissensdatenbank

Ein Vektorspeicher enthält die Darstellung Ihrer Daten durch Vektoreinbettungen. Text wird in Vektoreinbettungen umgewandelt und in einen Vektorindex geschrieben, wobei die Zuordnung zum Originaldokument beibehalten wird. Die Vektoreinbettungen ermöglichen einen mathematischen Vergleich der Texte.

Wenn Sie es vorziehen, dass Amazon Bedrock automatisch einen Vektorindex in Amazon OpenSearch Serverless für Sie erstellt, überspringen Sie diese Voraussetzung und fahren Sie fort mit. Erstellen Sie eine Amazon Bedrock-Wissensdatenbank

Sie können Ihren eigenen unterstützten Vektorspeicher einrichten, um die Darstellung Ihrer Daten mit Vektoreinbettungen zu indexieren. Sie erstellen Felder für die folgenden Daten:

  • Ein Feld für die Vektoren, die mit dem von Ihnen ausgewählten Einbettungsmodell aus dem Text in Ihrer Datenquelle generiert wurden.

  • Ein Feld für die Textblöcke, die aus den Dateien in Ihrer Datenquelle extrahiert wurden.

  • Felder für Metadaten von Quelldateien, die Amazon Bedrock verwaltet.

  • (Wenn Sie eine Amazon Aurora Aurora-Datenbank verwenden und die Filterung nach Metadaten einrichten möchten) Felder für Metadaten, die Sie Ihren Quelldateien zuordnen. Wenn Sie die Filterung in anderen Vector Stores einrichten möchten, müssen Sie diese Felder nicht für die Filterung einrichten.

Sie können Vektorspeicher von Drittanbietern mit einem KMS Schlüssel verschlüsseln. Weitere Informationen finden Sie unter Verschlüsselung von Wissensdatenbank-Ressourcen.

Wählen Sie die Registerkarte aus, die dem Vector Store-Dienst entspricht, mit dem Sie Ihren Vektorindex erstellen werden.

Amazon OpenSearch Serverless
  1. Um Berechtigungen zu konfigurieren und eine Vektorsuchsammlung in Amazon OpenSearch Serverless zu erstellen, finden Sie in der AWS Management Console, folgen Sie den Schritten 1 und 2 unter Arbeiten mit Vektorsuchsammlungen im Amazon OpenSearch Service Developer Guide. Beachten Sie bei der Einrichtung Ihrer Sammlung die folgenden Überlegungen:

    1. Geben Sie der Sammlung einen Namen und eine Beschreibung Ihrer Wahl.

    2. Um Ihre Sammlung privat zu machen, wählen Sie im Bereich Sicherheit die Option Standard erstellen aus. Wählen VPCSie dann im Abschnitt Einstellungen für den Netzwerkzugriff die Option Zugriffstyp und wählen Sie einen VPC Endpunkt aus. Weitere Informationen zum Einrichten eines VPC Endpunkts für eine Amazon OpenSearch Serverless-Sammlung finden Sie unter Zugriff auf Amazon OpenSearch Serverless über einen Schnittstellenendpunkt (AWS PrivateLink) im Amazon OpenSearch Service Developer Guide.

  2. Sobald die Sammlung erstellt ist, notieren Sie sich die Sammlung ARN für die Erstellung der Wissensdatenbank.

  3. Wählen Sie im linken Navigationsbereich unter Serverlos die Option Sammlungen aus. Wählen Sie dann Ihre Vektorsuchsammlung aus.

  4. Wählen Sie die Registerkarte Indizes aus. Wählen Sie dann Vektorindex erstellen.

  5. Geben Sie im Abschnitt Details zum Vektorindex im Feld Vektorindexname einen Namen für Ihren Index ein.

  6. Wählen Sie im Abschnitt Vektorfelder die Option Vektorfeld hinzufügen aus. Amazon Bedrock speichert die Vektoreinbettungen für Ihre Datenquelle in diesem Feld. Stellen Sie die folgenden Konfigurationen bereit:

    • Vektorfeldname — Geben Sie einen Namen für das Feld ein (z. B.embeddings).

    • Engine — Die Vektor-Engine, die für die Suche verwendet wird. Wählen Sie faiss aus.

    • Dimensionen – die Anzahl der Dimensionen im Vektor. Anhand der folgenden Tabelle können Sie bestimmen, wie viele Dimensionen der Vektor enthalten sollte:

      Modell Dimensionen
      Titan G1 Einbettungen — Text 1 536
      Titan V2 Einbettungen - Text 1,024
      Cohere Embed Englisch 1,024
      Cohere Embed Mehrsprachig 1,024
    • Entfernungsmetrik – die Metrik, die verwendet wird, um die Ähnlichkeit zwischen Vektoren zu messen. Wir empfehlen die Verwendung von Euclidean.

  7. Erweitern Sie den Bereich Metadatenverwaltung und fügen Sie zwei Felder hinzu, um den Vektorindex so zu konfigurieren, dass zusätzliche Metadaten gespeichert werden, die eine Wissensdatenbank mit Vektoren abrufen kann. In der folgenden Tabelle werden die Felder und die Werte beschrieben, die für jedes Feld angegeben werden müssen:

    Beschreibung des Feldes Feld zuordnen Datentyp Filtrierbar
    Amazon Bedrock zerschneidet den Rohtext aus Ihren Daten und speichert die Teile in diesem Feld. Name Ihrer Wahl (zum Beispiel) text String True
    Amazon Bedrock speichert Metadaten zu Ihrer Wissensdatenbank in diesem Feld. Name Ihrer Wahl (zum Beispielbedrock-metadata) String False
  8. Notieren Sie sich die Namen, die Sie für den Vektorindexnamen, den Vektorfeldnamen und die Namen der Mapping-Felder für die Metadatenverwaltung ausgewählt haben, wenn Sie Ihre Wissensdatenbank erstellen. Wählen Sie die Option Erstellen aus.

Nachdem der Vektorindex erstellt wurde, können Sie mit der Erstellung Ihrer Wissensdatenbank fortfahren. In der folgenden Tabelle ist zusammengefasst, wo Sie die einzelnen Informationen eingeben werden, die Sie zur Kenntnis genommen haben.

Feld Entsprechendes Feld in der Einrichtung der Wissensdatenbank (Konsole) Entsprechendes Feld in der Einrichtung der Wissensdatenbank () API Beschreibung
Sammlung ARN Sammlung ARN Sammlung ARN Der Amazon-Ressourcenname (ARN) der Vektorsuchsammlung.
Name des Vektor-Indexes Name des Vektorindexes vectorIndexName Der Name des Vektorindexes.
Name des Vektorfeldes Vektorfeld vectorField Der Name des Felds, in dem Vektoreinbettungen für Ihre Datenquellen gespeichert werden sollen.
Metadatenverwaltung (erstes Mapping-Feld) Textfeld textField Der Name des Felds, in dem der Rohtext aus Ihren Datenquellen gespeichert werden soll.
Metadatenverwaltung (zweites Mapping-Feld) Von Bedrock verwaltetes Metadatenfeld metadataField Der Name des Felds, in dem Metadaten gespeichert werden sollen, die Amazon Bedrock verwaltet.

Eine ausführlichere Dokumentation zur Einrichtung eines Vektorspeichers in Amazon OpenSearch Serverless finden Sie unter Arbeiten mit Vektorsuchsammlungen im Amazon OpenSearch Service Developer Guide.

Amazon Aurora (RDS)
  1. Erstellen Sie einen Amazon Aurora Aurora-Datenbank-Cluster, ein Schema und eine Tabelle, indem Sie die Schritte unter Aurora Postgre SQL als Wissensdatenbank verwenden befolgen. Wenn Sie die Tabelle erstellen, konfigurieren Sie sie mit den folgenden Spalten und Datentypen. Sie können anstelle der in der folgenden Tabelle aufgeführten Spaltennamen nach Ihren Wünschen verwenden. Notieren Sie sich die von Ihnen ausgewählten Spaltennamen, damit Sie sie bei der Einrichtung der Wissensdatenbank angeben können.

    Spaltenname Datentyp Entsprechendes Feld in der Einrichtung der Wissensdatenbank (Konsole) Entsprechendes Feld in der Einrichtung der Wissensdatenbank () API Beschreibung
    id UUIDPrimärschlüssel Primärschlüssel primaryKeyField Enthält eindeutige Bezeichner für jeden Datensatz.
    Einbettung Vektor Vektorfeld vectorField Enthält die Vektoreinbettungen der Datenquellen.
    Brocken Text Textfeld textField Enthält die Rohtextblöcke aus Ihren Datenquellen.
    Metadaten JSON Von Bedrock verwaltetes Metadatenfeld metadataField Enthält Metadaten, die für die Quellenzuweisung und die Datenerfassung und -abfrage erforderlich sind
  2. (Optional) Wenn Sie Ihren Dateien Metadaten zum Filtern hinzugefügt haben, müssen Sie auch eine Spalte für jedes Metadatenattribut in Ihren Dateien erstellen und den Datentyp (Text, Zahl oder Boolean) angeben. Wenn das Attribut beispielsweise in Ihrer Datenquelle genre vorhanden ist, würden Sie eine Spalte mit dem Namen genre und der Angabe text als Datentyp hinzufügen. Während der Datenaufnahme werden diese Spalten mit den entsprechenden Attributwerten gefüllt.

  3. Konfigurieren Sie eine AWS Secrets Manager geheim für Ihren Aurora-DB-Cluster, indem Sie die Schritte unter Passwortverwaltung mit Amazon Aurora befolgen und AWS Secrets Manager.

  4. Notieren Sie sich die folgenden Informationen, nachdem Sie Ihren DB-Cluster erstellt und das Geheimnis eingerichtet haben.

    Feld in der Einrichtung der Wissensdatenbank (Konsole) Feld in der Einrichtung der Wissensdatenbank (API) Beschreibung
    Amazon Aurora Aurora-DB-Cluster ARN resourceArn Der ARN Ihres DB-Clusters.
    Datenbankname databaseName Der Name Ihrer Datenbank
    Tabellenname tableName Der Name der Tabelle Ihrem DB-Cluster
    Geheim ARN credentialsSecretArn Das ARN von AWS Secrets Manager Schlüssel für Ihren DB-Cluster
Pinecone
Anmerkung

Wenn du verwendest Pinecone, erklären Sie sich mit der Autorisierung einverstanden AWS in Ihrem Namen auf die angegebene Drittanbieterquelle zuzugreifen, um Ihnen Vector Store-Dienste anbieten zu können. Sie sind dafür verantwortlich, alle Bedingungen Dritter einzuhalten, die für die Nutzung und Übertragung von Daten aus dem Drittanbieter-Service gelten.

Eine ausführliche Dokumentation zur Einrichtung eines Vector Stores finden Sie unter Pinecone, siehe Pinecone als Wissensdatenbank für Amazon Bedrock.

Notieren Sie sich beim Einrichten des Vektorspeichers die folgenden Informationen, die Sie später beim Erstellen einer Wissensdatenbank angeben.

  • Verbindungszeichenfolge — Der Endpunkt URL für Ihre Indexverwaltungsseite.

  • Namespace — (Optional) Der Namespace, der verwendet werden soll, um neue Daten in Ihre Datenbank zu schreiben. Weitere Informationen finden Sie unter Verwenden von Namespaces.

Es gibt zusätzliche Konfigurationen, die Sie angeben müssen, wenn Sie ein Pinecone Index:

  • Name – der Name des Vektorindex. Wählen Sie einen beliebigen gültigen Namen aus. Geben Sie den ausgewählten Namen später beim Erstellen Ihrer Wissensdatenbank in das Feld Vektorindexname ein.

  • Dimensionen – die Anzahl der Dimensionen im Vektor. Anhand der folgenden Tabelle können Sie bestimmen, wie viele Dimensionen der Vektor enthalten sollte.

    Modell Dimensionen
    Titan G1 Einbettungen — Text 1 536
    Titan V2 Einbettungen - Text 1,024
    Cohere Embed Englisch 1,024
    Cohere Embed Mehrsprachig 1,024
  • Entfernungsmetrik – die Metrik, die verwendet wird, um die Ähnlichkeit zwischen Vektoren zu messen. Wir empfehlen Ihnen, mit verschiedenen Metriken für Ihren Anwendungsfall zu experimentieren. Wir empfehlen, mit der Kosinusähnlichkeit zu beginnen.

Um auf Ihre zuzugreifen Pinecone Index, Sie müssen Ihre angeben Pinecone APISchlüssel zu Amazon Bedrock durch die AWS Secrets Manager.

Um ein Geheimnis für deine einzurichten Pinecone Konfiguration
  1. Folgen Sie den Schritten unter Erstellen eines AWS Secrets Manager geheim, wobei der Schlüssel apiKey und der Wert als API Schlüssel für den Zugriff auf Ihr Pinecone Index.

  2. Um Ihren API Schlüssel zu finden, öffnen Sie Ihre Pinecone-Konsole und wählen Sie API Keys aus.

  3. Nachdem Sie das Geheimnis erstellt haben, notieren Sie sich ARN den KMS Schlüssel.

  4. Ordnen Sie Ihrer Servicerolle Berechtigungen zur Entschlüsselung ARN des KMS Schlüssels zu, indem Sie die Schritte unter befolgen. Berechtigungen zum Entschlüsseln eines AWS Secrets Manager Geheimnisses für den Vektorspeicher, der Ihre Wissensdatenbank enthält

  5. Geben Sie später, wenn Sie Ihre Wissensdatenbank erstellen, ARN in das geheime ARN Feld Anmeldeinformationen ein.

Redis Enterprise Cloud
Anmerkung

Wenn Sie verwenden Redis Enterprise Cloud, erklären Sie sich mit der Autorisierung einverstanden AWS in Ihrem Namen auf die angegebene Drittanbieterquelle zuzugreifen, um Ihnen Vector Store-Dienste anbieten zu können. Sie sind dafür verantwortlich, alle Bedingungen Dritter einzuhalten, die für die Nutzung und Übertragung von Daten aus dem Drittanbieter-Service gelten.

Eine ausführliche Dokumentation zur Einrichtung eines Vector Stores finden Sie unter Redis Enterprise Cloud, siehe Integrieren Redis Enterprise Cloud mit Amazon Bedrock.

Notieren Sie sich beim Einrichten des Vektorspeichers die folgenden Informationen, die Sie später beim Erstellen einer Wissensdatenbank angeben.

  • Endpunkt URL — Der öffentliche Endpunkt URL für Ihre Datenbank.

  • Vektorindexname — Der Name des Vektorindexes für Ihre Datenbank.

  • Vektorfeld — Der Name des Feldes, in dem die Vektoreinbettungen gespeichert werden. Anhand der folgenden Tabelle können Sie bestimmen, wie viele Dimensionen der Vektor enthalten sollte.

    Modell Dimensionen
    Titan G1 Einbettungen — Text 1 536
    Titan V2 Einbettungen - Text 1,024
    Cohere Embed Englisch 1,024
    Cohere Embed Mehrsprachig 1,024
  • Textfeld — Der Name des Felds, in dem Amazon Bedrock die Rohtextblöcke speichert.

  • Von Bedrock verwaltetes Metadatenfeld — Der Name des Feldes, in dem Amazon Bedrock Metadaten zu Ihrer Wissensdatenbank speichert.

Um auf Ihre zuzugreifen Redis Enterprise Cloud Cluster, Sie müssen Ihre angeben Redis Enterprise Cloud Sicherheitskonfiguration für Amazon Bedrock über AWS Secrets Manager.

Um ein Geheimnis für Ihr einzurichten Redis Enterprise Cloud Konfiguration
  1. Aktivieren Sie TLS die Verwendung Ihrer Datenbank mit Amazon Bedrock, indem Sie die Schritte unter Transport Layer Security (TLS) befolgen.

  2. Folgen Sie den Schritten unter Erstellen eines AWS Secrets Manager geheim. Richten Sie die folgenden Schlüssel mit den entsprechenden Werten aus Ihrem ein Redis Enterprise Cloud Konfiguration im Geheimen:

    • username— Der Benutzername für den Zugriff auf Ihren Redis Enterprise Cloud Datenbank. Ihren Benutzernamen finden Sie in der Redis-Konsole im Abschnitt Sicherheit Ihrer Datenbank.

    • password— Das Passwort für den Zugriff auf Ihre Redis Enterprise Cloud Datenbank. Ihr Passwort finden Sie in der Redis-Konsole im Abschnitt Sicherheit Ihrer Datenbank.

    • serverCertificate – Der Inhalt des Zertifikats von der Redis-Cloud-Zertifizierungsstelle. Laden Sie das Serverzertifikat von der Redis-Administratorkonsole herunter, indem Sie den Schritten unter Herunterladen von Zertifikaten folgen.

    • clientPrivateKey – Der private Schlüssel von der Redis-Cloud-Zertifizierungsstelle. Laden Sie das Serverzertifikat von der Redis-Administratorkonsole herunter, indem Sie den Schritten unter Herunterladen von Zertifikaten folgen.

    • clientCertificate – Der öffentliche Schlüssel von der Redis-Cloud-Zertifizierungsstelle. Laden Sie das Serverzertifikat von der Redis-Administratorkonsole herunter, indem Sie den Schritten unter Herunterladen von Zertifikaten folgen.

  3. Nachdem Sie das Geheimnis erstellt haben, notieren Sie esARN. Wenn Sie später Ihre Wissensdatenbank erstellen, geben Sie ARN in das geheime ARN Feld Anmeldeinformationen den ein.

MongoDB Atlas
Anmerkung

Wenn Sie MongoDB Atlas verwenden, erklären Sie sich mit der Autorisierung einverstanden AWS in Ihrem Namen auf die angegebene Drittanbieter-Quelle zuzugreifen, um Ihnen Vector Store-Dienste anbieten zu können. Sie sind dafür verantwortlich, alle Bedingungen Dritter einzuhalten, die für die Nutzung und Übertragung von Daten aus dem Drittanbieter-Service gelten.

Eine ausführliche Dokumentation zur Einrichtung eines Vektorspeichers in MongoDB Atlas finden Sie unter MongoDB Atlas als Wissensdatenbank für Amazon Bedrock.

Beachten Sie bei der Einrichtung des Vektorspeichers die folgenden Informationen, die Sie bei der Erstellung einer Wissensdatenbank hinzufügen werden:

  • Endpunkt URL — Der Endpunkt URL Ihres MongoDB Atlas-Clusters.

  • Datenbankname — Der Name der Datenbank in Ihrem MongoDB Atlas-Cluster.

  • Sammlungsname — Der Name der Sammlung in Ihrer Datenbank.

  • Geheime Anmeldeinformationen ARN — Der Amazon-Ressourcenname (ARN) des Geheimnisses, das Sie in AWS Secrets Manager erstellt haben und das den Benutzernamen und das Passwort für einen Datenbankbenutzer in Ihrem MongoDB Atlas-Cluster enthält.

  • (Optional) Vom Kunden verwalteter KMS Schlüssel für Ihr Credential-Secret ARN — Wenn Sie Ihr Credential-Secret verschlüsselt habenARN, geben Sie den KMS Schlüssel an, damit Amazon Bedrock ihn entschlüsseln kann.

Es gibt zusätzliche Konfigurationen für die Feldzuordnung, die Sie angeben müssen, wenn Sie einen MongoDB-Atlas-Index erstellen:

  • Vektorindexname — Der Name des MongoDB Atlas Vector Search Index in Ihrer Sammlung.

  • Vektorfeldname — Der Name des Felds, in dem Amazon Bedrock Vektoreinbettungen speichern soll.

  • Textfeldname — Der Name des Felds, in dem Amazon Bedrock den rohen Chunk-Text speichern soll.

  • Name des Metadatenfeldes — Der Name des Felds, in dem Amazon Bedrock Metadaten zur Quellenattribution speichern soll.

(Optional) Informationen darüber, wie Amazon Bedrock eine Verbindung zu Ihrem MongoDB Atlas-Cluster herstellt AWS PrivateLink, finden Sie unter RAGWorkflow mit MongoDB Atlas mithilfe von Amazon Bedrock.