Voraussetzungen für die Verwendung eines Vektorspeichers, den Sie für eine Wissensdatenbank erstellt haben

Zum Speichern der Vektoreinbettungen, in die Ihre Dokumente konvertiert werden, verwenden Sie einen Vektorspeicher. Wissensdatenbanken für Amazon Bedrock unterstützt einen Schnellerstellungsablauf für einige Vektorspeicher. Wenn Sie Amazon Bedrock automatisch einen Vektorindex für Sie in einem dieser Vektorspeicher erstellen soll, überspringen Sie diese Voraussetzung und fahren Sie mit So erstellen Sie eine Wissensdatenbank, indem Sie in Wissensdatenbanken für Amazon Bedrock eine Verbindung zu einer Datenquelle herstellen fort.

Wenn Sie binäre Vektoreinbettungen anstelle der standardmäßigen Gleitkomma-Vektoreinbettungen (float32) speichern möchten, müssen Sie einen Vektorspeicher verwenden, der binäre Vektoren unterstützt.

Anmerkung

Amazon OpenSearch Serverless und Amazon OpenSearch Managed Clusters sind die einzigen Vektorspeicher, die das Speichern binärer Vektoren unterstützen.

Sie können einen eigenen unterstützten Vektorspeicher einrichten, um die Darstellung Ihrer Daten durch Vektoreinbettungen zu indizieren. Sie erstellen Felder für die folgenden Daten:

Ein Feld für die Vektoren, die mit dem von Ihnen ausgewählten Einbettungsmodell aus dem Text in Ihrer Datenquelle generiert wurden
Ein Feld für die Textblöcke, die aus den Dateien in Ihrer Datenquelle extrahiert wurden
Felder für Metadaten von Quelldateien, die Amazon Bedrock verwaltet
(Wenn Sie eine Amazon-Aurora-Datenbank verwenden und die Filterung nach Metadaten einrichten möchten) Felder für Metadaten, die Sie Ihren Quelldateien zuordnen. Wenn Sie die Filterung in anderen Vektorspeichern einrichten möchten, müssen Sie diese Felder nicht entsprechend einrichten.

Sie können Vektorspeicher von Drittanbietern mit einem KMS-Schlüssel verschlüsseln. Weitere Informationen finden Sie unter Verschlüsselung von Wissensdatenbankressourcen.

Wählen Sie die Registerkarte aus, die dem Vektorspeicherservice entspricht, mit dem Sie Ihren Vektorindex erstellen werden.

Anmerkung

Ihre Wahl des Einbettungsmodells und der Vektordimensionen kann sich auf die verfügbaren Vektorspeicheroptionen auswirken. Wenn Sie Ihren bevorzugten Vektorspeicher nicht verwenden können, wählen Sie kompatible Optionen für das Einbettungsmodell und die Vektordimensionen aus.

Amazon OpenSearch Serverless

Um Berechtigungen zu konfigurieren und eine Vektorsuchsammlung in Amazon OpenSearch Serverless in der zu erstellen AWS Management Console, folgen Sie den Schritten 1 und 2 unter Arbeiten mit Vektorsuchsammlungen im Amazon OpenSearch Service Developer Guide. Beachten Sie bei der Einrichtung Ihrer Sammlung die folgenden Überlegungen:
1. Geben Sie der Sammlung einen Namen und eine Beschreibung Ihrer Wahl.
2. Damit Ihre Sammlung privat bleibt, wählen Sie im Bereich Sicherheit die Option Standard erstellen aus. Wählen Sie dann im Abschnitt Netzwerkzugriffseinstellungen VPC als Zugriffstyp und einen VPC-Endpunkt aus. Weitere Informationen zum Einrichten eines VPC-Endpunkts für eine Amazon OpenSearch Serverless-Sammlung finden Sie unter Zugriff auf Amazon OpenSearch Serverless über einen Schnittstellenendpunkt (AWS PrivateLink) im Amazon OpenSearch Service Developer Guide.
Notieren Sie sich nach der Erstellung der Sammlung den Sammlungs-ARN zum Anlegen der Wissensdatenbank.
Wählen Sie im linken Navigationsbereich unter Serverless die Option Sammlungen aus. Wählen Sie dann Ihre Vektorsuchsammlung aus.
Wechseln Sie zur Registerkarte Indizes. Wählen Sie dann Vektorindex erstellen aus.
Geben Sie im Abschnitt Details zum Vektorindex im Feld Vektor-Indexname einen Namen für Ihren Index ein.

Wählen Sie im Abschnitt Vektorfelder die Option Vektorfeld hinzufügen aus. Amazon Bedrock speichert die Vektoreinbettungen für Ihre Datenquelle in diesem Feld. Stellen Sie die folgenden Konfigurationen bereit:

Vektorfeldname – Geben Sie einen Namen für das Feld ein (z. B. embeddings).
Engine – Dies ist die Vektor-Engine, die für die Suche verwendet wird. Wählen Sie faiss aus.

Dimensionen – Die Anzahl der Dimensionen im Vektor. Bestimmen Sie anhand der folgenden Tabelle, wie viele Dimensionen der Vektor enthalten soll:

Modell	Dimensionen
Titan G1 Einbettungen – Text	1 536
Titan V2 Einbettungen – Text	1 024, 512 und 256
Cohere Embed English	1,024
Cohere Embed Multilingual	1,024

Entfernungsmetrik – Die Metrik, die verwendet wird, um die Ähnlichkeit zwischen Vektoren zu messen. Wir empfehlen, Euklidisch für Gleitkomma-Vektoreinbettungen zu verwenden.

Erweitern Sie den Abschnitt Verwaltung von Metadaten und fügen Sie zwei Felder hinzu, um den Vektorindex so zu konfigurieren, dass zusätzliche Metadaten gespeichert werden, die von einer Wissensdatenbank mit Vektoren abgerufen werden können. In der folgenden Tabelle werden die Felder und Werte beschrieben, die für jedes Feld angegeben werden müssen:

Beschreibung des Feldes	Feld „Mapping“	Datentyp	Filterbar
Amazon Bedrock teilt den Rohtext in Ihren Daten auf und speichert die Teile in diesem Feld.	Name Ihrer Wahl (zum Beispiel `text`)	Zeichenfolge	Wahr
In diesem Feld speichert Amazon Bedrock Metadaten, die sich auf Ihre Wissensdatenbank beziehen.	Name Ihrer Wahl (zum Beispiel `bedrock-metadata`)	Zeichenfolge	Falsch

Notieren Sie sich die Namen, die Sie für den Vektorindex, das Vektorfeld und die Zuordnungsfelder für die Metadatenverwaltung ausgewählt haben, um später Ihre Wissensdatenbank zu erstellen. Wählen Sie die Option Erstellen aus.

Nachdem der Vektorindex erstellt wurde, können Sie mit der Erstellung Ihrer Wissensdatenbank fortfahren. In der folgenden Tabelle ist zusammengefasst, wo Sie die einzelnen Informationen eingeben, die Sie sich notiert haben.

Feld	Entsprechendes Feld in der Einrichtung der Wissensdatenbank (Konsole)	Entsprechendes Feld in der Einrichtung der Wissensdatenbank (API)	Description
Sammlungs-ARN	Sammlungs-ARN	collectionARN	Der Amazon-Ressourcenname (ARN) der Vektorsuchsammlung
Vektor-Indexname	Vektor-Indexname	Vektor IndexName	Der Name des Vektorindex
Vektorfeldname	Vektorfeld	vectorField	Der Name des Feldes, in dem Vektoreinbettungen für Ihre Datenquellen gespeichert werden sollen
Verwaltung von Metadaten (erstes Feld „Mapping“)	Textfeld	textField	Der Name des Feldes, in dem der Rohtext aus Ihren Datenquellen gespeichert werden soll
Verwaltung von Metadaten (zweites Feld „Mapping“)	Bedrock-managed Metadaten-Feld	metadataField	Der Name des Feldes, in dem Metadaten gespeichert werden sollen, die Amazon Bedrock verwaltet

Eine ausführlichere Dokumentation zur Einrichtung eines Vektorspeichers in Amazon OpenSearch Serverless finden Sie unter Arbeiten mit Vektorsuchsammlungen im Amazon OpenSearch Service Developer Guide.

Amazon OpenSearch Service Managed Clusters

Wichtig

Bevor Sie Domain-Ressourcen in OpenSearch verwalteten Clustern verwenden können, müssen Sie bestimmte IAM-Zugriffsberechtigungen und -richtlinien konfigurieren. Weitere Informationen finden Sie unter Voraussetzungen und Berechtigungen, die für die Verwendung von OpenSearch Managed Clusters mit Amazon Bedrock Knowledge Bases erforderlich sind.
Wenn bei der Datenaufnahme Fehler auftreten, deutet dies möglicherweise auf eine unzureichende OpenSearch Domänenkapazität hin. Zur Behebung dieses Problems erhöhen Sie die Kapazität Ihrer Domain, indem Sie höhere IOPS bereitstellen und die Durchsatzeinstellungen anpassen. Weitere Informationen finden Sie unter Best Practices für den Betrieb von Amazon OpenSearch Service.

Um einen Domain- und Vektorindex in OpenSearch Cluster in the zu erstellen AWS Management Console, folgen Sie den Schritten, die unter OpenSearch Service-Domains erstellen und verwalten im Amazon OpenSearch Service Developer Guide beschrieben sind.

Beachten Sie bei der Einrichtung Ihrer Domain die folgenden Überlegungen:
1. Geben Sie der Domain einen Namen Ihrer Wahl.
2. Wir empfehlen Ihnen, die Option Einfach erstellen zu verwenden, um schnell mit der Erstellung Ihrer Domain zu beginnen.
  
  Anmerkung
  Mit dieser Option erhalten Sie eine Domain mit geringem Durchsatz. Wenn Sie größere Workloads haben, die einen höheren Durchsatz erfordern, wählen Sie die Option Standard erstellen aus. Sie können die Kapazität später nach Bedarf anpassen. Mit dieser Option können Sie mit der niedrigsten Kapazität beginnen und diese dann später nach Bedarf ändern.
3. Für Netzwerk müssen Sie Öffentlicher Zugriff wählen. OpenSearch Domänen, die sich hinter einer VPC befinden, werden von Ihrer Knowledge Base nicht unterstützt.
4. Version: Wenn Sie binäre Vektoreinbettungen verwenden, benötigt Wissensdatenbanken für Amazon Bedrock eine Engine-Version 2.16 oder höher. Darüber hinaus ist eine Version 2.13 oder höher erforderlich, um einen k-nn-Index zu erstellen. Weitere Informationen finden Sie unter K-NN Suchen im Amazon OpenSearch Service Developer Guide.
5. Wir empfehlen Ihnen, den Dual-stackModus zu verwenden.
6. Wir empfehlen Ihnen, die Fine-grained Zugriffskontrolle zu aktivieren, um die Daten in Ihrer Domain zu schützen, und die Berechtigungen, die Ihrer Knowledge-Base-Servicerolle Zugriff auf die OpenSearch Domain und das Stellen von Anfragen gewähren, weiter zu kontrollieren.
7. Übernehmen Sie für alle anderen Einstellungen die Standardwerte und wählen Sie Erstellen aus, um Ihre Domain zu erstellen.
Sobald die Domain erstellt wurde, wählen Sie sie aus, um den Domain-ARN und den Domain-Endpunkt für die Erstellung der Wissensdatenbank zu notieren.

Nachdem Sie die Domain erstellt haben, können Sie einen Vektorindex erstellen, indem Sie die folgenden Befehle auf einem OpenSearch Dashboard ausführen oder curl-Befehle verwenden. Weitere Informationen finden Sie in der OpenSearch -Dokumentation.

Beim Ausführen des Befehls:

Geben Sie einen Namen für das Vektorfeld ein (z. B. embeddings).
Stellen Sie sicher, dass der für die Suche verwendete Vektor faiss ist. nmslib wird nicht unterstützt.

Im Hinblick auf die Anzahl der Dimensionen des Vektors bestimmen Sie anhand der folgenden Tabelle, wie viele Dimensionen der Vektor enthalten soll:

Anmerkung

Das Textmodell Titan V2 Embeddings unterstützt mehrere Dimensionen. Möglich ist auch 256 oder 512.

Modell	Dimensionen
Titan G1 Einbettungen – Text	1 536
Titan V2 Einbettungen – Text	1 024, 512 und 256
Cohere Embed English	1,024
Cohere Embed Multilingual	1,024

Sie können zwei Felder hinzufügen, um den Vektorindex so zu konfigurieren, dass zusätzliche Metadaten gespeichert werden, die von einer Wissensdatenbank mit Vektoren abgerufen werden können. In der folgenden Tabelle werden die Felder und Werte beschrieben, die jeweils angegeben werden müssen:

Beschreibung des Feldes	Feld „Mapping“
Amazon Bedrock teilt den Rohtext in Ihren Daten auf und speichert die Teile in diesem Feld.	Als Objekt angegeben, zum Beispiel `AMAZON_BEDROCK_TEXT_CHUNK`
In diesem Feld speichert Amazon Bedrock Metadaten, die sich auf Ihre Wissensdatenbank beziehen.	Als Objekt angegeben, zum Beispiel `AMAZON_BEDROCK_METADATA`


PUT /<index-name>
{
    "settings": {
        "index": {
            "knn": true
        }
    },
    "mappings": {
        "properties": {
            "<vector-name>": {
                "type": "knn_vector",
                "dimension": <embedding-dimension>,
                "data_type": "binary",          # Only needed for binary embeddings
                "space_type": "l2" | "hamming", # Use l2 for float embeddings and hamming for binary embeddings
                "method": {
                    "name": "hnsw",
                    "engine": "faiss",
                    "parameters": {
                        "ef_construction": 128,
                        "m": 24
                    }
                }
            },

            "AMAZON_BEDROCK_METADATA": {
                "type": "text",
                "index": "false"
            },
            "AMAZON_BEDROCK_TEXT_CHUNK": {
                "type": "text",
                "index": "true"            
            }
        }
    }
}

Benutzerdefinierte Metadatenfelder zum Filtern

Wenn Sie die Metadatenfilterung mit benutzerdefinierten Metadatenfeldern verwenden möchten, müssen Sie diese Felder mit einem keyword Typ oder als text Typ mit einem keyword Unterfeld definieren. Beispiel:


"my_custom_field": {
    "type": "text",
    "fields": {
        "keyword": {
            "type": "keyword"
        }
    }
}

Ohne diese Struktur schlägt das Filtern von Abfragen nach benutzerdefinierten Metadatenfeldern fehl und es wird der Fehler „Zuerst neu schreiben“ angezeigt.

Notieren Sie sich den Domain-ARN und Endpunkt sowie die Namen, die Sie für den Vektorindex, das Vektorfeld und die Zuordnungsfelder für die Metadatenverwaltung ausgewählt haben, um später Ihre Wissensdatenbank zu erstellen.

Feld	Entsprechendes Feld in der Einrichtung der Wissensdatenbank (Konsole)	Entsprechendes Feld in der Einrichtung der Wissensdatenbank (API)	Description
Domain-ARN	Domain-ARN	domainARN	Der Amazon-Ressourcenname (ARN) der OpenSearch Domain.
Domain-Endpunkt	Domain-Endpunkt	domainEndpoint	Der Endpunkt für die Verbindung mit der OpenSearch Domain.
Vektor-Indexname	Vektor-Indexname	Vektor IndexName	Der Name des Vektorindex
Vektorfeldname	Vektorfeld	vectorField	Der Name des Feldes, in dem Vektoreinbettungen für Ihre Datenquellen gespeichert werden sollen
Verwaltung von Metadaten (erstes Feld „Mapping“)	Textfeld	textField	Der Name des Feldes, in dem der Rohtext aus Ihren Datenquellen gespeichert werden soll
Verwaltung von Metadaten (zweites Feld „Mapping“)	Bedrock-managed Metadaten-Feld	metadataField	Der Name des Feldes, in dem Metadaten gespeichert werden sollen, die Amazon Bedrock verwaltet

Amazon S3 Vectors

Amazon S3 Vectors bietet kostengünstigen Vektorspeicher in Amazon S3, der zum Speichern und Abfragen von Vektordaten verwendet werden kann. Es bietet eine dauerhafte und elastische Speicherung großer Vektordatensätze mit einer Abfrageleistung von weniger als einer Sekunde. Amazon S3 Vectors eignet sich am besten für seltene Abfrage-Workloads und kann bei der Verwendung in Retrieval Augmented Generation (RAG) und Anwendungen für die semantische Suche zur Kostensenkung beitragen.

Amazon S3 Vectors führt S3-Vektor-Buckets ein, die Vektorindizes enthalten, die Sie anhand ihrer semantischen Bedeutung und Ähnlichkeit abfragen können. Es kann verwendet werden, um Antwortzeiten von weniger als einer Sekunde zu erreichen und Kosten zu senken. Gleichzeitig werden Vektordaten in großem Umfang gespeichert, abgerufen und abgefragt, ohne dass eine Infrastruktur bereitgestellt werden muss. In einem Vektor-Bucket können Sie Ihre Vektordaten in Vektorindizes organisieren. Ihr Vektor-Bucket kann mehrere Vektorindizes haben. Weitere Informationen finden Sie unter Amazon S3 Vectors im Amazon-S3-Benutzerhandbuch.

Anmerkung

Sie können eine Wissensdatenbank für Amazon S3 Vectors in allen AWS-Region Umgebungen erstellen, in denen sowohl Amazon Bedrock als auch Amazon S3 Vectors verfügbar sind. Informationen zur regionalen Verfügbarkeit von Amazon S3 Vectors finden Sie unter Amazon S3 Vectors im Amazon-S3-Benutzerhandbuch.
Wenn Sie sehr hohe Token-Zahlen mit hierarchischem Chunking in Amazon Bedrock Knowledge Bases verwenden, können Sie die maximalen Größenbeschränkungen für Metadaten überschreiten, da Eltern-Kind-Chunk-Beziehungen und hierarchischer Kontext als nicht filterbare Metadaten in Amazon S3 Vectors gespeichert werden. Weitere Informationen zu Größenbeschränkungen für Metadaten pro Vektor finden Sie unter Einschränkungen und Einschränkungen im Amazon S3 S3-Benutzerhandbuch. Weitere Informationen zu Aufteilungsstrategien finden Sie unter So funktioniert das Inhalts-Chunking für Wissensdatenbanken.

Unterstützung von Metadaten

Sie können Metadaten als Schlüssel-Wert-Paare an jeden Vektor anhängen. Standardmäßig sind Metadaten filterbar und können in Suchanfragen nach Ähnlichkeit verwendet werden, um nach Bedingungen wie Daten, Kategorien oder Benutzereinstellungen zu filtern.

Sie können Metadaten auch so konfigurieren, dass sie nicht gefiltert werden können, wenn Sie den Vektorindex erstellen. Amazon-S3-Vektorindizes unterstützen die Typen Zeichenfolge, Boolescher Wert und Zahl.

Wenn Sie Amazon S3 Vectors mit Amazon Bedrock Knowledge Bases verwenden, können Sie bis zu 1 KB an benutzerdefinierten Metadaten (einschließlich filterbarer und nicht filterbarer Metadaten) und 35 Metadatenschlüssel pro Vektor anhängen. Weitere Informationen zu Größenbeschränkungen für Metadaten pro Vektor finden Sie unter Einschränkungen und Einschränkungen im Amazon S3 S3-Benutzerhandbuch.

Wenn die Metadaten diese Grenzwerte überschreiten, löst der Aufnahmejob beim Auffüllen des Vektorindex eine Ausnahme aus. Weitere Informationen finden Sie unter Amazon S3 Vectors im Amazon-S3-Benutzerhandbuch.

Erforderliche Berechtigungen

Stellen Sie sicher, dass Ihre IAM-Richtlinie Amazon Bedrock den Zugriff auf Ihren Vektorindex im S3-Vektor-Bucket erlaubt. Weitere Informationen zu den erforderlichen Berechtigungen finden Sie unter Erstellen einer Servicerolle für Wissensdatenbanken für Amazon Bedrock.

Erstellen eines S3-Vektor-Buckets und eines Index

Damit Sie Amazon S3 Vectors mit Ihrer Wissensdatenbank verwenden können, müssen Sie einen S3-Vektor-Bucket und einen Vektorindex erstellen. Sie können mit der Amazon S3 S3-Konsole oder dem AWS SDK einen Vektor-Bucket und einen Index erstellen. AWS CLI Eine ausführliche Anleitung finden Sie unter Erstellen eines Vektorindex im Amazon-S3-Benutzerhandbuch.

Beachten Sie die folgenden Überlegungen, wenn Sie Ihren Vektor-Bucket und Index in der Amazon-S3-Konsole erstellen.

Beachten Sie beim Erstellen Ihres S3-Vektor-Buckets die folgenden Überlegungen.
- Geben Sie einen eindeutigen Namen des Vektor-Buckets an.
- (Optional) Amazon S3 verschlüsselt die Daten automatisch mit der Server-side Standardverschlüsselung mit verwalteten Amazon S3 S3-Schlüsseln (SSE-S3). Sie können wählen, ob Sie stattdessen diese Standardverschlüsselung oder die Server-side Verschlüsselung mit AWS Key Management Service-Schlüsseln (SSE-KMS) verwenden möchten.
  
  Anmerkung
  Der Verschlüsselungstyp kann nach dem Anlegen des Vektor-Buckets nicht mehr geändert werden.
  
  Eine schrittweise Anleitung finden Sie unter Verschlüsselung mit AWS KMS-Schlüsseln.
Nachdem Sie den S3-Vektor-Bucket erstellt haben, notieren Sie sich den Amazon-Ressourcennamen (ARN) des Vektor-Buckets für die Erstellung der Wissensdatenbank.

Wählen Sie den Vektor-Bucket aus, den Sie angelegt haben, und erstellen Sie dann einen Vektorindex. Beachten Sie beim Erstellen des Vektorindex die folgenden Überlegungen.

Name des Vektorindex – Geben Sie einen Namen für das Feld ein (z. B. embeddings).

Dimension – Hiermit wird die Anzahl der Dimensionen im Vektor festgelegt. Die Dimensionen müssen als Wert zwischen 1 und 4 096 eingegeben werden. Bestimmen Sie anhand der folgenden Tabelle, wie viele Dimensionen der Vektor auf der Grundlage des ausgewählten Einbettungsmodells enthalten soll:

Modell	Dimensionen
Titan G1 Einbettungen – Text	1 536
Titan V2 Einbettungen – Text	1 024, 512 und 256
Cohere Embed English	1,024
Cohere Embed Multilingual	1,024

Anmerkung
Amazon S3 Vectors unterstützt nur Gleitkomma-Einbettungen. Binäre Einbettungen werden nicht unterstützt.

Entfernungsmetrik – Die Metrik, die verwendet wird, um die Ähnlichkeit zwischen Vektoren zu messen. Sie können Kosinus oder Euklidisch verwenden.

Erweitern Sie die zusätzlichen Einstellungen und geben Sie alle nicht filterbaren Metadaten in das Non-filterable Metadatenfeld ein.

Sie können bis zu 10 nicht filterbare Metadatenschlüssel konfigurieren. Wählen Sie Schlüssel hinzufügen aus und fügen Sie AMAZON_BEDROCK_TEXT und AMAZON_BEDROCK_METADATA als Schlüssel hinzu.
Wählen Sie unter Verschlüsselung die Option Verschlüsselungstyp angeben aus. Sie haben die Möglichkeit, Bucket-Einstellungen für die Verschlüsselung zu verwenden oder die Verschlüsselungseinstellungen für den Vektorindex zu überschreiben. Wenn Sie die Einstellungen auf Bucket-Ebene überschreiben, haben Sie die Möglichkeit, den Verschlüsselungstyp für den Vektorindex als Server-side Verschlüsselung mit AWS Key Management Service-Schlüsseln (SSE-KMS) oder als Server-side Standardverschlüsselung mit verwalteten Amazon S3 S3-Schlüsseln (SSE-S3) anzugeben. Weitere Informationen zur Einstellung der Verschlüsselungskonfiguration für Vektorindizes finden Sie unter Datenschutz und Verschlüsselung in Amazon S3 Vectors.
Unter Tags (optional) können Sie Tags als Schlüssel-Wert-Paare hinzufügen, um die Vektorindexkosten mithilfe von AWS Billing and Cost Management nachzuverfolgen und zu organisieren. Geben Sie einen Key (Schlüssel) und einen Value (Wert) ein. Um ein weiteres Tag hinzuzufügen, wählen Sie Add Tag (Tag hinzufügen). Sie können bis zu 50 Tags für einen Vektorindex eingeben. Weitere Informationen finden Sie unter Verwenden von Tags mit Amazon S3 S3-Vektorindizes.
Erstellen Sie den Vektorindex und notieren Sie sich den Amazon-Ressourcennamen (ARN) des Vektorindex für die spätere Erstellung der Wissensdatenbank.

Erstellen einer Wissensdatenbank für den S3-Vektor-Bucket

Nachdem Sie diese Informationen zusammengetragen haben, können Sie mit der Erstellung Ihrer Wissensdatenbank fortfahren. Wenn Sie Ihre Wissensdatenbank mit dem S3-Vektor-Bucket erstellen, müssen Sie den ARN des Vektor-Buckets und den Vektorindex angeben. Der Vektorindex speichert die Einbettungen, die aus Ihren Datenquellen generiert wurden. In der folgenden Tabelle ist zusammengefasst, wo Sie die einzelnen Informationen eingeben:

Feld	Entsprechendes Feld in der Einrichtung der Wissensdatenbank (Konsole)	Entsprechendes Feld in der Einrichtung der Wissensdatenbank (API)	Description
ARN des Vektor-Buckets	ARN des S3-Vektor-Buckets	Vektor BucketArn	Der Amazon-Ressourcenname (ARN) Ihres S3-Vektor-Buckets
ARN des Vektorindex	ARN des S3-Vektorindex	vectorIndexARN	Der Amazon-Ressourcenname (ARN) des Vektorindex Ihres S3-Vektor-Buckets

Amazon Aurora (RDS)

Erstellen Sie einen Datenbank-Cluster (DB-Cluster), ein Schema und eine Tabelle von Amazon Aurora, indem Sie die Schritte unter Verwenden von Aurora PostgreSQL als Wissensdatenbank befolgen. Wenn Sie die Tabelle erstellen, konfigurieren Sie sie mit den folgenden Spalten und Datentypen. Sie können anstelle der in der obigen Tabelle aufgeführten Spaltennamen eigene Namen verwenden. Notieren Sie sich die von Ihnen ausgewählten Spaltennamen, damit Sie sie bei der Einrichtung der Wissensdatenbank angeben können.

Sie müssen diese Felder angeben, bevor Sie die Wissensdatenbank erstellen. Die Felder können nicht aktualisiert werden, nachdem die Wissensdatenbank erstellt wurde.

Wichtig

Der Aurora-Cluster muss sich in demselben befinden AWS-Konto wie der, in dem die Wissensdatenbank für Amazon Bedrock erstellt wurde.

Name der Spalte	Datentyp	Entsprechendes Feld in der Einrichtung der Wissensdatenbank (Konsole)	Entsprechendes Feld in der Einrichtung der Wissensdatenbank (API)	Description
id	UUID-Primärschlüssel	Primärschlüssel	`primaryKeyField`	Enthält eindeutige Bezeichner für jeden Datensatz.
Einbettung	Vektor	Vektorfeld	`vectorField`	Enthält die Vektoreinbettungen der Datenquellen.
Blöcke	Text	Textfeld	`textField`	Enthält die Rohtextblöcke aus Ihren Datenquellen.
Metadaten	JSON	Bedrock-managed Metadatenfeld	`metadataField`	Enthält Metadaten, die für die Quellenzuweisung und die Datenerfassung und -abfrage erforderlich sind
custom_metadata	JSONB	Feld „Benutzerdefinierte Metadaten“	`customMetadataField`	Optionales Feld, das die Spalte angibt, in die Amazon Bedrock sämtliche Informationen aller Metadatendateien aus Ihren Datenquellen schreibt.

Sie müssen einen Index für Spalten, Vektor und Text für Ihre Text- und Einbettungsfelder erstellen. Wenn Sie das Feld „Benutzerdefinierte Metadaten“ verwenden, müssen Sie auch einen GIN-Index für diese Spalte erstellen. GIN-Indizes können verwendet werden, um effizient nach Schlüssel-Wert-Paaren in JSONB-Dokumenten für die Metadatenfilterung zu suchen. Weitere Informationen finden Sie unter JSONB-Indizierung in der PostgreSQL-Dokumentation.

Name der Spalte	Index erstellen für	Erforderlich?
embedding	`CREATE INDEX ON bedrock_integration.bedrock_kb USING hnsw (embedding vector_cosine_ops);`	Ja
Blöcke	`CREATE INDEX ON bedrock_integration.bedrock_kb USING gin (to_tsvector('simple', chunks));`	Ja
Benutzerdefinierte Metadaten	`CREATE INDEX ON bedrock_integration.bedrock_kb USING gin (custom_metadata);`	Nur wenn Sie die Spalte für benutzerdefinierte Metadaten erstellt haben.

Anmerkung

Um die Genauigkeit und Latenz bei der Hybridsuche mit englischen Inhalten zu verbessern, sollten Sie das Wörterbuch „Englisch“ anstelle von „einfach“ verwenden:


CREATE INDEX ON bedrock_integration.bedrock_kb USING gin (to_tsvector('english', chunks));

Anmerkung

Wenn Sie die Metadatenfilterung in Ihrer Wissensdatenbank verwenden, empfehlen wir, iterative HNSW-Indexscans zu aktivieren (erfordert pgvector 0.8.0 oder höher). Ohne iterative Scans können selektive Metadatenfilter weniger Ergebnisse als erwartet liefern, da die Filterung erst nach dem HNSW-Indexscan angewendet wird. Iterative Scans scannen automatisch einen größeren Teil des Index, bis genügend gefilterte Ergebnisse gefunden wurden.


ALTER DATABASE your_database SET hnsw.iterative_scan = 'relaxed_order';
ALTER DATABASE your_database SET hnsw.max_scan_tuples = 20000;

Diese Einstellungen bleiben auf Datenbankebene bestehen, werden jedoch nur für neue Sitzungen wirksam. Wenn Sie die RDS-Daten-API verwenden, warten Sie einige Minuten, bis die Verbindungspool-Sitzungen wiederverwendet werden, bevor die Einstellungen wirksam werden.

(Optional) Wenn Sie Ihren Dateien Metadaten zum Filtern hinzugefügt haben, empfehlen wir Ihnen, den Spaltennamen im Feld „Benutzerdefinierte Metadaten“ anzugeben, um all Ihre Metadaten in einer einzigen Spalte zu speichern. Während der Datenerfassung wird diese Spalte mit allen in den Metadatendateien enthaltenen Informationen aus Ihren Datenquellen gefüllt. Wenn Sie dieses Feld angeben möchten, müssen Sie einen GIN-Index für diese Spalte erstellen.
Anmerkung
Wenn Sie häufig Bereichsfilter für numerische Metadaten verwenden, erstellen Sie zur Optimierung der Leistung einen Index für den jeweiligen Schlüssel. Wenn Sie beispielsweise Filter wie "lessThan": { "key": "year", "value": 1989 } verwenden, erstellen Sie einen Ausdrucksindex für den Schlüssel year. Weitere Informationen finden Sie unter Indizes für Ausdrücke in der PostgreSQL-Dokumentation.
```
CREATE INDEX ON your_table ((custom_metadata->>'year')::double precision
```
Wenn Sie diesen Feldnamen nicht angeben, können Sie alternativ für jedes Metadatenattribut in Ihren Dateien eine Spalte erstellen und den Datentyp (Text, Zahl oder Boolescher Wert) angeben. Wenn das Attribut genre beispielsweise in Ihrer Datenquelle vorhanden ist, würden Sie eine Spalte mit dem Namen genre und der Angabe text als Datentyp hinzufügen. Während der Datenerfassung werden diese separaten Spalten mit den entsprechenden Attributwerten gefüllt.
Konfigurieren Sie ein AWS Secrets Manager Geheimnis für Ihren Aurora-DB-Cluster, indem Sie die Schritte unter Passwortverwaltung mit Amazon Aurora und befolgen AWS Secrets Manager.

Notieren Sie sich die folgenden Informationen, nachdem Sie Ihren DB-Cluster erstellt und das Geheimnis eingerichtet haben.

Feld in der Einrichtung der Wissensdatenbank (Konsole)	Feld in der Einrichtung der Wissensdatenbank (API)	Description
ARN des Amazon-Aurora-DB-Clusters	resourceArn	Der ARN Ihres DB-Clusters
Datenbankname	databaseName	Der Name Ihrer Datenbank
Name der Tabelle	tableName	Der Name der Tabelle Ihrem DB-Cluster
ARN des Geheimnisses	Anmeldeinformationen SecretArn	Der ARN des AWS Secrets Manager Schlüssels für Ihren DB-Cluster

Neptune Analytics graphs (GraphRAG)

Wenn Sie ein Diagramm und einen Vektorspeicher in Neptune Analytics in der AWS Management Console erstellen möchten, folgen Sie den Schritten, die unter Vektorindizierung in Neptune Analytics im Neptune-Analytics-Benutzerhandbuch beschrieben sind.

Anmerkung

Wenn Sie Neptune GraphRAG verwenden möchten, erstellen Sie ein leeres Neptune-Analytics-Diagramm mit einem Vektorsuchindex. Der Vektorsuchindex kann nur erstellt werden, wenn das Diagramm angelegt wurde. Wenn Sie ein Neptune-Analytics-Diagramm in der Konsole erstellen, geben Sie gegen Ende des Vorgangs die Indexdimension unter Einstellungen für die Vektorsuche an.

Beachten Sie beim Erstellen des Diagramms die folgenden Überlegungen:

Geben Sie dem Diagramm einen Namen Ihrer Wahl.
Wählen Sie unter Datenquelle die Option Leeren Graphen erstellen aus und geben Sie die Anzahl der m-NCUs an, die zugewiesen werden sollen. Jede m-NCU verfügt über etwa ein GiB Speicherkapazität und entsprechende Rechen- und Netzwerkfunktionen.

Anmerkung
Die Kapazität Ihres Diagramms kann später geändert werden. Wir empfehlen, mit der kleinsten Instance zu beginnen und später, falls erforderlich, eine andere Instance auszuwählen.
Sie können die Standardeinstellungen für die Netzwerkkonnektivität beibehalten. Amazon Bedrock stellt eine Netzwerkverbindung zum Neptune-Analytics-Diagramm her, mit dem Sie die Wissensdatenbank verknüpfen. Sie müssen keine öffentliche Konnektivität oder privaten Endpunkte für Ihr Diagramm konfigurieren.

Wählen Sie unter Einstellungen für die Vektorsuche die Option Vektordimension verwenden aus und geben Sie die Anzahl der Dimensionen in jedem Vektor an.

Anmerkung

Die Anzahl der Dimensionen in jedem Vektor muss mit den Vektordimensionen im Einbettungsmodell übereinstimmen. Bestimmen Sie anhand der folgenden Tabelle, wie viele Dimensionen der Vektor enthalten soll:

Modell	Dimensionen
Titan G1 Einbettungen – Text	1 536
Titan V2 Einbettungen – Text	1 024, 512 und 256
Cohere Embed English	1,024
Cohere Embed Multilingual	1,024

Übernehmen Sie für alle anderen Einstellungen die Standardwerte und erstellen Sie das Diagramm.

Sobald das Diagramm erstellt wurde, wählen Sie es aus, um die Ressourcen-ARN - und Vector-Dimensionen für die Erstellung der Wissensdatenbank zu berücksichtigen. Achten Sie bei der Auswahl des Einbettungsmodells in Amazon Bedrock darauf, dass Sie ein Modell mit denselben Dimensionen wie die Vektordimensionen auswählen, die Sie in Ihrem Neptune-Analytics-Diagramm konfiguriert haben.

Feld	Entsprechendes Feld in der Einrichtung der Wissensdatenbank (Konsole)	Entsprechendes Feld in der Einrichtung der Wissensdatenbank (API)	Description
Graph-ARN	Graph-ARN von Neptune Analytics	graphARN	Der Amazon-Ressourcenname (ARN) des Neptune-Analytics-Diagramms
Verwaltung von Metadaten (erstes Feld „Mapping“)	Textfeldname	textField	Der Name des Feldes, in dem der Rohtext aus Ihren Datenquellen gespeichert werden soll Sie können einen beliebigen Wert für dieses Feld angeben, z. B. Text.
Verwaltung von Metadaten (zweites Feld „Mapping“)	Bedrock-managed Metadatenfeld	metadataField	Der Name des Feldes, in dem Metadaten gespeichert werden sollen, die Amazon Bedrock verwaltet Sie können einen beliebigen Wert für dieses Feld angeben, z. B. Metadaten.

Tannenzapfen

Anmerkung

Wenn Sie nutzenPinecone, erklären Sie sich damit einverstanden, in Ihrem Namen AWS auf die angegebene Drittanbieter-Quelle zuzugreifen, um Ihnen Vector Store-Dienste zur Verfügung zu stellen. Sie sind dafür verantwortlich, alle Bedingungen Dritter einzuhalten, die für die Nutzung und Übertragung von Daten aus dem Drittanbieter-Service gelten.

Eine ausführliche Dokumentation zur Einrichtung eines Vektorspeichers in Pinecone finden Sie unter Pinecone als Wissensdatenbank für Amazon Bedrock.

Notieren Sie sich beim Einrichten des Vektorspeichers die folgenden Informationen, die Sie später beim Erstellen einer Wissensdatenbank angeben.

Endpunkt-URL – Die Endpunkt-URL für Ihre Indexverwaltungsseite
Credentials Secret ARN — Der Amazon-Ressourcenname (ARN) des Geheimnisses, das Sie erstellt haben und das den Benutzernamen und das Passwort für einen Datenbankbenutzer enthält. AWS Secrets Manager
(Optional) Customer-managed KMS-Schlüssel für Ihre Anmeldeinformationen geheimer ARN — Wenn Sie Ihren geheimen ARN für Anmeldeinformationen verschlüsselt haben, geben Sie den KMS-Schlüssel an, damit Amazon Bedrock ihn entschlüsseln kann.
Namespace – (Optional) Der Namespace, der verwendet werden soll, um neue Daten in Ihre Datenbank zu schreiben. Weitere Informationen finden Sie unter Verwenden von Namespaces.

Es gibt zusätzliche Konfigurationen, die Sie bei der Erstellung eines Pinecone-Index angeben müssen:

Name des Textfeldes – Der Name des Feldes, in dem Amazon Bedrock den Rohtextblock speichern soll
Name des Metadatenfeldes – Der Name des Feldes, in dem Amazon Bedrock Metadaten zur Quellzuweisung speichern soll

Sie müssen Amazon Bedrock Ihren Pinecone-API-Schlüssel über AWS Secrets Manager zur Verfügung stellen, um auf den Pinecone-Index zuzugreifen.

Um ein Geheimnis für Ihr einzurichten Tannenzapfen configuration

Folgen Sie den Schritten unter Create an AWS Secrets Manager secret und legen Sie den Schlüssel apiKey und den Wert als API-Schlüssel fest, um auf Ihren Pinecone Index zuzugreifen.
Sie finden Ihren API-Schlüssel, indem Sie die Pinecone-Konsole öffnen und API-Schlüssel auswählen.
Nachdem Sie das Geheimnis erstellt haben, notieren Sie sich den ARN des KMS-Schlüssels.
Ordnen Sie Ihrer Servicerolle Berechtigungen zu, um den ARN des KMS-Schlüssels zu entschlüsseln, indem Sie die Schritte unter Berechtigungen zum Entschlüsseln eines AWS Secrets Manager geheim für den Vektorspeicher, der Ihre Wissensdatenbank enthält befolgen.
Geben Sie den ARN später beim Erstellen Ihrer Wissensdatenbank in das Feld Anmeldeinformationen – Geheimer ARN ein.

Redis Enterprise Cloud

Anmerkung

Wenn Sie nutzenRedis Enterprise Cloud, erklären Sie sich damit einverstanden, in Ihrem Namen AWS auf die angegebene Drittanbieter-Quelle zuzugreifen, um Ihnen Vector Store-Dienste zur Verfügung zu stellen. Sie sind dafür verantwortlich, alle Bedingungen Dritter einzuhalten, die für die Nutzung und Übertragung von Daten aus dem Drittanbieter-Service gelten.

Eine ausführliche Dokumentation zur Einrichtung eines Vektorspeichers in Redis Enterprise Cloud finden Sie unter Integration von Redis Enterprise Cloud in Amazon Bedrock.

Notieren Sie sich beim Einrichten des Vektorspeichers die folgenden Informationen, die Sie später beim Erstellen einer Wissensdatenbank angeben.

Endpunkt-URL – Die öffentliche Endpunkt-URL für Ihre Datenbank
Name des Vektorindex – Der Name des Vektorindex für Ihre Datenbank

Vektorfeld – Das Feld, in dem die Vektoreinbettungen gespeichert werden Bestimmen Sie anhand der folgenden Tabelle, wie viele Dimensionen der Vektor enthalten soll.

Modell	Dimensionen
Titan G1 Einbettungen – Text	1 536
Titan V2 Einbettungen – Text	1 024, 512 und 256
Cohere Embed English	1,024
Cohere Embed Multilingual	1,024

Textfeld – Der Name des Feldes, in dem Amazon Bedrock den Rohtextblöcke speichern soll
Bedrock-managed Metadatenfeld — Der Name des Felds, in dem Amazon Bedrock Metadaten zu Ihrer Wissensdatenbank speichert.

Sie müssen Amazon Bedrock die Sicherheitskonfiguration von Redis Enterprise Cloud über AWS Secrets Manager zur Verfügung stellen, um auf Ihren Cluster von Redis Enterprise Cloud zuzugreifen.

Um ein Geheimnis für Ihr einzurichten Redis Enterprise Cloud configuration

Aktivieren Sie TLS, um Ihre Datenbank mit Amazon Bedrock zu verwenden, indem Sie die Schritte unter Transport Layer Security (TLS) befolgen.
Folgen Sie den Schritten unter Create an AWS Secrets Manager Secret. Richten Sie die folgenden Schlüssel mit den entsprechenden Werten aus Ihrer Konfiguration von Redis Enterprise Cloud im Secret ein:
- username – Der Benutzername für den Zugriff auf Ihre Datenbank von Redis Enterprise Cloud. Ihren Benutzernamen finden Sie in der Redis-Konsole im Abschnitt Sicherheit Ihrer Datenbank.
- password – Das Passwort für den Zugriff auf Ihre Datenbank von Redis Enterprise Cloud. Ihr Passwort finden Sie in der Redis-Konsole im Abschnitt Sicherheit Ihrer Datenbank.
- serverCertificate – Der Inhalt des Zertifikats von der Redis-Cloud-Zertifizierungsstelle. Laden Sie das Serverzertifikat von der Redis-Administratorkonsole herunter, indem Sie den Schritten unter Herunterladen von Zertifikaten folgen.
- clientPrivateKey – Der private Schlüssel von der Redis-Cloud-Zertifizierungsstelle. Laden Sie das Serverzertifikat von der Redis-Administratorkonsole herunter, indem Sie den Schritten unter Herunterladen von Zertifikaten folgen.
- clientCertificate – Der öffentliche Schlüssel von der Redis-Cloud-Zertifizierungsstelle. Laden Sie das Serverzertifikat von der Redis-Administratorkonsole herunter, indem Sie den Schritten unter Herunterladen von Zertifikaten folgen.
Nachdem Sie das Secret erstellt haben, notieren Sie sich den entsprechenden ARN. Geben Sie den ARN später beim Erstellen Ihrer Wissensdatenbank in das Feld Anmeldeinformationen – geheimer ARN ein.

MongoDB Atlas

Anmerkung

Wenn Sie MongoDB Atlas verwenden, erklären Sie sich damit einverstanden, AWS in Ihrem Namen auf die angegebene Drittanbieterquelle zuzugreifen, um Ihnen Vector Store-Dienste bereitzustellen. Sie sind dafür verantwortlich, alle Bedingungen Dritter einzuhalten, die für die Nutzung und Übertragung von Daten aus dem Drittanbieter-Service gelten.

Eine ausführliche Dokumentation zur Einrichtung eines Vektorspeichers in MongoDB Atlas finden Sie unter Starten eines vollständig verwalteten RAG-Workflows mit MongoDB Atlas und Amazon Bedrock.

Notieren Sie sich beim Einrichten des Vektorspeichers die folgenden Informationen, die Sie später beim Erstellen einer Wissensdatenbank hinzufügen:

Endpunkt-URL – Die Endpunkt-URL Ihres MongoDB-Atlas-Clusters
Datenbankname – Der Name der Datenbank in Ihrem MongoDB-Atlas-Cluster
Name der Sammlung – Der Name der Sammlung in Ihrer Datenbank
Credentials Secret ARN — Der Amazon-Ressourcenname (ARN) des Geheimnisses, das Sie erstellt haben und AWS Secrets Manager das den Benutzernamen und das Passwort für einen Datenbankbenutzer in Ihrem MongoDB Atlas-Cluster enthält. Das Secret muss Schlüssel mit dem Namen username und password enthalten.
(Optional) Customer-managed KMS-Schlüssel für Ihre Anmeldeinformationen geheimer ARN — Wenn Sie Ihren geheimen ARN für Anmeldeinformationen verschlüsselt haben, geben Sie den KMS-Schlüssel an, damit Amazon Bedrock ihn entschlüsseln kann.

Es gibt zusätzliche Konfigurationen für Feldzuordnung, die Sie beim Erstellen eines MongoDB-Atlas-Index angeben müssen:

Name des Vektorindex – Der Name des MongoDB-Atlas-Vektorsuchindex in Ihrer Sammlung
Name des Vektorfeldes – Der Name des Feldes, in dem Amazon Bedrock Vektoreinbettungen speichern soll
Name des Textfeldes – Der Name des Feldes, in dem Amazon Bedrock den Rohtextblock speichern soll
Name des Metadatenfeldes – Der Name des Feldes, in dem Amazon Bedrock Metadaten zur Quellzuweisung speichern soll
(Optional) Indexname der Textsuche – Der Name des MongoDB-Atlas-Suchindex in Ihrer Sammlung

Wichtig

Wenn Sie beabsichtigen, die Metadatenfilterung mit Ihrer MongoDB-Atlas-Wissensdatenbank zu verwenden, müssen Sie die Filter in Ihrem Vektorindex manuell konfigurieren. Die Metadatenfilterung funktioniert standardmäßig nicht und erfordert eine zusätzliche Einrichtung in Ihrer Konfiguration des MongoDB-Atlas-Vektorindex.

(Optional) Informationen darüber, wie Amazon Bedrock eine Verbindung zu Ihrem MongoDB Atlas-Cluster herstellt AWS PrivateLink, finden Sie unter RAG-Workflow mit MongoDB Atlas mithilfe von Amazon Bedrock.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Voraussetzungen für Ihre Wissensdatenbankdaten

Voraussetzungen für OpenSearch verwaltete Cluster