Unterstützte Features Voraussetzungen Konfiguration der Verbindung

Verbinden mit Amazon S3 für Ihre Wissensdatenbank

Wichtig

Für eine optimierte Abrufgenauigkeit und eine verwaltete Benutzererfahrung empfehlen wir Amazon Bedrock Managed Knowledge Base.

Amazon S3 ist ein Objektspeicherdienst, der Daten als Objekte in Buckets speichert. Sie können eine Verbindung zu Ihrem Amazon S3 S3-Bucket für Ihre Amazon Bedrock-Wissensdatenbank herstellen, indem Sie entweder die AWSManagement-Konsole für Amazon Bedrock oder die CreateDataSourceAPI verwenden (siehe von Amazon Bedrock unterstützte SDKs und). AWS CLI

Unterstützung multimodaler Inhalte

Amazon S3 S3-Datenquellen unterstützen multimodale Inhalte wie Bilder, Audio- und Videodateien. Umfassende Anleitungen zur Arbeit mit multimodalen Inhalten finden Sie unter. Aufbau einer Wissensdatenbank für multimodale Inhalte

Sie können einen kleinen Stapel von Dateien über die Amazon-S3-Konsole oder die API in einen Amazon-S3-Bucket hochladen. Sie können es auch verwenden AWS DataSync, um mehrere Dateien kontinuierlich auf S3 hochzuladen und Dateien nach einem Zeitplan von der lokalen Infrastruktur, dem Edge, einer anderen Cloud oder AWS einem Speicher zu übertragen.

Derzeit werden nur S3-Buckets für allgemeine Zwecke unterstützt.

Anzahl und Größe der durchsuchbaren Dateien sind beschränkt. Weitere Informationen finden Sie unter Kontingente für Wissensdatenbanken.

Unterstützte Features

Dokument-Metadatenfelder
Einschlusspräfixe
Inkrementelle Inhaltssynchronisierung für hinzugefügte, aktualisierte und gelöschte Inhalte

Voraussetzungen

Stellen Sie in Amazon S3 Folgendes sicher:

Notieren Sie sich den URI des Amazon-S3-Buckets, den Amazon-Ressourcennamen (ARN) und die AWS-Konto-ID für den Eigentümer des Buckets. Sie finden den URI und den ARN im Eigenschaftenbereich der Amazon-S3-Konsole. Ihr Bucket muss sich in derselben Region wie Ihre Amazon-Bedrock-Wissensdatenbank befinden. Sie müssen über die Zugriffsberechtigung für diesen Bucket verfügen.

Stellen Sie in Ihrem AWS Konto sicher, dass Sie:

Nehmen Sie die erforderlichen Berechtigungen für die Verbindung mit Ihrer Datenquelle in Ihre AWS Identity and Access Management (IAM) role/permissions -Richtlinie für Ihre Wissensdatenbank auf. Informationen zu den erforderlichen Berechtigungen für diese Datenquelle, um sie Ihrer IAM Wissensdatenbank-Rolle hinzuzufügen, finden Sie unter Berechtigungen für den Zugriff auf Datenquellen.

Anmerkung

Wenn Sie die Konsole verwenden, kann die IAM Rolle mit allen erforderlichen Berechtigungen im Rahmen der Schritte zum Erstellen einer Wissensdatenbank für Sie erstellt werden. Nachdem Sie die Datenquelle konfiguriert und andere Konfigurationen vorgenommen haben, wird die IAM-Rolle mit allen erforderlichen Berechtigungen auf die jeweilige Wissensdatenbank angewendet.

Konfiguration der Verbindung

Zum Herstellen einer Verbindung mit Ihrem Amazon-S3-Bucket müssen Sie die erforderlichen Konfigurationsinformationen angeben, damit Amazon Bedrock auf Ihre Daten zugreifen und nach ihnen suchen kann. Befolgen Sie zudem Voraussetzungen.

Ein Beispiel für eine Konfiguration für diese Datenquelle ist in diesem Abschnitt enthalten.

Weitere Informationen zur Einschlussfiltern, zu Dokument-Metadatenfeldern, zur inkrementellen Synchronisierung und zu deren Funktionsweise finden Sie unter:

Sie können eine separate Datei hinzufügen, die die Dokumentmetadaten fields/attributes für jede Datei in Ihrer Amazon S3 S3-Datenquelle angibt und angibt, ob sie bei der Indizierung der Datenquelle im Vector Store in die Einbettungen aufgenommen werden sollen. Sie können beispielsweise eine Datei im folgenden Format erstellen, sie benennen fileName.extension.metadata.json und in Ihren S3-Bucket hochladen.



{
  "metadataAttributes": {
    "company": {
      "value": {
        "type": "STRING",
        "stringValue": "BioPharm Innovations"
      },
      "includeForEmbedding": true
    },
    "created_date": {
      "value": {
        "type": "NUMBER",
        "numberValue": 20221205
      },
      "includeForEmbedding": true
    },
    "author": {
      "value": {
        "type": "STRING",
        "stringValue": "Lisa Thompson"
      },
      "includeForEmbedding": true
    },
    "origin": {
      "value": {
        "type": "STRING",
        "stringValue": "Overview"
      },
      "includeForEmbedding": true
    }
  }
}

Die Metadatendatei muss denselben Namen wie die zugehörige Quelldokumentdatei verwenden, wobei .metadata.json an das Ende des Dateinamens angehängt wird. Die Metadatendatei muss im selben Ordner oder Speicherort wie die Quelldatei in Ihrem Amazon-S3-Bucket gespeichert werden. Die Datei darf das Limit von 10 KB nicht überschreiten. Informationen zu den unterstützten attribute/field Datentypen und den Filteroperatoren, die Sie auf Ihre Metadatenfelder anwenden können, finden Sie unter Metadaten und Filterung.

Das includeForEmbedding Feld steuert, ob beim Einbetten des Chunks ein Metadatenattribut enthalten ist:

includeForEmbedding: false— Nur der Chunk-Text wird eingebettet und bei der Aufnahme in einen Vektor umgewandelt. Die Metadaten werden weiterhin gespeichert und können gefiltert werden, haben jedoch keinen Einfluss auf die semantischen Suchergebnisse.
includeForEmbedding: true— Das Schlüssel-Wert-Paar der Metadaten wird vor dem Einbetten mit dem Chunk-Text verkettet (z. B.). key1: value1\n\nchunk text Das bedeutet, dass die Metadateninformationen im Einbettungsvektor enthalten sind, sodass Abfragen, die den Metadatenschlüssel oder -wert erwähnen, zur Ähnlichkeitsbewertung beitragen und die Suchrelevanz erhöhen. Das Schlüssel-Wert-Paar für Metadaten ist nicht im Blocktext enthalten, der in den Ergebnissen zurückgegeben wird, sodass sichergestellt wird, dass die Ergebnisse nur den Rohinhalt aus den Quelldateien enthalten.

Sie können auch ein vereinfachtes Format für Metadatenattribute verwenden, wenn Sie das Einbettungsverhalten nicht kontrollieren müssen:


{
    "metadataAttributes": {
        "tag": "value"
    }
}

Beim vereinfachten Format werden die Metadaten zum Filtern gespeichert, sind aber nicht in der Einbettung enthalten (entsprichtincludeForEmbedding: false).

Sie können ein Einschlusspräfix angeben, bei dem es sich um ein Amazon-S3-Pfadpräfix handelt. Dabei können Sie eine S3-Datei oder einen Ordner anstelle des gesamten Buckets verwenden, um den S3-Datenquellen-Connector zu erstellen.

Der Datenquellen-Connector crawlt neue, geänderte und gelöschte Inhalte jedes Mal, wenn Ihre Datenquelle mit Ihrer Wissensdatenbank synchronisiert wird. Amazon Bedrockkann den Mechanismus Ihrer Datenquelle verwenden, um Inhaltsänderungen nachzuverfolgen und Inhalte zu crawlen, die sich seit der letzten Synchronisierung geändert haben. Wenn Sie die Datenquelle zum ersten Mal mit der Wissensdatenbank synchronisieren, werden standardmäßig alle Inhalte synchronisiert.

Um Ihre Datenquelle mit Ihrer Wissensdatenbank zu synchronisieren, verwenden Sie die StartIngestionJobAPI oder wählen Sie Ihre Wissensdatenbank in der Konsole aus und wählen Sie im Bereich Datenquellenübersicht die Option Synchronisieren aus.

Wichtig

Alle Daten, die Sie aus der Datenquelle synchronisieren, stehen allen Personen mit der bedrock:Retrieve-Berechtigung zum Abrufen der Daten zur Verfügung. Dies kann auch alle Daten mit kontrollierten Datenquellenberechtigungen einschließen. Weitere Informationen finden Sie unter Berechtigungen für die Wissensdatenbank.

Console

Verbinden eines Amazon-S3-Buckets mit Ihrer Wissensdatenbank

Befolgen Sie die Schritte unter So erstellen Sie eine Wissensdatenbank, indem Sie in Wissensdatenbanken für Amazon Bedrock eine Verbindung zu einer Datenquelle herstellen und wählen Sie Amazon S3 als Datenquelle aus.
Geben Sie einen Namen für die Datenquelle an.
Geben Sie an, ob sich der Amazon S3 S3-Bucket in Ihrem aktuellen AWS Konto oder einem anderen AWS Konto befindet. Ihr Bucket muss sich in derselben Region wie die Wissensdatenbank befinden.
(Optional) Wenn der Amazon-S3-Bucket mit einem KMS-Schlüssel verschlüsselt ist, geben Sie den Schlüssel an. Weitere Informationen finden Sie unter Berechtigungen zum Entschlüsseln Ihrer AWS KMS Schlüssel für Ihre Datenquellen in Amazon S3.
(Optional) Im Abschnitt Parsing und Chunking von Inhalten können Sie anpassen, wie die Daten analysiert und aufgeteilt werden sollen. Werfen Sie einen Blick auf die folgenden Ressourcen, um mehr über diese Anpassungen zu erfahren:
- Weitere Informationen zu den Parsing-Optionen finden Sie unter Parsing-Optionen für Ihre Datenquelle.
- Weitere Informationen zu Aufteilungsstrategien finden Sie unter So funktioniert das Inhalts-Chunking für Wissensdatenbanken.
  
  Warnung
  Die Aufteilungsstrategie kann nach dem Herstellen einer Verbindung zur Datenquelle nicht mehr geändert werden.
- Weitere Informationen zum Anpassen der Aufteilung Ihrer Daten und der Verarbeitung Ihrer Metadaten mit einer Lambda-Funktion finden Sie unter So verwenden Sie eine benutzerdefinierte Transformations-Lambda-Funktion, um zu bestimmen, wie Ihre Daten aufgenommen werden.
Im Abschnitt Erweiterte Einstellungen können Sie optional Folgendes konfigurieren:
- KMS-Schlüssel für den transienten Datenspeicher. — Sie können die transienten Daten verschlüsseln, während Sie Ihre Daten mit dem Standard Von AWS verwalteter Schlüssel - oder Ihrem eigenen KMS-Schlüssel in Einbettungen konvertieren. Weitere Informationen finden Sie unter Verschlüsselung der vorübergehenden Datenspeicherung während der Datenerfassung.
- Richtlinie zum Löschen von Daten – Sie können die Vektoreinbettungen für die Datenquelle löschen, die standardmäßig im Vektorspeicher enthalten sind, oder die Vektorspeicherdaten beibehalten.
Wählen Sie ein Einbettungsmodell und einen Vektorspeicher aus. Wenn Sie die verbleibenden Schritte sehen möchten, kehren Sie zu So erstellen Sie eine Wissensdatenbank, indem Sie in Wissensdatenbanken für Amazon Bedrock eine Verbindung zu einer Datenquelle herstellen zurück, nachdem Sie die Datenquelle verbunden haben, und fahren Sie mit diesem Schritt fort.

API

Im Folgenden finden Sie ein Beispiel für eine Konfiguration für die Verbindung mit Amazon S3 für die Amazon-Bedrock-Wissensdatenbank. Sie konfigurieren Ihre Datenquelle mithilfe der API mit dem AWS CLI oder einem unterstützten SDK, z. B. Python. Nach dem Aufruf rufen Sie auf CreateKnowledgeBase, CreateDataSourceum Ihre Datenquelle mit Ihren Verbindungsinformationen zu erstellendataSourceConfiguration.

Weitere Informationen zu Anpassungen, die Sie auf die Erfassung anwenden können, indem Sie das optionale vectorIngestionConfiguration-Feld einbeziehen, finden Sie unter So passen Sie die Aufnahme für eine Datenquelle an.

AWS Command Line Interface


aws bedrock-agent create-data-source \
 --name "S3-connector" \
 --description "S3 data source connector for Amazon Bedrock to use content in S3" \
 --knowledge-base-id "your-knowledge-base-id" \
 --data-source-configuration file://s3-bedrock-connector-configuration.json \
 --data-deletion-policy "DELETE" \
 --vector-ingestion-configuration '{"chunkingConfiguration":{"chunkingStrategy":"FIXED_SIZE","fixedSizeChunkingConfiguration":{"maxTokens":100,"overlapPercentage":10}}}'
                    
s3-bedrock-connector-configuration.json
{
    "s3Configuration": {
	    "bucketArn": "arn:aws:s3:::bucket-name",
	    "bucketOwnerAccountId": "000000000000",
	    "inclusionPrefixes": [
	        "documents/"
	    ]
    },
    "type": "S3"	
}

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Verbinden einer Datenquelle

Zusammenfluss