Connect zu Amazon S3 her, um Ihre Amazon Bedrock-Wissensdatenbank zu erhalten - Amazon Bedrock

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Connect zu Amazon S3 her, um Ihre Amazon Bedrock-Wissensdatenbank zu erhalten

Amazon S3 ist ein Objektspeicherdienst, der Daten als Objekte in Buckets speichert. Sie können eine Verbindung zu Ihrem Amazon S3 S3-Bucket für Ihre Amazon Bedrock-Wissensdatenbank herstellen, indem Sie entweder AWS Management-Konsole für Amazon Bedrock oder die CreateDataSourceAPI(siehe Amazon Bedrock) unterstützte und SDKs AWS CLI).

Sie können einen kleinen Stapel von Dateien mit der Amazon S3 S3-Konsole oder in einen Amazon S3 S3-Bucket hochladenAPI. Sie können alternativ verwenden AWS DataSyncum mehrere Dateien kontinuierlich auf S3 hochzuladen und Dateien nach einem Zeitplan von lokalen Standorten, Edge-Umgebungen, anderen Clouds zu übertragen oder AWS Speicher.

Derzeit werden nur S3-Buckets für allgemeine Zwecke unterstützt.

Es gibt Beschränkungen für die Anzahl der Dateien und MB pro Datei, die gecrawlt werden können. Informationen zu Wissensdatenbanken finden Sie unter Kontingente.

Unterstützte Features

  • Felder für Dokument-Metadaten

  • Inhaltsfilter zum Einschließen/Ausschließen

  • Inkrementelle Inhaltssynchronisierung für hinzugefügte, aktualisierte und gelöschte Inhalte

Voraussetzungen

Stellen Sie in Amazon S3 sicher, dass Sie:

  • Beachten Sie den Amazon S3 S3-BucketURI, den Amazon-Ressourcennamen (ARN) und den AWS Konto-ID für den Besitzer des Buckets. Sie finden das URI und ARN im Eigenschaftenbereich der Amazon S3 S3-Konsole. Ihr Bucket muss sich in derselben Region wie Ihre Amazon Bedrock-Wissensdatenbank befinden. Sie müssen über die Berechtigung verfügen, auf den Bucket zuzugreifen.

In deinem AWS Stellen Sie sicher, dass Sie:

  • Fügen Sie die erforderlichen Berechtigungen für die Verbindung mit Ihrer Datenquelle in Ihr AWS Identity and Access Management (IAM) Rollen-/Berechtigungsrichtlinie für Ihre Wissensdatenbank. Informationen zu den erforderlichen Berechtigungen für diese Datenquelle, die Sie Ihrer Wissensdatenbank hinzufügen können IAM Rolle finden Sie unter Berechtigungen für den Zugriff auf Datenquellen.

Anmerkung

Wenn Sie die Konsole verwenden, IAM Im Rahmen der Schritte zur Erstellung einer Wissensdatenbank kann eine Rolle mit allen erforderlichen Berechtigungen für Sie erstellt werden. Nachdem Sie Ihre Datenquelle und andere Konfigurationen konfiguriert haben, IAM Die Rolle mit allen erforderlichen Berechtigungen wird auf Ihre spezifische Wissensdatenbank angewendet.

Konfiguration der Verbindung

Um eine Verbindung zu Ihrem Amazon S3 S3-Bucket herzustellen, müssen Sie die erforderlichen Konfigurationsinformationen angeben, damit Amazon Bedrock auf Ihre Daten zugreifen und sie crawlen kann. Sie müssen auch dem folgen. Voraussetzungen

Ein Beispiel für eine Konfiguration für diese Datenquelle ist in diesem Abschnitt enthalten.

Weitere Informationen zu Inklusions-/Ausschlussfiltern, Feldern für Dokumentmetadaten, inkrementeller Synchronisierung und deren Funktionsweise finden Sie unter den folgenden Optionen:

Sie können eine separate Datei hinzufügen, die die Felder/Attribute der Dokumentmetadaten für jede Datei in Amazon S3 angibt. Zum Beispiel das Dokument oscars-coverage_20240310.pdf enthält Nachrichtenartikel, die nach Jahr und Genre kategorisiert werden können. Erstellen Sie für dieses Beispiel Folgendes und laden Sie es in Ihren Bucket hoch oscars-coverage_20240310.pdf.metadata.json file.

{ "metadataAttributes": { "genre": "entertainment", "year": 2024 } }

Die Metadatendatei muss denselben Namen wie die zugehörige Quelldokumentdatei haben, wobei der Name an das Ende des Dateinamens .metadata.json angehängt wird. Die Metadatendatei muss in demselben Ordner oder Speicherort wie die Quelldatei in Ihrem Amazon S3 S3-Bucket gespeichert werden. Die Datei darf das Limit von 10 KB nicht überschreiten. Informationen zu den unterstützten Attribut-/Felddatentypen und den Filteroperatoren, die Sie auf Ihre Metadatenfelder anwenden können, finden Sie unter Metadaten und Filterung.

Sie können das Crawlen bestimmter Inhalte ein- oder ausschließen. Sie können beispielsweise ein Ausschlusspräfix oder ein Muster für reguläre Ausdrücke angeben, um das Crawlen von Dateien zu überspringen, deren Dateiname „privat“ enthält. Sie können auch ein Einschlusspräfix/ein Muster für reguläre Ausdrücke angeben, um bestimmte Inhaltsentitäten oder Inhaltstypen einzubeziehen. Wenn Sie einen Inklusions- und Ausschlussfilter angeben und beide einem Dokument entsprechen, hat der Ausschlussfilter Vorrang und das Dokument wird nicht gecrawlt.

Ein Beispiel für ein Filtermuster, das nur PDF Dateien einschließt: „.*\\ .pdf

Der Datenquellen-Connector crawlt bei jeder Synchronisierung Ihrer Datenquelle mit Ihrer Wissensdatenbank neue, geänderte und gelöschte Inhalte. Amazon Bedrock kann den Mechanismus Ihrer Datenquelle verwenden, um Inhaltsänderungen nachzuverfolgen und Inhalte zu crawlen, die sich seit der letzten Synchronisierung geändert haben. Wenn Sie Ihre Datenquelle zum ersten Mal mit Ihrer Wissensdatenbank synchronisieren, werden alle Inhalte standardmäßig gecrawlt.

Um Ihre Datenquelle mit Ihrer Wissensdatenbank zu synchronisieren, verwenden Sie die StartIngestionJobAPIoder wählen Sie Ihre Wissensdatenbank in der Konsole aus und wählen Sie im Bereich Datenquellenübersicht die Option Synchronisieren aus.

Wichtig

Alle Daten, die Sie aus Ihrer Datenquelle synchronisieren, stehen allen Personen zur Verfügung, die zum bedrock:Retrieve Abrufen der Daten berechtigt sind. Dies kann auch alle Daten mit kontrollierten Datenquellenberechtigungen einschließen. Weitere Informationen finden Sie unter Knowledgebase-Berechtigungen.

Console

Im Folgenden finden Sie ein Beispiel für eine Konfiguration für die Verbindung zu Amazon S3 für Ihre Amazon Bedrock-Wissensdatenbank. Sie konfigurieren Ihre Datenquelle im Rahmen der Schritte zur Erstellung der Wissensdatenbank in der Konsole.

  1. Melden Sie sich an bei AWS Management Console Verwenden Sie eine IAMRolle mit Amazon Bedrock-Berechtigungen und öffnen Sie die Amazon Bedrock-Konsole unter. https://console.aws.amazon.com/bedrock/

  2. Wählen Sie im linken Navigationsbereich Wissensdatenbanken aus.

  3. Wählen Sie im Abschnitt Wissensdatenbanken die Option Wissensdatenbank erstellen aus.

  4. Geben Sie die Details der Wissensdatenbank an.

    1. Geben Sie den Namen der Wissensdatenbank und optional eine Beschreibung an.

    2. Geben Sie den AWS Identity and Access Management Rolle für die erforderlichen Zugriffsberechtigungen, die zum Erstellen einer Wissensdatenbank erforderlich sind.

      Anmerkung

      Das Tool IAM Eine Rolle mit allen erforderlichen Berechtigungen kann im Rahmen der Konsolenschritte zum Erstellen einer Wissensdatenbank für Sie erstellt werden. Nachdem Sie die Schritte zum Erstellen einer Wissensdatenbank abgeschlossen haben, IAM Die Rolle mit allen erforderlichen Berechtigungen wird auf Ihre spezifische Wissensdatenbank angewendet.

    3. Erstellen Sie alle Tags, die Sie Ihrer Wissensdatenbank zuweisen möchten.

    Gehen Sie zum nächsten Abschnitt, um Ihre Datenquelle zu konfigurieren.

  5. Wählen Sie Amazon S3 als Datenquelle und geben Sie die Verbindungskonfigurationsdetails an.

    1. Geben Sie den Namen der Datenquelle an.

    2. Geben Sie an, ob sich Ihr Amazon S3 S3-Bucket in Ihrem aktuellen befindet AWS Konto oder ein anderes AWS Konto.

    3. Suchen Sie von einem vorhandenen Amazon S3 S3-Bucket-Standort aus oder geben Sie den anURI. Sie finden das URI und ARN im Eigenschaftenbereich der Amazon S3 S3-Konsole. Ihr Bucket muss sich in derselben Region wie Ihre Amazon Bedrock-Wissensdatenbank befinden. Sie müssen über die Berechtigung verfügen, auf den Bucket zuzugreifen.

      Sie können wählen, ob Sie Ihren eigenen verwalteten verwenden möchten AWS KMS Schlüssel für die Datenverschlüsselung.

    Überprüfen Sie die erweiterten Einstellungen. Sie können optional die ausgewählten Standardeinstellungen ändern.

  6. Legen Sie in den erweiterten Einstellungen Ihren Schlüssel für die Verschlüsselung transienter Daten und die Richtlinie zum Löschen von Daten fest.

    Wählen Sie in der &Snowconsole; Ihren Auftrag aus der Tabelle. KMS key In den Einstellungen können Sie entweder einen benutzerdefinierten Schlüssel auswählen oder den standardmäßig bereitgestellten Datenverschlüsselungsschlüssel verwenden.

    Bei der Konvertierung Ihrer Daten in Einbettungen Amazon Bedrock verschlüsselt Ihre transienten Daten mit einem Schlüssel, der AWS besitzt und verwaltet standardmäßig. Sie können Ihren eigenen KMS Schlüssel verwenden. Weitere Informationen finden Sie unter Verschlüsselung der vorübergehenden Datenspeicherung während der Datenerfassung.

    Für die Richtlinieneinstellungen zum Löschen von Daten können Sie eine der folgenden Optionen wählen:

    • Löschen: Löscht alle Daten aus Ihrer Datenquelle, die beim Löschen einer Wissensdatenbank- oder Datenquellenressource in Vektoreinbettungen konvertiert wurden. Beachten Sie, dass nicht der Vektorspeicher selbst gelöscht wird, sondern nur die Daten. Dieses Flag wird ignoriert, wenn ein AWS Konto ist gelöscht.

    • Beibehalten: Behält alle Daten aus Ihrer Datenquelle bei, die beim Löschen einer Wissensdatenbank oder Datenquellenressource in Vektoreinbettungen umgewandelt wurden. Beachten Sie, dass der Vektorspeicher selbst nicht gelöscht wird, wenn Sie eine Wissensdatenbank- oder Datenquellenressource löschen.

    Fahren Sie mit der Konfiguration Ihrer Datenquelle fort.

  7. Wählen Sie entweder die Standard- oder die benutzerdefinierte Konfiguration für Chunking und Parsing.

    1. Wenn Sie benutzerdefinierte Einstellungen wählen, wählen Sie eine der folgenden Chunking-Optionen:

      • Chunking mit fester Größe: Inhalt wird in Textblöcke mit der von Ihnen festgelegten ungefähren Token-Größe aufgeteilt. Sie können die maximale Anzahl von Tokens festlegen, die für einen Abschnitt nicht überschritten werden darf, und den Prozentsatz der Überlappungen zwischen aufeinanderfolgenden Blöcken festlegen.

      • Standard-Chunking: Inhalt wird in Textblöcke von bis zu 300 Tokens aufgeteilt. Wenn ein einzelnes Dokument oder ein Inhalt weniger als 300 Token enthält, wird das Dokument nicht weiter aufgeteilt.

      • Hierarchisches Chunking: Inhalt, der in verschachtelten Strukturen aus über- und untergeordneten Blöcken organisiert ist. Sie legen die maximale Größe des übergeordneten Chunk-Tokens und die maximale Größe des untergeordneten Chunk-Tokens fest. Sie legen auch die absolute Anzahl von Überlappungstoken zwischen aufeinanderfolgenden übergeordneten Chunks und aufeinanderfolgenden untergeordneten Chunks fest.

      • Semantisches Chunking: Inhalt, der in semantisch ähnliche Textblöcke oder Satzgruppen unterteilt ist. Sie legen die maximale Anzahl von Sätzen fest, die den Ziel-/aktuellen Satz umgeben, die gruppiert werden sollen (Puffergröße). Sie legen auch den Schwellenwert für das Perzentil am Breakpoint fest, um den Text in sinnvolle Abschnitte zu unterteilen. Beim semantischen Chunking wird ein Basismodell verwendet. Anzeigen von Amazon Bedrock Preisgestaltung für Informationen über die Kosten von Foundation-Modellen.

      • Keine Unterteilung: Jedes Dokument wird als einzelner Textblock behandelt. Möglicherweise möchten Sie Ihre Dokumente vorab verarbeiten, indem Sie sie in separate Dateien aufteilen.

      Anmerkung

      Sie können die Chunking-Strategie nicht ändern, nachdem Sie die Datenquelle erstellt haben.

    2. Sie können wählen, ob Amazon Bedrock Das Basismodell für das Parsen von Dokumenten, um mehr als Standardtext zu analysieren. Sie können beispielsweise Tabellendaten in Dokumenten analysieren, deren Struktur intakt bleibt. Anzeigen von Amazon Bedrock Preisgestaltung für Informationen über die Kosten von Basismodellen.

    3. Sie können wählen, ob Sie eine verwenden möchten AWS Lambda Funktion, mit der Sie Ihre Chunking-Strategie und die Art und Weise, wie die Attribute/Felder Ihrer Dokumentmetadaten behandelt und aufgenommen werden, individuell anpassen können. Stellen Sie die bereit Amazon S3 Bucket-Position für die Eingabe und Ausgabe der Lambda-Funktion.

    Gehen Sie zum nächsten Abschnitt, um Ihren Vector Store zu konfigurieren.

  8. Wählen Sie ein Modell für die Konvertierung Ihrer Daten in Vektoreinbettungen.

    Erstellen Sie einen Vector Store, damit Amazon Bedrock Einbettungen speichern, aktualisieren und verwalten kann. Sie können schnell einen neuen Vektorspeicher erstellen oder aus einem unterstützten Vektorspeicher auswählen, den Sie erstellt haben. Wenn Sie einen neuen Vektorspeicher erstellen, wird eine Amazon OpenSearch Serverless-Vektorsuchsammlung und ein Index mit den erforderlichen Feldern für Sie eingerichtet. Wenn Sie aus einem unterstützten Vektorspeicher auswählen, müssen Sie die Vektorfeldnamen und die Metadatenfeldnamen zuordnen.

    Gehen Sie zum nächsten Abschnitt, um Ihre Wissensdatenbank-Konfigurationen zu überprüfen.

  9. Überprüfen Sie die Details Ihrer Wissensdatenbank. Sie können jeden Abschnitt bearbeiten, bevor Sie Ihre Wissensdatenbank erstellen.

    Anmerkung

    Die Zeit, die für die Erstellung der Wissensdatenbank benötigt wird, hängt von Ihren spezifischen Konfigurationen ab. Wenn die Erstellung der Wissensdatenbank abgeschlossen ist, ändert sich der Status der Wissensdatenbank entweder in den Status „Bereit“ oder „Verfügbar“.

    Sobald Ihre Wissensdatenbank fertig und verfügbar ist, synchronisieren Sie Ihre Datenquelle zum ersten Mal und wann immer Sie Ihre Inhalte auf dem neuesten Stand halten möchten. Wählen Sie Ihre Wissensdatenbank in der Konsole aus und klicken Sie im Bereich Datenquellenübersicht auf Synchronisieren.

API

Im Folgenden finden Sie ein Beispiel für eine Konfiguration für die Verbindung zu Amazon S3 für Ihre Amazon Bedrock-Wissensdatenbank. Sie konfigurieren Ihre Datenquelle API mit dem AWS CLI oder unterstütztSDK, wie Python. Nach dem Aufrufen rufen Sie an CreateKnowledgeBase, CreateDataSourceum Ihre Datenquelle mit Ihren Verbindungsinformationen zu erstellendataSourceConfiguration. Denken Sie daran, auch Ihre Strategie bzw. Ihren Ansatz zur Aufteilung vectorIngestionConfiguration und Ihre Richtlinie zur Datenlöschung unter anzugeben. dataDeletionPolicy

AWS Command Line Interface

aws bedrock create-data-source \ --name "S3 connector" \ --description "S3 data source connector for Amazon Bedrock to use content in S3" \ --knowledge-base-id "your-knowledge-base-id" \ --data-source-configuration file://s3-bedrock-connector-configuration.json \ --data-deletion-policy "DELETE" \ --vector-ingestion-configuration '{"chunkingConfiguration":[{"chunkingStrategy":"FIXED_SIZE","fixedSizeChunkingConfiguration":[{"maxTokens":"100","overlapPercentage":"10"}]}]}' s3-bedrock-connector-configuration.json { "s3Configuration": { "bucketArn": "arn:aws:s3:::bucket-name", "bucketOwnerAccountId": "000000000000", "inclusionPrefixes": [ ".*\\.pdf" ] }, "type": "S3" }