Implementieren Sie einen Blueprint zur Vektorisierung von Streaming-Daten - Amazon Managed Streaming für Apache Kafka

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Implementieren Sie einen Blueprint zur Vektorisierung von Streaming-Daten

In diesem Thema wird beschrieben, wie ein Blueprint für die Vektorisierung von Streaming-Daten bereitgestellt wird.

Stellen Sie einen Blueprint zur Vektorisierung von Streaming-Daten bereit
  1. Stellen Sie sicher, dass die folgenden Ressourcen korrekt eingerichtet sind:

    1. Bereitgestellter oder serverloser MSK Cluster mit einem oder mehreren Themen, die Daten enthalten.

  2. Bedrock-Setup: Zugriff auf das gewünschte Bedrock-Modell. Derzeit werden folgende Bedrock-Modelle unterstützt:

    • Amazon Titan Embeddings G1 – Text

    • Amazon Titan Texteinbettungen V2

    • Amazon Titan Multimodal Embeddings G1

    • Cohere Embed English

    • Cohere Embed Multilingual

  3. AWS OpenSearch Sammlung:

    • Sie können eine Sammlung bereitgestellter oder serverloser OpenSearch Dienste verwenden.

    • Die OpenSearch Servicesammlung muss mindestens einen Index haben.

    • Wenn Sie eine OpenSearch serverlose Sammlung verwenden möchten, stellen Sie sicher, dass Sie eine Vektorsuchsammlung erstellen. Einzelheiten zum Einrichten eines Vektorindex finden Sie unter Voraussetzungen für Ihren eigenen Vektorspeicher als Wissensdatenbank. Weitere Informationen zur Vektorisierung finden Sie unter Erläuterung der Vektordatenbankfunktionen von Amazon OpenSearch Service.

      Anmerkung

      Wenn Sie einen Vektorindex erstellen, müssen Sie den Vektorfeldnamen verwenden. embedded_data

    • Wenn Sie eine OpenSearch bereitgestellte Sammlung verwenden möchten, müssen Sie Ihrer Sammlung die MSF Anwendungsrolle (die die Opensearch-Zugriffsrichtlinie enthält), die durch den Blueprint erstellt wurde, als Hauptbenutzer hinzufügen. OpenSearch Vergewissern Sie sich außerdem, dass die Zugriffsrichtlinie in auf Aktionen „Zulassen“ gesetzt OpenSearch ist. Dies ist erforderlich, um eine detaillierte Zugriffskontrolle zu ermöglichen.

    • Optional können Sie den Zugriff auf das OpenSearch Dashboard aktivieren, um Ergebnisse anzuzeigen. Weitere Informationen finden Sie unter Aktivieren der Zugangskontrolle für Feinkörner.

  4. Melden Sie sich mit einer Rolle an, die aws: CreateStack -Berechtigungen zulässt.

  5. Gehen Sie zum MSF Konsolen-Dashboard und wählen Sie Streaming-Anwendung erstellen aus.

  6. Wählen Sie unter Methode zur Einrichtung der Stream-Verarbeitungsanwendung auswählen die Option Blueprint verwenden aus.

  7. Wählen Sie im Dropdownmenü Blueprints die Option Blueprint für KI-Anwendungen in Echtzeit aus.

  8. Geben Sie die gewünschten Konfigurationen an. Siehe Seitenkonfigurationen erstellen.

  9. Wählen Sie Blueprint bereitstellen aus, um eine CloudFormation Bereitstellung zu starten.

  10. Sobald die CloudFormation Bereitstellung abgeschlossen ist, wechseln Sie zur bereitgestellten Flink-Anwendung. Überprüfen Sie die Runtime-Eigenschaften der Anwendung.

  11. Sie können wählen, ob Sie Runtime-Eigenschaften Ihrer Anwendung ändern/hinzufügen möchten. Einzelheiten zur Konfiguration dieser Eigenschaften finden Sie unter Konfiguration der Runtime-Eigenschaften.

    Anmerkung

    Hinweis:

    Wenn Sie OpenSearch Provisioned verwenden, stellen Sie bitte sicher, dass Sie die Fine-Grain-Zugriffskontrolle aktiviert haben.

    Wenn Ihr bereitgestellter Cluster privat ist, fügen Sie ihn https:// zu Ihrem OpenSearch bereitgestellten VPC Endpunkt hinzu URL und ändern Sie ihn so, dass er auf diesen Endpunkt sink.os.endpoint verweist.

    Wenn Ihr bereitgestellter Cluster öffentlich ist, stellen Sie sicher, dass Ihre MSF Anwendung auf das Internet zugreifen kann. Weitere Informationen finden Sie unter >>>>>> express-brokers-publication-merge type="documentation“ url="managed- flink/latest/java/vpc -internet.html ">Internet- und Dienstzugriff für eine VPC mit dem Internet verbundene Managed Service for Apache Flink-Anwendung.

  12. Wenn Sie mit allen Konfigurationen zufrieden sind, wählen Sie. Run Die Anwendung wird gestartet.

  13. Pumpnachrichten in Ihrem MSK Cluster.

  14. Navigieren Sie zum Opensearch-Cluster und gehen Sie zum OpenSearch Dashboard.

  15. Wählen Sie auf dem Dashboard im linken Menü Discover aus. Sie sollten persistente Dokumente zusammen mit ihren Vektoreinbettungen sehen.

  16. Unter Arbeiten mit Vektorsuchsammlungen erfahren Sie, wie Sie die im Index gespeicherten Vektoren verwenden können.

Seitenkonfigurationen erstellen

In diesem Thema wird das Erstellen von Seitenkonfigurationen beschrieben, auf die bei der Angabe von Konfigurationen für KI-Anwendungs-Blueprints in Echtzeit zurückgegriffen werden kann.

Anwendungsname

Bestehendes Feld inMSF, geben Sie Ihrer Anwendung einen beliebigen Namen.

MSK-Cluster

Wählen Sie den MSK Cluster, den Sie während der Einrichtung erstellt haben, aus der Dropdownliste aus.

Themen

Fügen Sie den Namen der Themen hinzu, die Sie im Setup erstellt haben.

Datentyp des Eingabe-Streams

Wählen Sie „Zeichenfolge“, wenn Sie eine Zeichenketteneingabe für den MSK Stream bereitstellen möchten.

Wählen Sie aus, JSONob die Eingabe im MSK StreamJSON. Schreiben Sie in eingebettete JSON Schlüssel die Namen der Felder in Ihrer Eingabe, JSON deren Wert Sie zur Generierung von Einbettungen an Bedrock senden möchten.

Bedrock-Einbettungsmodell

Wählen Sie eines aus der Liste aus. Stellen Sie sicher, dass Sie Modellzugriff für das von Ihnen gewählte Modell haben, da der Stack sonst ausfallen könnte. Weitere Informationen finden Sie unter Zugriff auf Amazon Bedrock Foundation-Modelle hinzufügen oder entfernen.

OpenSearch Cluster

Wählen Sie den Cluster, den Sie erstellt haben, aus der Dropdownliste aus.

OpenSearch Name des Vektor-Indexes

Wählen Sie den Vektorindex aus, den Sie im obigen Schritt erstellt haben.