Amazon Managed Service für Apache Flink war zuvor als Amazon Kinesis Data Analytics für Apache Flink bekannt.
Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Lesen Sie die folgenden häufig gestellten Fragen zu Blueprints zum Einbetten von Vektoren in Echtzeit. Weitere Informationen über Blueprints zum Einbetten von Vektoren in Echtzeit finden Sie unter Blueprints zum Einbetten von Vektoren in Echtzeit.
Häufig gestellte Fragen
Was sind meine Aktionen, nachdem die AWS CloudFormation Stack-Bereitstellung abgeschlossen ist?
Wie sollten die Daten in den Amazon MSK-Quellthemen strukturiert sein?
Kann ich Teile einer Nachricht angeben, die eingebettet werden sollen?
Kann ich Regex verwenden, um Amazon MSK-Themennamen zu konfigurieren?
Was ist die maximale Größe einer Nachricht, die aus einem Amazon MSK-Thema gelesen werden kann?
Wie sieht die Ausgabe im konfigurierten OpenSearch Index aus?
Muss ich mit doppelten Einträgen im OpenSearch Index rechnen?
Kann ich mehrere Echtzeit-Vektor-Einbettungsanwendungen in einer einzigen bereitstellen? AWS-Konto
Unterstützt die Anwendung kontenübergreifende Konnektivität?
Unterstützt die Anwendung regionsübergreifende Konnektivität?
Welche Einbettungsmodelle werden von der Anwendung unterstützt?
Kann ich die Leistung meiner Anwendung auf der Grundlage meiner Arbeitslast optimieren?
Welche Amazon MSK-Authentifizierungstypen werden unterstützt?
Was ist sink.os.bulkFlushIntervalMillis und wie stelle ich es ein?
Wird die Anwendung in meinem Namen AWS überwacht und gewartet?
Verschiebt diese Anwendung meine Daten außerhalb meiner AWS-Konto?
Welche AWS Ressourcen werden mit diesem Blueprint erstellt?
Um die in Ihrem Konto bereitgestellten Ressourcen zu finden, navigieren Sie zur AWS CloudFormation Konsole und identifizieren Sie den Stack-Namen, der mit dem Namen beginnt, den Sie für Ihre Managed Service for Apache Flink-Anwendung angegeben haben. Wählen Sie die Registerkarte Ressourcen, um die Ressourcen zu überprüfen, die als Teil des Stacks erstellt wurden. Im Folgenden sind die wichtigsten Ressourcen aufgeführt, die der Stack erstellt:
-
Managed Service zur Vektoreinbettung in Echtzeit für die Apache Flink-Anwendung
-
Amazon S3 S3-Bucket zum Speichern des Quellcodes für die Echtzeit-Vektor-Einbettungsanwendung
-
CloudWatch Protokollgruppe und Protokollstream zum Speichern von Protokollen
-
Lambda-Funktionen zum Abrufen und Erstellen von Ressourcen
-
IAM-Rollen und -Richtlinien für Lambdas, Managed Service für die Apache Flink-Anwendung und den Zugriff auf Amazon Bedrock und Amazon Service OpenSearch
-
Datenzugriffsrichtlinie für Amazon OpenSearch Service
-
VPC-Endpunkte für den Zugriff auf Amazon Bedrock und Amazon Service OpenSearch
Was sind meine Aktionen, nachdem die AWS CloudFormation Stack-Bereitstellung abgeschlossen ist?
Rufen Sie nach Abschluss der AWS CloudFormation Stack-Bereitstellung die Managed Service for Apache Flink-Konsole auf und suchen Sie nach Ihrer Blueprint-Anwendung Managed Service for Apache Flink. Wählen Sie die Registerkarte „Konfigurieren“ und vergewissern Sie sich, dass alle Runtime-Eigenschaften korrekt eingerichtet sind. Sie werden möglicherweise zur nächsten Seite weitergeleitet. Wenn Sie mit den Einstellungen vertraut sind, wählen Sie Ausführen. Die Anwendung beginnt, Nachrichten aus Ihrem Thema aufzunehmen.
Informationen zur Suche nach neuen Versionen finden Sie unter https://github.com/awslabs/real-time-vectorization-of-streaming-data/releases
Wie sollten die Daten in den Amazon MSK-Quellthemen strukturiert sein?
Wir unterstützen derzeit strukturierte und unstrukturierte Quelldaten.
-
Unstrukturierte Daten werden mit in gekennzeichnet.
STRING
source.msk.data.type
Die Daten werden so gelesen, wie sie aus der eingehenden Nachricht stammen. -
Wir unterstützen derzeit strukturierte JSON-Daten, die mit in gekennzeichnet
JSON
sind.source.msk.data.type
Die Daten müssen immer im JSON-Format vorliegen. Wenn die Anwendung ein falsch formatiertes JSON empfängt, schlägt die Anwendung fehl. -
Wenn Sie JSON als Quelldatentyp verwenden, stellen Sie sicher, dass jede Nachricht in allen Quellthemen ein gültiges JSON ist. Wenn Sie mit dieser Einstellung ein oder mehrere Themen abonnieren, die keine JSON-Objekte enthalten, schlägt die Anwendung fehl. Wenn ein oder mehrere Themen eine Mischung aus strukturierten und unstrukturierten Daten enthalten, empfehlen wir, die Quelldaten in der Anwendung Managed Service for Apache Flink als unstrukturiert zu konfigurieren.
Kann ich Teile einer Nachricht angeben, die eingebettet werden sollen?
-
Wo sind unstrukturierte Eingabedaten
source.msk.data.type
?STRING
Die Anwendung bettet immer die gesamte Nachricht ein und speichert die gesamte Nachricht im konfigurierten OpenSearch Index. -
Bei strukturierten Eingabedaten (where
source.msk.data.type
is) können Sie so konfigurierenJSON
,embed.input.config.json.fieldsToEmbed
dass angegeben wird, welches Feld im JSON-Objekt für die Einbettung ausgewählt werden soll. Dies funktioniert nur für JSON-Felder der obersten Ebene und nicht für verschachtelte Nachrichten JSONs und für Nachrichten, die ein JSON-Array enthalten. Verwenden Sie .*, um das gesamte JSON einzubetten.
Kann ich Daten aus mehreren Amazon MSK-Themen lesen?
Ja, mit dieser Anwendung können Sie Daten aus mehreren Amazon MSK-Themen lesen. Daten aus allen Themen müssen vom gleichen Typ sein (entweder STRING oder JSON). Andernfalls kann die Anwendung fehlschlagen. Daten aus allen Themen werden immer in einem einzigen OpenSearch Index gespeichert.
Kann ich Regex verwenden, um Amazon MSK-Themennamen zu konfigurieren?
source.msk.topic.names
unterstützt keine Liste von Regex. Wir unterstützen entweder eine durch Kommas getrennte Liste von Themennamen oder reguläre Ausdrücke, um alle Themen .*
einzubeziehen.
Was ist die maximale Größe einer Nachricht, die aus einem Amazon MSK-Thema gelesen werden kann?
Die maximale Größe einer Nachricht, die verarbeitet werden kann, ist durch das Amazon InvokeModel Bedrock-Textlimit begrenzt, das derzeit auf 25.000.000 festgelegt ist. Weitere Informationen finden Sie unter InvokeModel.
Welcher Typ wird unterstützt? OpenSearch
Wir unterstützen sowohl OpenSearch Domains als auch Sammlungen. Wenn Sie eine OpenSearch Sammlung verwenden, stellen Sie sicher, dass Sie eine Vektorsammlung verwenden, und erstellen Sie einen Vektorindex, der für diese Anwendung verwendet werden soll. Auf diese Weise können Sie die Funktionen der OpenSearch Vektordatenbank für die Abfrage Ihrer Daten verwenden. Weitere Informationen finden Sie unter Erläuterung der Vektordatenbankfunktionen von Amazon OpenSearch Service
Warum muss ich eine Vektorsuchsammlung und einen Vektorindex verwenden und meiner OpenSearch serverlosen Sammlung ein Vektorfeld hinzufügen?
Der Sammlungstyp der Vektorsuche in OpenSearch Serverless bietet eine skalierbare und leistungsstarke Ähnlichkeitssuche. Es vereinfacht die Entwicklung moderner, erweiterter Sucherlebnisse für maschinelles Lernen (ML) und generativer Anwendungen für künstliche Intelligenz (KI). Weitere Informationen finden Sie unter Arbeiten mit Sammlungen zur Vektorsuche.
Was sollte ich als Dimension für mein Vektorfeld festlegen?
Stellen Sie die Dimension des Vektorfeldes auf der Grundlage des Einbettungsmodells ein, das Sie verwenden möchten. Sehen Sie sich die folgende Tabelle an und bestätigen Sie diese Werte aus der jeweiligen Dokumentation.
Modellname zum Einbetten von Amazon Bedrock-Vektoren | Das Modell bietet Unterstützung für Ausgabedimensionen |
---|---|
Amazon Titan Texteinbettungen V1 |
1 536 |
Amazon Titan Texteinbettungen V2 |
1.024 (Standard), 384, 256 |
Amazon Titan Multimodal Embeddings G1 |
1.024 (Standard), 384, 256 |
Cohere Embed English |
1,024 |
Cohere Embed Multilingual |
1,024 |
Wie sieht die Ausgabe im konfigurierten OpenSearch Index aus?
Jedes Dokument im OpenSearch Index enthält folgende Felder:
-
original_data: Die Daten, die zur Generierung von Einbettungen verwendet wurden. Beim Typ STRING ist es die gesamte Nachricht. Bei JSON-Objekten ist es das JSON-Objekt, das für Einbettungen verwendet wurde. Es kann sich um das gesamte JSON in der Nachricht oder um bestimmte Felder im JSON handeln. Wenn der Name beispielsweise so ausgewählt wurde, dass er in eingehende Nachrichten eingebettet werden soll, würde die Ausgabe wie folgt aussehen:
"original_data": "{\"name\":\"John Doe\"}"
-
embedded_data: Ein Vektor-Float-Array von Einbettungen, die von Amazon Bedrock generiert wurden
-
Datum: UTC-Zeitstempel, in dem das Dokument gespeichert wurde OpenSearch
Kann ich Metadatenfelder angeben, die dem im OpenSearch Index gespeicherten Dokument hinzugefügt werden sollen?
Nein, derzeit unterstützen wir nicht das Hinzufügen zusätzlicher Felder zum endgültigen, im OpenSearch Index gespeicherten Dokument.
Muss ich mit doppelten Einträgen im OpenSearch Index rechnen?
Je nachdem, wie Sie Ihre Anwendung konfiguriert haben, werden möglicherweise doppelte Nachrichten im Index angezeigt. Ein häufiger Grund ist der Neustart der Anwendung. Die Anwendung ist standardmäßig so konfiguriert, dass sie ab der ersten Nachricht im Quellthema mit dem Lesen beginnt. Wenn Sie die Konfiguration ändern, wird die Anwendung neu gestartet und verarbeitet alle Nachrichten im Thema erneut. Informationen zur Vermeidung einer erneuten Verarbeitung finden Sie unter Wie verwende ich
Kann ich Daten an mehrere OpenSearch Indizes senden?
Nein, die Anwendung unterstützt das Speichern von Daten in einem einzigen OpenSearch Index. Um die Vektorisierungsausgabe für mehrere Indizes einzurichten, müssen Sie einen separaten Managed Service für Apache Flink-Anwendungen bereitstellen.
Kann ich mehrere Echtzeit-Vektor-Einbettungsanwendungen in einer einzigen bereitstellen? AWS-Konto
Ja, Sie können mehrere Managed Service für Apache Flink-Anwendungen zur Echtzeit-Vektoreinbettung in einer einzigen Anwendung bereitstellen, AWS-Konto sofern jede Anwendung einen eindeutigen Namen hat.
Können mehrere Anwendungen zur Vektoreinbettung in Echtzeit dieselbe Datenquelle oder Datensenke verwenden?
Ja, Sie können mehrere Managed Services für Apache Flink-Anwendungen zur Echtzeit-Vektoreinbettung erstellen, die Daten aus demselben Thema lesen oder Daten im selben Index speichern.
Unterstützt die Anwendung kontenübergreifende Konnektivität?
Nein, damit die Anwendung erfolgreich ausgeführt werden kann, müssen sich der Amazon MSK-Cluster und die OpenSearch Sammlung dort befinden, AWS-Konto wo Sie versuchen, Ihre Managed Service for Apache Flink-Anwendung einzurichten.
Unterstützt die Anwendung regionsübergreifende Konnektivität?
Nein, mit der Anwendung können Sie nur eine Managed Service for Apache Flink-Anwendung mit einem Amazon MSK-Cluster und einer OpenSearch Sammlung in derselben Region wie die Managed Service for Apache Flink-Anwendung bereitstellen.
Können sich mein Amazon MSK-Cluster und meine OpenSearch Sammlung in verschiedenen VPCs Subnetzen befinden?
Ja, wir unterstützen Amazon MSK-Cluster und OpenSearch -Sammlung in verschiedenen VPCs Subnetzen, sofern sie sich in denselben befinden. AWS-Konto Weitere Informationen finden Sie unter (Allgemeine MSF-Fehlerbehebung), um sicherzustellen, dass Ihre Einrichtung korrekt ist.
Welche Einbettungsmodelle werden von der Anwendung unterstützt?
Derzeit unterstützt die Anwendung alle Modelle, die von Bedrock unterstützt werden. Dazu zählen:
-
Amazon Titan Embeddings G1 – Text
-
Amazon Titan Texteinbettungen V2
-
Amazon Titan Multimodal Embeddings G1
-
Cohere Embed English
-
Cohere Embed Multilingual
Kann ich die Leistung meiner Anwendung auf der Grundlage meiner Arbeitslast optimieren?
Ja. Der Durchsatz der Anwendung hängt von einer Reihe von Faktoren ab, die alle von den Kunden gesteuert werden können:
-
AWS MSF KPUs: Die Anwendung wird mit dem Standard-Parallelitätsfaktor 2 und Parallelität pro KPU 1 bereitgestellt, wobei die automatische Skalierung aktiviert ist. Wir empfehlen jedoch, die Skalierung für die Anwendung Managed Service for Apache Flink entsprechend Ihren Workloads zu konfigurieren. Weitere Informationen finden Sie unter Überprüfen der Anwendungsressourcen für Managed Service für Apache Flink.
-
Amazon Bedrock: Je nach dem ausgewählten Amazon Bedrock On-Demand-Modell können unterschiedliche Kontingente gelten. Sehen Sie sich die Service-Kontingente in Bedrock an, um zu sehen, welche Arbeitslast der Service bewältigen kann. Weitere Informationen finden Sie unter Kontingente für Amazon Bedrock.
-
Amazon OpenSearch Service: Darüber hinaus stellen Sie in einigen Situationen möglicherweise fest, dass dies der Engpass in Ihrer Pipeline OpenSearch ist. Informationen zur Skalierung finden Sie unter OpenSearch Skalierung der Größe von Amazon OpenSearch Service-Domains.
Welche Amazon MSK-Authentifizierungstypen werden unterstützt?
Wir unterstützen nur den Authentifizierungstyp IAM MSK.
Was ist sink.os.bulkFlushIntervalMillis
und wie stelle ich es ein?
Beim Senden von Daten an Amazon OpenSearch Service ist das Bulk-Flush-Intervall das Intervall, in dem die Bulk-Anfrage ausgeführt wird, unabhängig von der Anzahl der Aktionen oder der Größe der Anfrage. Der Standardwert ist auf 1 Millisekunde festgelegt.
Die Festlegung eines Aktualisierungsintervalls kann zwar dazu beitragen, sicherzustellen, dass Daten rechtzeitig indexiert werden, kann aber auch zu einem erhöhten Overhead führen, wenn es zu niedrig eingestellt ist. Berücksichtigen Sie bei der Auswahl eines Aktualisierungsintervalls Ihren Anwendungsfall und die Bedeutung einer zeitnahen Indizierung.
Wenn ich meine Managed Service for Apache Flink-Anwendung bereitstelle, ab welchem Punkt im Amazon MSK-Thema beginnt sie, Nachrichten zu lesen?
Die Anwendung beginnt mit dem Lesen von Nachrichten aus dem Amazon MSK-Thema an dem Offset, das durch die in der source.msk.starting.offset
Laufzeitkonfiguration der Anwendung festgelegte Konfiguration festgelegt wurde. Wenn dies nicht explizit festgelegt source.msk.starting.offset
ist, beginnt die Anwendung standardmäßig mit dem Lesen ab der frühesten verfügbaren Nachricht im Thema.
Wie verwende ichsource.msk.starting.offset
?
Setzt s je ource.msk.starting.offset
nach gewünschtem Verhalten explizit auf einen der folgenden Werte:
-
FRÜHEST: Die Standardeinstellung, bei der vom ältesten Offset in der Partition ausgegangen wird. Dies ist vor allem dann eine gute Wahl, wenn:
-
Sie haben neu Amazon MSK-Themen und Verbraucheranwendungen erstellt.
-
Sie müssen Daten erneut abspielen, damit Sie den Status erstellen oder rekonstruieren können. Dies ist relevant, wenn Sie das Muster für die Ereignisbeschaffung implementieren oder wenn Sie einen neuen Service initialisieren, für den eine vollständige Ansicht des Datenverlaufs erforderlich ist.
-
-
AKTUELL: Die Anwendung Managed Service for Apache Flink liest Nachrichten vom Ende der Partition. Wir empfehlen diese Option, wenn Sie nur daran interessiert sind, dass neue Nachrichten erstellt werden, und wenn Sie keine historischen Daten verarbeiten müssen. In dieser Einstellung ignoriert der Verbraucher die vorhandenen Nachrichten und liest nur neue Nachrichten, die vom ursprünglichen Hersteller veröffentlicht wurden.
-
COMMITTED: Die Anwendung Managed Service for Apache Flink beginnt, Nachrichten aus dem festgeschriebenen Offset der konsumierenden Gruppe zu konsumieren. Wenn der festgeschriebene Offset nicht existiert, wird die EARLEOST-Reset-Strategie verwendet.
Welche Chunking-Strategien werden unterstützt?
Wir verwenden die Langchain-BibliothekmaxSegmentSizeInChars
Wir unterstützen die folgenden fünf Chunking-Typen:
-
SPLIT_BY_CHARACTER
: Passt so viele Zeichen wie möglich in jeden Chunk, wobei die Länge jedes Chunks nicht größer als ist. maxSegmentSize InChars Leerzeichen sind ihm egal, daher können Wörter abgeschnitten werden. -
SPLIT_BY_WORD
: Findet Leerzeichen zum Abteilen. Es werden keine Wörter abgeschnitten. -
SPLIT_BY_SENTENCE
: Satzgrenzen werden mithilfe der Apache OpenNLP-Bibliothek mit dem englischen Satzmodell erkannt. -
SPLIT_BY_LINE
: Findet neue Zeilenzeichen zum Abteilen. -
SPLIT_BY_PARAGRAPH
: Findet aufeinanderfolgende neue Zeilenzeichen, nach denen aufgeteilt werden kann.
Bei den Splitting-Strategien wird auf die vorherige Reihenfolge zurückgegriffen, während bei den größeren Chunking-Strategien eher SPLIT_BY_PARAGRAPH
zurückgegriffen wird. SPLIT_BY_CHARACTER
Wenn beispielsweise eine Zeile zu lang istSPLIT_BY_LINE
, wird die Zeile satzweise unterteilt, wobei jeder Abschnitt in so viele Sätze wie möglich passt. Wenn es Sätze gibt, die zu lang sind, werden sie auf Wortebene aufgeteilt. Wenn ein Wort zu lang ist, wird es nach Zeichen aufgeteilt.
Wie lese ich Datensätze in meinem Vektordatenspeicher?
-
Wann ist
source.msk.data.type
STRING
-
original_data: Die gesamte ursprüngliche Zeichenfolge aus der Amazon MSK-Nachricht.
-
embedded_data: Einbettungsvektor, der erstellt wurde,
chunk_data
wenn er nicht leer ist (Chunking angewendet), oder der erstellt wurde, wenn kein Chunking angewendet wurde.original_data
-
chunk_data: Nur vorhanden, wenn die Originaldaten aufgeteilt wurden. Enthält den Teil der ursprünglichen Nachricht, der zur Erstellung der Einbettung in verwendet wurde.
embedded_data
-
-
Wann ist
source.msk.data.type
JSON
-
original_data: Das gesamte ursprüngliche JSON aus der Amazon MSK-Nachricht, nachdem die JSON-Schlüsselfilterung angewendet wurde.
-
embedded_data: Einbettungsvektor, der erstellt wurde,
chunk_data
wenn er nicht leer ist (Chunking angewendet), oder erstellt, wenn kein Chunking angewendet wurde.original_data
-
chunk_key: Nur vorhanden, wenn die Originaldaten aufgeteilt wurden. Enthält den JSON-Schlüssel, aus dem der Chunk stammt.
original_data
Zum Beispiel kann es wiejsonKey1.nestedJsonKeyA
bei verschachtelten Schlüsseln oder Metadaten aussehen.original_data
-
chunk_data: Nur vorhanden, wenn die Originaldaten aufgeteilt wurden. Enthält den Teil der ursprünglichen Nachricht, der zur Erstellung der Einbettung in verwendet wurde.
embedded_data
-
Ja, mit dieser Anwendung können Sie Daten aus mehreren Amazon MSK-Themen lesen. Daten aus allen Themen müssen vom gleichen Typ sein (entweder STRING oder JSON). Andernfalls kann die Anwendung fehlschlagen. Daten aus allen Themen werden immer in einem einzigen OpenSearch Index gespeichert.
Wo finde ich neue Updates für den Quellcode?
Kann ich die AWS CloudFormation Vorlage ändern und die Anwendung Managed Service for Apache Flink aktualisieren?
Nein, durch eine Änderung an der AWS CloudFormation Vorlage wird die Anwendung Managed Service for Apache Flink nicht aktualisiert. Jede neue Änderung AWS CloudFormation bedeutet, dass ein neuer Stack bereitgestellt werden muss.
Wird die Anwendung in meinem Namen AWS überwacht und gewartet?
Nein, AWS ich werde diese Anwendung nicht in Ihrem Namen überwachen, skalieren, aktualisieren oder patchen.
Verschiebt diese Anwendung meine Daten außerhalb meiner AWS-Konto?
Alle Daten, die von der Anwendung Managed Service for Apache Flink gelesen und gespeichert werden, verbleiben in Ihrem Konto AWS-Konto und verlassen Ihr Konto niemals.