Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Bei der Erfassung Ihrer Daten teilt Amazon Bedrock Ihre Dokumente oder Inhalte zunächst in überschaubare Teile auf, um einen effizienten Datenabruf zu gewährleisten. Die Blöcke werden dann in Einbettungen umgewandelt und in einen Vektorindex (Vektordarstellung der Daten) geschrieben, wobei die Zuordnung zum Originaldokument beibehalten wird. Die Vektoreinbettungen ermöglichen einen quantitativen Vergleich der Texte.
Standardmäßiges Chunking
Amazon Bedrock unterstützt die folgenden Standardansätze für das Chunking:
-
Chunking mit fester Größe: Sie können die gewünschte Chunk-Größe konfigurieren, indem Sie die Anzahl der Token pro Block und einen Überlappungsprozentsatz angeben, sodass Sie flexibel auf Ihre spezifischen Anforderungen eingehen können. Sie können die maximale Anzahl von Tokens, die für einen Chunk nicht überschritten werden darf, sowie den Prozentsatz der Überlappungen zwischen aufeinanderfolgenden Chunks festlegen.
-
Standard-Chunking: Teilt den Inhalt in Textblöcke von etwa 300 Tokens auf. Beim Chunking-Prozess werden die Satzgrenzen berücksichtigt und sichergestellt, dass vollständige Sätze innerhalb jedes Abschnitts erhalten bleiben.
Sie können auch festlegen, dass Ihre Dokumente nicht aufgeteilt werden. Jedes Dokument wird als einzelner Textblock behandelt. Möglicherweise möchten Sie Ihre Dokumente vorab verarbeiten, indem Sie sie in separate Dateien aufteilen, bevor Sie kein Chunking als Ansatz bzw. Strategie zum Aufteilen wählen. Wenn Sie für Ihre Dokumente kein Chunking wählen, können Sie die Seitenzahl nicht in Quellenangaben anzeigen oder nach dem Metadatenfeld/Attribut filtern. x-amz-bedrock-kb document-page-number Dieses Feld wird nur für PDF-Dateien und wenn Sie Amazon OpenSearch Serverless als Vektorspeicher verwenden, automatisch generiert.
Hierarchisches Chunking
Beim hierarchischen Chunking werden Informationen in verschachtelten Strukturen aus untergeordneten und übergeordneten Blöcken organisiert. Beim Erstellen einer Datenquelle können Sie die Größe des übergeordneten Chunks, die Größe des untergeordneten Chunks und die Anzahl der Token definieren, die sich zwischen den einzelnen Chunks überlappen. Beim Abrufen ruft das System zunächst untergeordnete Chunks ab, ersetzt sie jedoch durch breitere übergeordnete Chunks, um dem Modell einen umfassenderen Kontext zu bieten.
Kleine Texteinbettungen sind präziser, aber beim Abrufen wird ein umfassender Kontext angestrebt. Ein hierarchisches Chunking-System gleicht diese Anforderungen aus, indem abgerufene untergeordnete Blöcke gegebenenfalls durch ihre übergeordneten Blöcke ersetzt werden.
Für hierarchisches Chunking unterstützt Amazon Bedrock Knowledge Bases die Angabe von zwei Ebenen oder der folgenden Tiefe für das Chunking:
-
Übergeordnetes Element: Sie legen die maximale Größe des übergeordneten Chunk-Tokens fest.
-
Kind: Sie legen die maximale Größe des untergeordneten Chunk-Tokens fest.
Sie legen auch die Überlappungstoken zwischen Chunks fest. Dies ist die absolute Anzahl von Überlappungstoken zwischen aufeinanderfolgenden übergeordneten Chunks und aufeinanderfolgenden untergeordneten Chunks.
Semantisches Chunking
Semantisches Chunking ist eine Technik zur Verarbeitung natürlicher Sprache, bei der Text in aussagekräftige Abschnitte unterteilt wird, um das Verständnis und den Informationsabruf zu verbessern. Es zielt darauf ab, die Genauigkeit des Abrufs zu verbessern, indem es sich auf den semantischen Inhalt und nicht nur auf die syntaktische Struktur konzentriert. Auf diese Weise kann es eine genauere Extraktion und Manipulation relevanter Informationen ermöglichen.
Bei der Konfiguration von semantischem Chunking haben Sie die Möglichkeit, die folgenden Hyperparameter anzugeben.
-
Maximale Anzahl von Tokens: Die maximale Anzahl von Tokens, die in einem einzelnen Block enthalten sein sollten, wobei die Satzgrenzen eingehalten werden.
-
Puffergröße: Für einen bestimmten Satz definiert die Puffergröße die Anzahl der umgebenden Sätze, die zur Erstellung von Einbettungen hinzugefügt werden sollen. Eine Puffergröße von 1 führt beispielsweise dazu, dass 3 Sätze (aktueller, vorheriger und nächster Satz) kombiniert und eingebettet werden. Dieser Parameter kann beeinflussen, wie viel Text zusammen untersucht wird, um die Grenzen der einzelnen Blöcke zu bestimmen, was sich auf die Granularität und Kohärenz der resultierenden Blöcke auswirkt. Eine größere Puffergröße erfasst möglicherweise mehr Kontext, kann aber auch zu Rauschen führen, während bei einer kleineren Puffergröße möglicherweise wichtiger Kontext übersehen wird, aber ein genaueres Chunking gewährleistet wird.
-
Breakpoint-Perzentilschwelle: Der Perzentilschwellenwert für Satzdistanz/Unähnlichkeit, um Breakpoints zwischen Sätzen zu ziehen. Ein höherer Schwellenwert setzt voraus, dass Sätze besser unterscheidbar sind, damit sie in verschiedene Abschnitte aufgeteilt werden können. Ein höherer Schwellenwert führt zu weniger Blöcken und in der Regel zu einer größeren durchschnittlichen Chunkgröße.
Anmerkung
Die Verwendung von semantischem Chunking ist mit zusätzlichen Kosten verbunden, da ein Basismodell verwendet wird. Die Kosten hängen von der Datenmenge ab, über die Sie verfügen. Weitere Informationen zu den Kosten von Foundation-Modellen finden Sie unter Amazon Bedrock — Preise
.