Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Webseiten für Ihre Amazon Bedrock-Wissensdatenbank durchsuchen
Der von Amazon Bedrock bereitgestellte Web Crawler stellt eine Verbindung zu Ihrer Amazon Bedrock-Wissensdatenbank her und crawlt URLs diese. Sie können die Seiten Ihrer Website gemäß dem von Ihnen festgelegten Umfang oder den von Ihnen ausgewählten Websites crawlen. URLs Sie können Webseiten mit einer der folgenden Methoden crawlen AWS Management-Konsole für Amazon Bedrock oder die CreateDataSourceAPI(siehe Amazon Bedrock) unterstützte und SDKs AWS CLI).
Das Crawlen des Webs URLs als Datenquelle befindet sich in der Vorschauversion und kann sich ändern.
Wenn Sie Websites für das Crawlen auswählen, müssen Sie die Amazon-Nutzungsbedingungen und alle anderen Nutzungsbedingungen von Amazon einhalten. Denken Sie daran, dass Sie den Web Crawler nur verwenden dürfen, um Ihre eigenen Webseiten oder Webseiten zu indexieren, für deren Crawling Sie autorisiert sind.
Der Web Crawler respektiert robots.txt gemäß der Norm 9309 RFC
Die Anzahl der Webseiteninhaltselemente und die Anzahl der MB pro Inhaltselement, die gecrawlt werden können, sind begrenzt. Weitere Informationen finden Sie unter Kontingente für Wissensdatenbanken.
Unterstützte Features
Der Webcrawler stellt ausgehend vom Startwert eine Verbindung zu HTML Seiten her und crawlt diese. Dabei URL werden alle untergeordneten Links unter derselben obersten primären Domain und demselben Pfad durchsucht. Wenn eine der HTML Seiten auf unterstützte Dokumente verweist, ruft der Web Crawler diese Dokumente ab, unabhängig davon, ob sie sich innerhalb derselben obersten primären Domain befinden. Sie können das Crawling-Verhalten ändern, indem Sie die Crawling-Konfiguration ändern — siehe. Konfiguration der Verbindung
Folgendes wird für Sie unterstützt:
-
Wählen Sie mehrere URLs zum Crawlen aus
-
Beachten Sie die Standardanweisungen von robots.txt wie „Zulassen“ und „Verbieten“
-
Beschränken Sie den Geltungsbereich von URLs auf Crawls und schließen Sie optional diejenigen ausURLs, die einem Filtermuster entsprechen
-
Beschränken Sie die Crawling-Rate URLs
-
Den Status der URLs Besucher beim Crawlen in Amazon anzeigen CloudWatch
Voraussetzungen
Um den Web Crawler zu verwenden, stellen Sie sicher, dass Sie:.
-
Vergewissern Sie sich, dass Sie berechtigt sind, Ihre Quelle zu crawlen. URLs
-
Vergewissern Sie sich, dass der Pfad zu robots.txt, der Ihrer Quelle entsprichtURLs, nicht verhindert, dass sie gecrawlt wird. URLs Der Web Crawler hält sich an die Standards von robots.txt: disallow
standardmäßig, wenn robots.txt für die Website nicht gefunden wird. Der Web Crawler respektiert robots.txt gemäß 9309. RFC
-
Prüfen Sie, ob Ihre URL Quellseiten JavaScript dynamisch generiert sind, da das Crawlen dynamisch generierter Inhalte derzeit nicht unterstützt wird. Sie können dies überprüfen, indem Sie dies in Ihren Browser eingeben: view-source:https://examplesite.com/site/
. Wenn das body
Element nur ein div
Element und nur wenige oder keine a href
Elemente enthält, wird die Seite wahrscheinlich dynamisch generiert. Sie können es JavaScript in Ihrem Browser deaktivieren, die Webseite neu laden und beobachten, ob der Inhalt ordnungsgemäß wiedergegeben wird und Links zu Ihren interessanten Webseiten enthält.
-
Aktivieren Sie die Option CloudWatch Protokollzustellung, um den Status Ihres Datenerfassungsauftrags für die Aufnahme von Webinhalten einzusehen und festzustellen, ob bestimmte URLs Inhalte nicht abgerufen werden können.
Wenn Sie Websites für das Crawlen auswählen, müssen Sie die Amazon-Nutzungsbedingungen und alle anderen Nutzungsbedingungen von Amazon einhalten. Denken Sie daran, dass Sie den Web Crawler nur verwenden dürfen, um Ihre eigenen Webseiten oder Webseiten zu indexieren, für deren Crawling Sie autorisiert sind.
Konfiguration der Verbindung
Weitere Informationen zum Synchronisierungsbereich für das CrawlenURLs, zu Einschluss-/Ausschlussfiltern, URL zum Zugriff, zur inkrementellen Synchronisierung und zu deren Funktionsweise erhalten Sie, wenn Sie Folgendes auswählen:
Sie können den Umfang des Crawls URLs auf der Grundlage der spezifischen Beziehung der einzelnen Seiten URL zum Ausgangswert einschränken. URLs Um schnellere Crawls zu erzielen, können Sie sich URLs auf diejenigen beschränken, die denselben Host und denselben URL Anfangspfad für den Seed haben. URL Für umfassendere Crawls können Sie wählen, ob Sie URLs mit demselben Host oder innerhalb einer beliebigen Subdomain des Seeds crawlen möchten. URL
Sie können aus den folgenden Optionen auswählen.
-
Standard: Beschränkt das Crawlen auf Webseiten, die zum selben Host gehören und denselben Anfangspfad haben. URL Bei einem Startwert URL von "https://aws.amazon.com/bedrock/" werden beispielsweise nur dieser Pfad und Webseiten, die von diesem Pfad ausgehen, gecrawlt, wie "https://aws.amazon.com/bedrock/agents/“. Geschwister URLs wie "https://aws.amazon.com/ec2/" werden beispielsweise nicht gecrawlt.
-
Nur Host: Beschränken Sie das Crawlen auf Webseiten, die demselben Host gehören. Wenn URL der Startwert beispielsweise "https://aws.amazon.com/bedrock/" lautet, werden auch Webseiten mit "https://aws.amazon.com" gecrawlt, z. B. "https://aws.amazon.com/ec2“.
-
Subdomains: Schließt das Crawlen aller Webseiten ein, die dieselbe primäre Domain wie der Seed haben. URL Wenn URL der Startwert beispielsweise "https://aws.amazon.com/bedrock/" lautet, wird jede Webseite gecrawlt, die „amazon.com“ (Subdomain) enthält, wie "“. https://www.amazon.com
Stellen Sie sicher, dass Sie keine potenziell übermäßigen Webseiten crawlen. Es wird nicht empfohlen, große Websites wie wikipedia.org ohne Filter oder Bereichsbeschränkungen zu crawlen. Das Crawlen großer Websites wird sehr lange dauern.
Unterstützte Dateitypen werden unabhängig vom Umfang und unabhängig davon, ob es für den Dateityp kein Ausschlussmuster gibt, gecrawlt.
Sie können je nach Anwendungsbereich bestimmte URLs einbeziehen oder ausschließen. Unterstützte Dateitypen werden unabhängig vom Umfang und unabhängig davon, ob es für den Dateityp kein Ausschlussmuster gibt, gecrawlt. Wenn Sie einen Inklusions- und Ausschlussfilter angeben und beide mit einem übereinstimmenURL, hat der Ausschlussfilter Vorrang und der Webinhalt wird nicht gecrawlt.
Ein Beispiel für ein Filtermuster für reguläre AusdrückeURLs, das mit „.pdf“ endet oder PDF Webseitenanhänge ausschließt: „.*\ .pdf$“
Sie können den Webcrawler verwenden, um die Seiten von Websites zu crawlen, für deren Crawling Sie autorisiert sind.
Wenn Sie Websites für das Crawlen auswählen, müssen Sie die Amazon-Nutzungsbedingungen und alle anderen Nutzungsbedingungen von Amazon einhalten. Denken Sie daran, dass Sie den Web Crawler nur verwenden dürfen, um Ihre eigenen Webseiten oder Webseiten zu indexieren, für deren Crawling Sie autorisiert sind.
Der Web Crawler respektiert robots.txt gemäß der Norm 9309 RFC
Jedes Mal, wenn der Web Crawler ausgeführt wird, ruft er Inhalte für alle ab, URLs die von der Quelle aus erreichbar sind und die dem Bereich URLs und den Filtern entsprechen. Bei inkrementellen Synchronisierungen nach der ersten Synchronisierung aller Inhalte aktualisiert Amazon Bedrock Ihre Wissensdatenbank mit neuen und geänderten Inhalten und entfernt alte Inhalte, die nicht mehr vorhanden sind. Gelegentlich kann der Crawler möglicherweise nicht erkennen, ob Inhalte von der Website entfernt wurden. In diesem Fall versucht er, alte Inhalte in Ihrer Wissensdatenbank beizubehalten.
Um Ihre Datenquelle mit Ihrer Wissensdatenbank zu synchronisieren, verwenden Sie die StartIngestionJobAPIoder wählen Sie Ihre Wissensdatenbank in der Konsole aus und wählen Sie im Bereich Datenquellenübersicht die Option Synchronisieren aus.
Alle Daten, die Sie aus Ihrer Datenquelle synchronisieren, stehen allen Personen zur Verfügung, die zum bedrock:Retrieve
Abrufen der Daten berechtigt sind. Dies kann auch alle Daten mit kontrollierten Datenquellenberechtigungen einschließen. Weitere Informationen finden Sie unter Knowledgebase-Berechtigungen.
- Console
-
Mit den folgenden Schritten konfigurieren Sie Web Crawler für Ihre Amazon Bedrock-Wissensdatenbank. Sie konfigurieren Web Crawler im Rahmen der Schritte zur Erstellung der Wissensdatenbank in der Konsole.
-
Melden Sie sich an bei AWS Management Console Verwenden Sie eine IAMRolle mit Amazon Bedrock-Berechtigungen und öffnen Sie die Amazon Bedrock-Konsole unter. https://console.aws.amazon.com/bedrock/
-
Wählen Sie im linken Navigationsbereich Wissensdatenbanken aus.
-
Wählen Sie im Abschnitt Wissensdatenbanken die Option Wissensdatenbank erstellen aus.
-
Geben Sie die Details der Wissensdatenbank an.
-
Geben Sie den Namen der Wissensdatenbank und optional eine Beschreibung an.
-
Geben Sie die AWS Identity and Access Management Rolle für die erforderlichen Zugriffsberechtigungen, die zum Erstellen einer Wissensdatenbank erforderlich sind.
Das Tool IAM Eine Rolle mit allen erforderlichen Berechtigungen kann im Rahmen der Konsolenschritte zum Erstellen einer Wissensdatenbank für Sie erstellt werden. Nachdem Sie die Schritte zum Erstellen einer Wissensdatenbank abgeschlossen haben, IAM Die Rolle mit allen erforderlichen Berechtigungen wird auf Ihre spezifische Wissensdatenbank angewendet.
-
Erstellen Sie alle Tags, die Sie Ihrer Wissensdatenbank zuweisen möchten.
Gehen Sie zum nächsten Abschnitt, um Ihre Datenquelle zu konfigurieren.
-
Wählen Sie Web Crawler als Ihre Datenquelle und geben Sie die Konfigurationsdetails an.
(Optional) Ändern Sie den Standardnamen der Datenquelle und geben Sie eine Beschreibung ein.
-
Geben Sie die Quelle URLs der Datei anURLs, die Sie crawlen möchten. Sie können bis zu 9 weitere hinzufügen, URLs indem Sie Quelle URLs hinzufügen auswählen. Indem Sie eine Quelle angebenURL, bestätigen Sie, dass Sie berechtigt sind, deren Domain zu crawlen.
-
Überprüfen Sie die erweiterten Einstellungen. Sie können optional die ausgewählten Standardeinstellungen ändern.
Wählen Sie in der &Snowconsole; Ihren Auftrag aus der Tabelle. KMS key In den Einstellungen können Sie entweder einen benutzerdefinierten Schlüssel wählen oder den standardmäßig bereitgestellten Datenverschlüsselungsschlüssel verwenden.
Bei der Konvertierung Ihrer Daten in Einbettungen Amazon Bedrock verschlüsselt Ihre transienten Daten mit einem Schlüssel, der AWS besitzt und verwaltet standardmäßig. Sie können Ihren eigenen KMS Schlüssel verwenden. Weitere Informationen finden Sie unter Verschlüsselung der vorübergehenden Datenspeicherung während der Datenerfassung.
Für die Richtlinieneinstellungen zum Löschen von Daten können Sie eine der folgenden Optionen wählen:
-
Löschen: Löscht alle Daten aus Ihrer Datenquelle, die beim Löschen einer Wissensdatenbank- oder Datenquellenressource in Vektoreinbettungen konvertiert wurden. Beachten Sie, dass nicht der Vektorspeicher selbst gelöscht wird, sondern nur die Daten. Dieses Flag wird ignoriert, wenn AWS Konto ist gelöscht.
-
Beibehalten: Behält alle Daten aus Ihrer Datenquelle bei, die beim Löschen einer Wissensdatenbank oder Datenquellenressource in Vektoreinbettungen umgewandelt wurden. Beachten Sie, dass der Vektorspeicher selbst nicht gelöscht wird, wenn Sie eine Wissensdatenbank- oder Datenquellenressource löschen.
-
Wählen Sie eine Option für den Umfang des Crawlens Ihrer Quelle URLs aus.
-
Standard: Beschränkt das Crawlen auf Webseiten, die zu demselben Host gehören und denselben URL Anfangspfad haben. Bei einem Startwert URL von "https://aws.amazon.com/bedrock/" werden beispielsweise nur dieser Pfad und Webseiten, die von diesem Pfad ausgehen, gecrawlt, wie "https://aws.amazon.com/bedrock/agents/“. Geschwister URLs wie "https://aws.amazon.com/ec2/" werden beispielsweise nicht gecrawlt.
-
Nur Host: Beschränken Sie das Crawlen auf Webseiten, die demselben Host gehören. Wenn URL der Startwert beispielsweise "https://aws.amazon.com/bedrock/" lautet, werden auch Webseiten mit "https://aws.amazon.com" gecrawlt, z. B. "https://aws.amazon.com/ec2“.
-
Subdomains: Schließt das Crawlen aller Webseiten ein, die dieselbe primäre Domain wie der Seed haben. URL Wenn URL der Startwert beispielsweise "https://aws.amazon.com/bedrock/" lautet, wird jede Webseite gecrawlt, die „amazon.com“ (Subdomain) enthält, wie "“. https://www.amazon.com
Stellen Sie sicher, dass Sie keine potenziell übermäßigen Webseiten crawlen. Es wird nicht empfohlen, große Websites wie wikipedia.org ohne Filter oder Bereichsbeschränkungen zu crawlen. Das Crawlen großer Websites wird sehr lange dauern.
Unterstützte Dateitypen werden unabhängig vom Umfang und unabhängig davon, ob es für den Dateityp kein Ausschlussmuster gibt, gecrawlt.
-
Geben Sie Maximale Drosselung der Crawling-Geschwindigkeit ein. Nehmen Sie URLs zwischen 1 und 300 URLs pro Host und Minute auf. Eine höhere Crawling-Geschwindigkeit erhöht die Last, nimmt aber weniger Zeit in Anspruch.
-
Für URLRegex-Muster (optional) können Sie Include-Muster oder Exclude-Muster hinzufügen, indem Sie das reguläre Ausdrucksmuster in das Feld eingeben. Sie können bis zu 25 Einschluss- und 25 Ausschlussfiltermuster hinzufügen, indem Sie Neues Muster hinzufügen auswählen. Die Ein- und Ausschlussmuster werden entsprechend Ihrem Bereich gecrawlt. Wenn es einen Konflikt gibt, hat das Ausschlussmuster Vorrang.
-
Wählen Sie entweder die Standard- oder die benutzerdefinierte Konfiguration für Chunking und Parsing.
-
Wenn Sie benutzerdefinierte Einstellungen wählen, wählen Sie eine der folgenden Chunking-Optionen:
-
Chunking mit fester Größe: Inhalt wird in Textblöcke mit der von Ihnen festgelegten ungefähren Token-Größe aufgeteilt. Sie können die maximale Anzahl von Tokens festlegen, die für einen Abschnitt nicht überschritten werden darf, und den Prozentsatz der Überlappungen zwischen aufeinanderfolgenden Blöcken festlegen.
-
Standard-Chunking: Inhalt wird in Textblöcke von bis zu 300 Tokens aufgeteilt. Wenn ein einzelnes Dokument oder ein Inhalt weniger als 300 Token enthält, wird das Dokument nicht weiter aufgeteilt.
-
Hierarchisches Chunking: Inhalt, der in verschachtelten Strukturen aus über- und untergeordneten Blöcken organisiert ist. Sie legen die maximale Größe des übergeordneten Chunk-Tokens und die maximale Größe des untergeordneten Chunk-Tokens fest. Sie legen auch die absolute Anzahl von Überlappungstoken zwischen aufeinanderfolgenden übergeordneten Chunks und aufeinanderfolgenden untergeordneten Chunks fest.
-
Semantisches Chunking: Inhalt, der in semantisch ähnliche Textblöcke oder Satzgruppen unterteilt ist. Sie legen die maximale Anzahl von Sätzen fest, die den Ziel-/aktuellen Satz umgeben, die gruppiert werden sollen (Puffergröße). Sie legen auch den Schwellenwert für das Perzentil am Breakpoint fest, um den Text in sinnvolle Abschnitte zu unterteilen. Beim semantischen Chunking wird ein Basismodell verwendet. Anzeigen von Amazon Bedrock Preisgestaltung für Informationen über die Kosten von Foundation-Modellen.
-
Keine Unterteilung: Jedes Dokument wird als einzelner Textblock behandelt. Möglicherweise möchten Sie Ihre Dokumente vorab verarbeiten, indem Sie sie in separate Dateien aufteilen.
Sie können die Chunking-Strategie nicht ändern, nachdem Sie die Datenquelle erstellt haben.
-
Sie können wählen, Amazon Bedrock das Basismodell für das Parsen von Dokumenten, um mehr als Standardtext zu analysieren. Sie können beispielsweise Tabellendaten in Dokumenten analysieren, deren Struktur intakt bleibt. Anzeigen von Amazon Bedrock Preisgestaltung für Informationen über die Kosten von Basismodellen.
-
Sie können wählen, ob Sie eine verwenden möchten AWS Lambda Funktion, mit der Sie Ihre Chunking-Strategie und die Art und Weise, wie die Attribute/Felder Ihrer Dokumentmetadaten behandelt und aufgenommen werden, individuell anpassen können. Stellen Sie die bereit Amazon S3 Bucket-Position für die Eingabe und Ausgabe der Lambda-Funktion.
Gehen Sie zum nächsten Abschnitt, um Ihren Vector Store zu konfigurieren.
-
Wählen Sie ein Modell für die Konvertierung Ihrer Daten in Vektoreinbettungen.
Erstellen Sie einen Vector Store, damit Amazon Bedrock Einbettungen speichern, aktualisieren und verwalten kann. Sie können schnell einen neuen Vektorspeicher erstellen oder aus einem unterstützten Vektorspeicher auswählen, den Sie erstellt haben. Wenn Sie einen neuen Vektorspeicher erstellen, wird eine Amazon OpenSearch Serverless-Vektorsuchsammlung und ein Index mit den erforderlichen Feldern für Sie eingerichtet. Wenn Sie aus einem unterstützten Vektorspeicher auswählen, müssen Sie die Vektorfeldnamen und die Metadatenfeldnamen zuordnen.
Gehen Sie zum nächsten Abschnitt, um Ihre Wissensdatenbank-Konfigurationen zu überprüfen.
-
Überprüfen Sie die Details Ihrer Wissensdatenbank. Sie können jeden Abschnitt bearbeiten, bevor Sie mit der Erstellung Ihrer Wissensdatenbank fortfahren.
Die Zeit, die für die Erstellung der Wissensdatenbank benötigt wird, hängt von Ihren spezifischen Konfigurationen ab. Wenn die Erstellung der Wissensdatenbank abgeschlossen ist, ändert sich der Status der Wissensdatenbank entweder in den Status „Bereit“ oder „Verfügbar“.
Sobald Ihre Wissensdatenbank fertig und verfügbar ist, synchronisieren Sie Ihre Datenquelle zum ersten Mal und wann immer Sie Ihre Inhalte auf dem neuesten Stand halten möchten. Wählen Sie Ihre Wissensdatenbank in der Konsole aus und klicken Sie im Bereich Datenquellenübersicht auf Synchronisieren.
- CLI
-
Im Folgenden finden Sie ein Beispiel für eine Konfiguration von Web Crawler für Ihre Amazon Bedrock-Wissensdatenbank.
{
"webConfiguration": {
"sourceConfiguration": {
"urlConfiguration": {
"seedUrls": [{
"url": "https://www.examplesite.com"
}]
}
},
"crawlerConfiguration": {
"crawlerLimits": {
"rateLimit": 50
},
"scope": "HOST_ONLY",
"inclusionFilters": [
"https://www\.examplesite\.com/.*\.html"
],
"exclusionFilters": [
"https://www\.examplesite\.com/contact-us\.html"
]
}
},
"type": "WEB"
}