Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Amazon Kendra Webcrawler
Sie können den Amazon Kendra Web Crawler verwenden, um Webseiten zu crawlen und zu indizieren.
Sie können nur öffentlich zugängliche Websites oder interne Unternehmenswebsites crawlen, die das sichere Kommunikationsprotokoll Hypertext Transfer Protocol Secure (HTTPS) verwenden. Wenn Sie beim Crawling einer Website einen Fehler erhalten, kann es sein, dass die Website für das Crawling gesperrt ist. Um interne Websites zu crawlen, können Sie einen Webproxy einrichten. Der Web-Proxy muss öffentlich zugänglich sein. Sie können die Authentifizierung auch verwenden, um auf Websites zuzugreifen und diese zu crawlen.
Bei der Auswahl der zu indizierenden Websites müssen Sie die Amazon Acceptable Use Policy
Anmerkung
Der Missbrauch von Amazon Kendra Web Crawler zum aggressiven Crawlen von Websites oder Webseiten, die Ihnen nicht gehören, wird nicht als akzeptable Nutzung angesehen.
Amazon Kendra hat zwei Versionen des Connectors. web crawler Zu den unterstützten Funktionen jeder Version gehören:
Amazon Kendra Web Crawler-Konnektor v1.0//API WebCrawlerConfiguration
-
Webproxy
-
Einschluss-/Ausschlussfilter
Amazon Kendra Webcrawler-Konnektor v2.0/API TemplateConfiguration
-
Feldzuordnungen
-
Einschluss-/Ausschlussfilter
-
Vollständige und inkrementelle Inhaltssynchronisierung
-
Web-Proxy
-
Basic-, NTLM/Kerberos-, SAML- und Formularauthentifizierung für Ihre Websites
-
Virtual Private Cloud (VPC)
Wichtig
Die Erstellung von Web Crawler v2.0-Connectoren wird von nicht unterstützt. AWS CloudFormation Verwenden Sie den Web Crawler v1.0-Connector, wenn Sie Unterstützung benötigen. AWS CloudFormation
Informationen zur Problembehandlung Ihres Amazon Kendra Webcrawler-Datenquellen-Connectors finden Sie unter. Problembehandlung bei Datenquellen