Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Explorez les pages Web de votre base de connaissances Amazon Bedrock
Le Web Crawler fourni par Amazon Bedrock se connecte à votre base de connaissances Amazon Bedrock et explore URLs celui-ci. Vous pouvez explorer les pages du site Web conformément à l'étendue ou aux limites que vous avez définies pour votre sélectionURLs. Vous pouvez parcourir les pages d'un site Web à l'aide de la console AWS de gestion d'Amazon Bedrock
Note
Lorsque vous sélectionnez les sites Web à explorer, vous devez respecter la politique d'utilisation acceptable d'Amazon
Le Web Crawler respecte le fichier robots.txt conformément au 9309 RFC
Le nombre d'éléments de contenu de page Web et le nombre de Mo par élément de contenu pouvant être explorés sont limités. Voir Quotas pour les bases de connaissances.
Fonctionnalités prises en charge
Le Web Crawler se connecte aux HTML pages et les explore à partir de leur point de départURL, en parcourant tous les liens enfants situés sous le même domaine principal et le même chemin d'accès. Si l'une des HTML pages fait référence à des documents pris en charge, le Web Crawler récupérera ces documents, qu'ils se trouvent ou non dans le même domaine principal principal. Vous pouvez modifier le comportement d'exploration en modifiant la configuration d'exploration - voir. Configuration de connexion
Les éléments suivants sont pris en charge pour vous permettre de :
-
Sélectionnez plusieurs sources URLs à analyser et définissez le champ d'application de manière URLs à n'analyser que l'hôte ou à inclure également des sous-domaines.
-
Explorez les pages Web statiques ou dynamiques qui font partie de votre sourceURLs.
-
Spécifiez un suffixe d'agent utilisateur personnalisé pour définir les règles de votre propre robot d'exploration.
-
Incluez ou excluez certains éléments URLs qui correspondent à un modèle de filtre.
-
Respectez les directives standard de robots.txt telles que « Allow » et « Disallow ».
-
Limitez l'étendue de l'URLsexploration et excluez éventuellement ceux URLs qui correspondent à un modèle de filtre.
-
Limitez le taux d'exploration URLs et le nombre maximum de pages à explorer.
-
Afficher le statut du crawled sur URLs Amazon CloudWatch
Prérequis
Pour utiliser le Web Crawler, assurez-vous de :.
-
Vérifiez que vous êtes autorisé à explorer votre sourceURLs.
-
Vérifiez que le chemin d'accès au fichier robots.txt correspondant à votre source URLs ne l'URLsempêche pas d'être exploré. Le Web Crawler respecte les normes de robots.txt :
disallow
par défaut si robots.txt n'est pas trouvé pour le site Web. Le Web Crawler respecte le fichier robots.txt conformément au RFC9309. Vous pouvez également spécifier un suffixe d'en-tête d'agent utilisateur personnalisé pour définir des règles pour votre propre robot d'exploration. Pour plus d'informations, consultez la section URL Accès au Web Crawler dans Configuration de connexion les instructions de cette page. -
Activez la livraison des CloudWatch journaux et suivez des exemples de journaux Web Crawler pour voir l'état de votre tâche d'ingestion de données pour l'ingestion de contenu Web, et si certains URLs ne peuvent pas être récupérés.
Note
Lorsque vous sélectionnez les sites Web à explorer, vous devez respecter la politique d'utilisation acceptable d'Amazon
Configuration de connexion
Pour plus d'informations sur l'étendue de synchronisation pour l'analyseURLs, les filtres d'inclusion/exclusion, l'URLaccès, la synchronisation incrémentielle et leur fonctionnement, sélectionnez les options suivantes :
Vous pouvez limiter l'étendue de l'exploration URLs en fonction de la relation spécifique URL de chaque page avec la graineURLs. Pour accélérer les explorations, vous pouvez vous limiter URLs à celles ayant le même hôte et le même URL chemin initial de la graineURL. Pour des explorations plus étendues, vous pouvez choisir d'explorer URLs avec le même hôte ou au sein d'un sous-domaine de la graine. URL
Choisissez parmi les options décrites ci-dessous.
-
Par défaut : limitez l'exploration aux pages Web appartenant au même hôte et ayant le même URL chemin initial. Par exemple, avec une valeur initiale URL de « https://aws.amazon.com/bedrock/ », seuls ce chemin et les pages Web qui s'étendent à partir de ce chemin seront explorés, comme « https://aws.amazon.com/bedrock/ agents/ ». Les frères et sœurs URLs comme « https://aws.amazon.com/ec2/ » ne sont pas explorés, par exemple.
-
Hôte uniquement : limitez l'exploration aux pages Web appartenant au même hôte. Par exemple, avec une valeur initiale URL de https://aws.amazon.com/bedrock/ « », les pages Web contenant « https://aws.amazon.com » seront également explorées, comme « https://aws.amazon.com /ec2 ».
-
Sous-domaines : incluez l'exploration de toute page Web dont le domaine principal est le même que celui de base. URL Par exemple, avec une valeur URL initiale de « https://aws.amazon.com/bedrock/ », toute page Web contenant « amazon.com » (sous-domaine) sera explorée, comme « ». https://www.amazon.com
Note
Assurez-vous de ne pas explorer des pages Web potentiellement excessives. Il n'est pas recommandé d'explorer de grands sites Web, tels que wikipedia.org, sans filtres ni limites de portée. L'exploration de grands sites Web prendra beaucoup de temps.
Les types de fichiers pris en charge sont analysés quelle que soit leur étendue et s'il n'existe aucun modèle d'exclusion pour le type de fichier.
Le Web Crawler prend en charge les sites Web statiques et dynamiques.
Vous pouvez également limiter la vitesse de rampage URLs pour contrôler la limitation de la vitesse de rampage. Vous définissez le nombre maximum d'URLsexplorations par hôte par minute. En outre, vous pouvez également définir le nombre maximum (jusqu'à 25 000) de pages Web à explorer. Notez que si le nombre total de pages Web provenant de votre source URLs dépasse le maximum défini, votre tâche de synchronisation/ingestion de la source de données échouera.
Vous pouvez en inclure ou en exclure certains URLs en fonction de votre champ d'application. Les types de fichiers pris en charge sont analysés quelle que soit leur étendue et s'il n'existe aucun modèle d'exclusion pour le type de fichier. Si vous spécifiez un filtre d'inclusion et un filtre d'exclusion et que les deux correspondent à aURL, le filtre d'exclusion est prioritaire et le contenu Web n'est pas analysé.
Important
Les filtres de modèles d'expressions régulières problématiques qui entraînent un retour en arrière catastrophique et une vision prospective sont rejetés.
Exemple de modèle de filtre d'expressions régulières pour exclure les fichiers se terminant URLs par « .pdf » ou les pièces jointes à une page PDF Web : « .* \ .pdf$ »
Vous pouvez utiliser le Web Crawler pour explorer les pages des sites Web que vous êtes autorisé à explorer.
Lorsque vous sélectionnez les sites Web à explorer, vous devez respecter la politique d'utilisation acceptable d'Amazon
Le Web Crawler respecte le fichier robots.txt conformément au 9309 RFC
Vous pouvez spécifier à certains robots d'agent utilisateur « Autoriser » ou « Interdire » à l'agent utilisateur d'explorer votre source. URLs Vous pouvez modifier le fichier robots.txt de votre site Web pour contrôler la façon dont le Web Crawler explore votre source. URLs Le robot d'exploration recherchera d'abord bedrockbot-UUID
les règles, puis les bedrockbot
règles génériques dans le fichier robots.txt.
Vous pouvez également ajouter un suffixe User-Agent qui peut être utilisé pour autoriser votre robot d'exploration à figurer sur la liste des systèmes de protection contre les bots. Notez qu'il n'est pas nécessaire d'ajouter ce suffixe au fichier robots.txt pour que personne ne puisse se faire passer pour la chaîne de l'agent utilisateur. Par exemple, pour autoriser le Web Crawler à explorer tout le contenu du site Web et interdire l'exploration à tout autre robot, utilisez la directive suivante :
User-agent: bedrockbot-UUID # Amazon Bedrock Web Crawler Allow: / # allow access to all pages User-agent: * # any (other) robot Disallow: / # disallow access to any pages
Chaque fois que le Web Crawler s'exécute, il récupère le contenu de tout URLs ce qui est accessible depuis la source URLs et qui correspond à la portée et aux filtres. Pour les synchronisations incrémentielles après la première synchronisation de l'ensemble du contenu, Amazon Bedrock mettra à jour votre base de connaissances avec du contenu nouveau et modifié, et supprimera l'ancien contenu qui n'est plus présent. Parfois, le robot d'exploration peut ne pas être en mesure de savoir si le contenu a été supprimé du site Web ; dans ce cas, il préférera conserver l'ancien contenu de votre base de connaissances.
Pour synchroniser votre source de données avec votre base de connaissances, utilisez StartIngestionJobAPIou sélectionnez votre base de connaissances dans la console et sélectionnez Synchroniser dans la section de présentation des sources de données.
Important
Toutes les données que vous synchronisez à partir de votre source de données sont accessibles à bedrock:Retrieve
toute personne autorisée à les récupérer. Cela peut également inclure toutes les données dont les autorisations de source de données sont contrôlées. Pour plus d'informations, consultez la section Autorisations de la base de connaissances.