Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Explorez les pages Web de votre base de connaissances Amazon Bedrock
Le Web Crawler fourni par Amazon Bedrock se connecte à votre base de connaissances Amazon Bedrock et explore les données que URLs vous avez sélectionnées pour être utilisées dans cette base de connaissances. Vous pouvez explorer les pages du site Web conformément à l'étendue ou aux limites que vous avez définies pour votre sélectionURLs. Vous pouvez explorer les pages d'un site Web à l'aide de AWS Console de gestion pour Amazon Bedrock ou CreateDataSourceAPI(voir Amazon Bedrock pris en charge) et SDKs AWS CLI).
L'exploration du Web URLs en tant que source de données est en version préliminaire et peut faire l'objet de modifications.
Lorsque vous sélectionnez des sites Web à explorer, vous devez respecter la politique d'utilisation acceptable d'Amazon et toutes les autres conditions d'Amazon. N'oubliez pas que vous ne devez utiliser le Web Crawler que pour indexer vos propres pages Web ou les pages Web que vous êtes autorisé à explorer.
Le Web Crawler respecte le fichier robots.txt conformément au 9309 RFC
Le nombre d'éléments de contenu de page Web et le nombre de Mo par élément de contenu pouvant être explorés sont limités. Voir Quotas pour les bases de connaissances.
Fonctionnalités prises en charge
Le Web Crawler se connecte aux HTML pages et les explore à partir de leur point de départURL, en parcourant tous les liens enfants situés sous le même domaine principal et le même chemin d'accès. Si l'une des HTML pages fait référence à des documents pris en charge, le Web Crawler récupérera ces documents, qu'ils se trouvent ou non dans le même domaine principal principal. Vous pouvez modifier le comportement d'exploration en modifiant la configuration d'exploration - voir. Configuration de connexion
Les éléments suivants sont pris en charge pour vous permettre de :
-
Sélectionnez plusieurs URLs à explorer
-
Respectez les directives standard de robots.txt telles que « Allow » et « Disallow »
-
Limitez l'étendue de l'URLsexploration et excluez éventuellement ceux URLs qui correspondent à un modèle de filtre
-
Limitez le taux de rampage URLs
-
Afficher le statut des URLs visiteurs lors de l'exploration sur Amazon CloudWatch
Prérequis
Pour utiliser le Web Crawler, assurez-vous de :
-
Vérifiez que vous êtes autorisé à explorer votre sourceURLs.
-
Vérifiez que le chemin d'accès au fichier robots.txt correspondant à votre source URLs ne l'URLsempêche pas d'être exploré. Le Web Crawler respecte les normes de robots.txt : disallow
par défaut si robots.txt n'est pas trouvé pour le site Web. Le Web Crawler respecte le fichier robots.txt conformément au RFC9309.
-
Vérifiez si vos URL pages sources sont générées JavaScript dynamiquement, car l'exploration du contenu généré dynamiquement n'est actuellement pas prise en charge. Vous pouvez le vérifier en saisissant ce qui suit dans votre navigateur : view-source:https://examplesite.com/site/
. Si l'body
élément ne contient qu'un div
élément et peu ou pas d'a href
éléments, la page est probablement générée dynamiquement. Vous pouvez le désactiver JavaScript dans votre navigateur, recharger la page Web et vérifier si le contenu s'affiche correctement et contient des liens vers les pages Web qui vous intéressent.
-
Activez la livraison CloudWatch des journaux pour voir l'état de votre tâche d'ingestion de données pour l'ingestion de contenu Web, et si certaines d'entre elles URLs ne peuvent pas être récupérées.
Lorsque vous sélectionnez des sites Web à explorer, vous devez respecter la politique d'utilisation acceptable d'Amazon et toutes les autres conditions d'Amazon. N'oubliez pas que vous ne devez utiliser le Web Crawler que pour indexer vos propres pages Web ou les pages Web que vous êtes autorisé à explorer.
Configuration de connexion
Pour plus d'informations sur l'étendue de synchronisation pour l'analyseURLs, les filtres d'inclusion/exclusion, l'URLaccès, la synchronisation incrémentielle et leur fonctionnement, sélectionnez les options suivantes :
Vous pouvez limiter l'étendue de l'exploration URLs en fonction de la relation spécifique URL de chaque page avec la graineURLs. Pour accélérer les explorations, vous pouvez vous limiter URLs à celles ayant le même hôte et le même URL chemin initial de la graineURL. Pour des explorations plus étendues, vous pouvez choisir d'explorer URLs avec le même hôte ou au sein d'un sous-domaine de la graine. URL
Choisissez parmi les options décrites ci-dessous.
-
Par défaut : limitez l'exploration aux pages Web appartenant au même hôte et ayant le même URL chemin initial. Par exemple, avec une valeur initiale URL de « https://aws.amazon.com/bedrock/ », seuls ce chemin et les pages Web qui s'étendent à partir de ce chemin seront explorés, comme « https://aws.amazon.com/bedrock/ agents/ ». Les frères et sœurs URLs comme « https://aws.amazon.com/ec2/ » ne sont pas explorés, par exemple.
-
Hôte uniquement : limitez l'exploration aux pages Web appartenant au même hôte. Par exemple, avec une valeur initiale URL de https://aws.amazon.com/bedrock/ « », les pages Web contenant « https://aws.amazon.com » seront également explorées, comme « https://aws.amazon.com /ec2 ».
-
Sous-domaines : incluez l'exploration de toute page Web dont le domaine principal est le même que celui de base. URL Par exemple, avec une valeur URL initiale de « https://aws.amazon.com/bedrock/ », toute page Web contenant « amazon.com » (sous-domaine) sera explorée, comme « ». https://www.amazon.com
Assurez-vous de ne pas explorer des pages Web potentiellement excessives. Il n'est pas recommandé d'explorer de grands sites Web, tels que wikipedia.org, sans filtres ni limites de portée. L'exploration de sites Web de grande taille prendra beaucoup de temps.
Les types de fichiers pris en charge sont analysés quelle que soit leur étendue et s'il n'existe aucun modèle d'exclusion pour le type de fichier.
Vous pouvez en inclure ou en exclure certains URLs en fonction de votre champ d'application. Les types de fichiers pris en charge sont analysés quelle que soit leur étendue et s'il n'existe aucun modèle d'exclusion pour le type de fichier. Si vous spécifiez un filtre d'inclusion et un filtre d'exclusion et que les deux correspondent à aURL, le filtre d'exclusion est prioritaire et le contenu Web n'est pas analysé.
Les filtres de modèles d'expressions régulières problématiques qui entraînent un retour en arrière catastrophique et une vision prospective sont rejetés.
Exemple de modèle de filtre d'expressions régulières pour exclure les fichiers se terminant URLs par « .pdf » ou les pièces jointes à une page PDF Web : « .* \ .pdf$ »
Chaque fois que le Web Crawler s'exécute, il récupère le contenu de tout URLs ce qui est accessible depuis la source URLs et qui correspond à la portée et aux filtres. Pour les synchronisations incrémentielles après la première synchronisation de l'ensemble du contenu, Amazon Bedrock mettra à jour votre base de connaissances avec du contenu nouveau et modifié, et supprimera l'ancien contenu qui n'est plus présent. Parfois, le robot d'exploration peut ne pas être en mesure de savoir si le contenu a été supprimé du site Web ; dans ce cas, il préférera conserver l'ancien contenu de votre base de connaissances.
Pour synchroniser votre source de données avec votre base de connaissances, utilisez StartIngestionJobAPIou sélectionnez votre base de connaissances dans la console et sélectionnez Synchroniser dans la section de présentation des sources de données.
Toutes les données que vous synchronisez à partir de votre source de données sont accessibles à bedrock:Retrieve
toute personne autorisée à les récupérer. Cela peut également inclure toutes les données dont les autorisations de source de données sont contrôlées. Pour plus d'informations, consultez la section Autorisations de la base de connaissances.
- Console
-
Les étapes suivantes permettent de configurer Web Crawler pour votre base de connaissances Amazon Bedrock. Vous configurez Web Crawler dans le cadre des étapes de création de la base de connaissances dans la console.
-
Connectez-vous au AWS Management Console en utilisant un IAMrôle avec des autorisations Amazon Bedrock, et ouvrez la console Amazon Bedrock à l'adresse. https://console.aws.amazon.com/bedrock/
-
Dans le volet de navigation de gauche, sélectionnez Bases de connaissances.
-
Dans la section Bases de connaissances, sélectionnez Créer une base de connaissances.
-
Fournissez les détails de la base de connaissances.
-
Indiquez le nom de la base de connaissances et une description facultative.
-
Fournissez le AWS Identity and Access Management rôle pour les autorisations d'accès nécessaires à la création d'une base de connaissances.
Le IAM Un rôle avec toutes les autorisations requises peut être créé pour vous dans le cadre des étapes de la console pour créer une base de connaissances. Une fois que vous avez terminé les étapes de création d'une base de connaissances, le IAM un rôle doté de toutes les autorisations requises est appliqué à votre base de connaissances spécifique.
-
Créez les balises que vous souhaitez attribuer à votre base de connaissances.
Passez à la section suivante pour configurer votre source de données.
-
Choisissez Web Crawler comme source de données et fournissez les détails de configuration.
(Facultatif) Modifiez le nom de la source de données par défaut et entrez une description.
-
Indiquez la source URLs de ce URLs que vous souhaitez explorer. Vous pouvez en ajouter jusqu'à 9 en URLs sélectionnant Ajouter une source URLs. En fournissant une sourceURL, vous confirmez que vous êtes autorisé à explorer son domaine.
-
Vérifiez les paramètres avancés. Vous pouvez éventuellement modifier les paramètres sélectionnés par défaut.
Dans KMS key paramètres, vous pouvez choisir une clé personnalisée ou utiliser la clé de chiffrement des données fournie par défaut.
Lors de la conversion de vos données en intégrations, Amazon Bedrock chiffre vos données transitoires avec une clé qui AWS possède et gère, par défaut. Vous pouvez utiliser votre propre KMS clé. Pour de plus amples informations, veuillez consulter Chiffrement du stockage des données transitoires lors de l’ingestion de données.
Pour les paramètres de politique de suppression des données, vous pouvez choisir l'une des options suivantes :
-
Supprimer : Supprime toutes les données de votre source de données qui sont converties en intégrations vectorielles lors de la suppression d'une base de connaissances ou d'une ressource de source de données. Notez que le magasin vectoriel lui-même n'est pas supprimé, seules les données sont supprimées. Ce drapeau est ignoré si un AWS le compte est supprimé.
-
Conserver : conserve toutes les données de votre source de données qui sont converties en intégrations vectorielles lors de la suppression d'une base de connaissances ou d'une ressource de source de données. Notez que le magasin vectoriel lui-même n'est pas supprimé si vous supprimez une base de connaissances ou une ressource de source de données.
-
Sélectionnez une option pour définir l'étendue de l'analyse de votre sourceURLs.
-
Par défaut : limitez l'exploration aux pages Web appartenant au même hôte et ayant le même URL chemin initial. Par exemple, avec une valeur initiale URL de « https://aws.amazon.com/bedrock/ », seuls ce chemin et les pages Web qui s'étendent à partir de ce chemin seront explorés, comme « https://aws.amazon.com/bedrock/ agents/ ». Les frères et sœurs URLs comme « https://aws.amazon.com/ec2/ » ne sont pas explorés, par exemple.
-
Hôte uniquement : limitez l'exploration aux pages Web appartenant au même hôte. Par exemple, avec une valeur initiale URL de https://aws.amazon.com/bedrock/ « », les pages Web contenant « https://aws.amazon.com » seront également explorées, comme « https://aws.amazon.com /ec2 ».
-
Sous-domaines : incluez l'exploration de toute page Web dont le domaine principal est le même que celui de base. URL Par exemple, avec une valeur URL initiale de « https://aws.amazon.com/bedrock/ », toute page Web contenant « amazon.com » (sous-domaine) sera explorée, comme « ». https://www.amazon.com
Assurez-vous de ne pas explorer des pages Web potentiellement excessives. Il n'est pas recommandé d'explorer de grands sites Web, tels que wikipedia.org, sans filtres ni limites de portée. L'exploration de sites Web de grande taille prendra beaucoup de temps.
Les types de fichiers pris en charge sont analysés quelle que soit leur étendue et s'il n'existe aucun modèle d'exclusion pour le type de fichier.
-
Entrez Limitation maximale de la vitesse de rampage. Ingérez URLs entre 1 et 300 URLs par hôte par minute. Une vitesse de rampage plus élevée augmente la charge mais prend moins de temps.
-
Pour les modèles URLRegex (facultatif), vous pouvez ajouter des modèles Inclure ou Exclure des modèles en saisissant le modèle d'expression régulière dans le champ. Vous pouvez ajouter jusqu'à 25 modèles de filtre d'inclusion et 25 modèles d'exclusion en sélectionnant Ajouter un nouveau modèle. Les modèles d'inclusion et d'exclusion sont analysés conformément à votre champ d'application. En cas de conflit, le modèle d'exclusion est prioritaire.
-
Choisissez les configurations de découpage et d'analyse par défaut ou personnalisées.
-
Si vous choisissez des paramètres personnalisés, sélectionnez l'une des options de découpage suivantes :
-
Fragmentation à taille fixe : le contenu est divisé en morceaux de texte de la taille approximative du jeton que vous avez définie. Vous pouvez définir le nombre maximum de jetons qui ne doit pas dépasser pour un bloc et le pourcentage de chevauchement entre des segments consécutifs.
-
Fragmentation par défaut : le contenu est divisé en blocs de texte contenant jusqu'à 300 jetons. Si un seul document ou élément de contenu contient moins de 300 jetons, le document n'est pas divisé davantage.
-
Découpage hiérarchique : contenu organisé en structures imbriquées de segments parent-enfant. Vous définissez la taille maximale du jeton parent et la taille maximale du jeton du fragment enfant. Vous définissez également le nombre absolu de jetons superposés entre les segments parents consécutifs et les segments enfants consécutifs.
-
Segmentation sémantique : contenu organisé en blocs de texte ou groupes de phrases sémantiquement similaires. Vous définissez le nombre maximum de phrases entourant la phrase cible/en cours à regrouper (taille de la mémoire tampon). Vous définissez également le seuil du percentile d'arrêt pour diviser le texte en segments significatifs. Le découpage sémantique utilise un modèle de base. Afficher un Amazon Bedrock tarification pour obtenir des informations sur le coût des modèles de base.
-
Pas de découpage : chaque document est traité comme un bloc de texte unique. Vous souhaiterez peut-être prétraiter vos documents en les divisant en fichiers distincts.
Vous ne pouvez pas modifier la stratégie de segmentation après avoir créé la source de données.
-
Vous pouvez choisir d'utiliser Amazon Bedrock est le modèle de base pour analyser des documents afin d'analyser plus que du texte standard. Vous pouvez analyser des données tabulaires dans des documents avec leur structure intacte, par exemple. Afficher un Amazon Bedrock tarification pour obtenir des informations sur le coût des modèles de base.
-
Vous pouvez choisir d'utiliser un AWS Lambda fonction pour personnaliser votre stratégie de segmentation et la façon dont les attributs/champs de métadonnées de votre document sont traités et ingérés. Fournissez le Amazon S3 emplacement du bucket pour l'entrée et la sortie de la fonction Lambda.
Passez à la section suivante pour configurer votre magasin de vecteurs.
-
Choisissez un modèle pour convertir vos données en intégrations vectorielles.
Créez une boutique vectorielle pour permettre à Amazon Bedrock de stocker, de mettre à jour et de gérer les intégrations. Vous pouvez créer rapidement un nouveau magasin de vecteurs ou sélectionner l'un des magasins de vecteurs pris en charge que vous avez créé. Si vous créez une nouvelle boutique vectorielle, une collection et un index de recherche vectorielle Amazon OpenSearch Serverless contenant les champs obligatoires sont configurés pour vous. Si vous effectuez une sélection dans un magasin de vecteurs pris en charge, vous devez mapper les noms des champs vectoriels et les noms des champs de métadonnées.
Passez à la section suivante pour passer en revue les configurations de votre base de connaissances.
-
Consultez les détails de votre base de connaissances. Vous pouvez modifier n'importe quelle section avant de créer votre base de connaissances.
Le temps nécessaire à la création de la base de connaissances dépend de vos configurations spécifiques. Lorsque la création de la base de connaissances est terminée, le statut de la base de connaissances change pour indiquer qu'elle est prête ou disponible.
Une fois que votre base de connaissances est prête et disponible, synchronisez votre source de données pour la première fois et chaque fois que vous souhaitez maintenir votre contenu à jour. Sélectionnez votre base de connaissances dans la console, puis sélectionnez Synchroniser dans la section de présentation des sources de données.
- CLI
-
Voici un exemple de configuration de Web Crawler pour votre base de connaissances Amazon Bedrock.
{
"webConfiguration": {
"sourceConfiguration": {
"urlConfiguration": {
"seedUrls": [{
"url": "https://www.examplesite.com"
}]
}
},
"crawlerConfiguration": {
"crawlerLimits": {
"rateLimit": 50
},
"scope": "HOST_ONLY",
"inclusionFilters": [
"https://www\.examplesite\.com/.*\.html"
],
"exclusionFilters": [
"https://www\.examplesite\.com/contact-us\.html"
]
}
},
"type": "WEB"
}