Configuration du `robots.txt` fichier pour Amazon Kendra Web Crawler

Mode de mise au point

Configuration du robots.txt fichier pour Amazon Kendra Web Crawler - Amazon Kendra

Configuration de la façon dont Amazon Kendra Web Crawler accède à votre site Web Amazon Kendra Empêcher Web Crawler d'explorer votre site Web

Amazon Kendra est un service de recherche intelligent que AWS les clients utilisent pour indexer et rechercher les documents de leur choix. Pour indexer des documents sur le Web, les clients peuvent utiliser le Amazon Kendra Web Crawler, qui indique les URL à indexer ainsi que d'autres paramètres opérationnels. Amazon Kendra les clients sont tenus d'obtenir une autorisation avant d'indexer un site Web en particulier.

Amazon Kendra Web Crawler respecte les directives standard de robots.txt telles que Allow etDisallow. Vous pouvez modifier le robots.txt fichier de votre site Web pour contrôler la façon dont Amazon Kendra Web Crawler explore votre site Web.

Configuration de la façon dont Amazon Kendra Web Crawler accède à votre site Web

Vous pouvez contrôler la façon dont le Amazon Kendra Web Crawler indexe votre site Web à l'aide de directives Allow etDisallow. Vous pouvez également contrôler quelles pages Web sont indexées et quelles pages Web ne sont pas explorées.

Pour autoriser Amazon Kendra Web Crawler à explorer toutes les pages Web à l'exception des pages Web interdites, utilisez la directive suivante :


User-agent: amazon-kendra    # Amazon Kendra Web Crawler
Disallow: /credential-pages/ # disallow access to specific pages

Pour autoriser Amazon Kendra Web Crawler à explorer uniquement des pages Web spécifiques, utilisez la directive suivante :


User-agent: amazon-kendra    # Amazon Kendra Web Crawler
Allow: /pages/ # allow access to specific pages

Pour autoriser Amazon Kendra Web Crawler à explorer tout le contenu du site Web et interdire l'exploration à tout autre robot, utilisez la directive suivante :


User-agent: amazon-kendra # Amazon Kendra Web Crawler
Allow: / # allow access to all pages
User-agent: * # any (other) robot
Disallow: / # disallow access to any pages

Amazon Kendra Empêcher Web Crawler d'explorer votre site Web

Vous pouvez empêcher Amazon Kendra Web Crawler d'indexer votre site Web à l'aide de cette directive. Disallow Vous pouvez également contrôler les pages Web qui sont explorées et celles qui ne le sont pas.

Pour empêcher Amazon Kendra Web Crawler d'explorer le site Web, utilisez la directive suivante :


User-agent: amazon-kendra # Amazon Kendra Web Crawler
Disallow: / # disallow access to any pages

Si vous avez des questions ou des préoccupations concernant Amazon Kendra Web Crawler, vous pouvez contacter l'équipe d'AWS assistance.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.