Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Configuración del archivo robots.txt
para el rastreador web de Amazon Kendra
Amazon Kendra es un servicio de búsqueda inteligente que AWS los clientes utilizan para indexar y buscar los documentos que elijan. Para indexar documentos en la web, los clientes pueden utilizar un rastreador Amazon Kendra web, que indica qué URL deben indexarse y otros parámetros operativos. Amazon Kendra los clientes deben obtener una autorización antes de indexar cualquier sitio web en particular.
Amazon Kendra Web Crawler respeta las directivas estándar de robots.txt, como Allow
y. Disallow
Puede modificar el robots.txt
archivo de su sitio web para controlar la forma en que Amazon Kendra Web Crawler lo rastrea.
Configurar el modo en que Amazon Kendra Web Crawler accede a su sitio web
Puede controlar la forma en que el Amazon Kendra Web Crawler indexa su sitio web mediante directivas y directivas. Allow
Disallow
También puede controlar qué páginas web se indexan y qué páginas web no se rastrean.
Para permitir que Amazon Kendra Web Crawler rastree todas las páginas web excepto las no permitidas, utilice la siguiente directiva:
User-agent: amazon-kendra # Amazon Kendra Web Crawler Disallow: /credential-pages/ # disallow access to specific pages
Para permitir que Amazon Kendra Web Crawler rastree solo páginas web específicas, utilice la siguiente directiva:
User-agent: amazon-kendra # Amazon Kendra Web Crawler Allow: /pages/ # allow access to specific pages
Para permitir que Amazon Kendra Web Crawler rastree todo el contenido del sitio web e impedir que otros robots rastreen, utilice la siguiente directiva:
User-agent: amazon-kendra # Amazon Kendra Web Crawler Allow: / # allow access to all pages User-agent: * # any (other) robot Disallow: / # disallow access to any pages
Impedir que Amazon Kendra Web Crawler rastree tu sitio web
Puede impedir que Amazon Kendra Web Crawler indexe su sitio web mediante esta directiva. Disallow
También puede controlar qué páginas web se rastrean y cuáles no.
Para evitar que Amazon Kendra Web Crawler rastree el sitio web, utilice la siguiente directiva:
User-agent: amazon-kendra # Amazon Kendra Web Crawler Disallow: / # disallow access to any pages