As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Configurando o arquivo do robots.txt
para o Web Crawler do Amazon Kendra
Amazon Kendra é um serviço de pesquisa inteligente que AWS os clientes usam para indexar e pesquisar documentos de sua escolha. Para indexar documentos na web, os clientes podem usar o Amazon Kendra Web Crawler, indicando quais URLs devem ser indexados e outros parâmetros operacionais. Amazon Kendra os clientes precisam obter autorização antes de indexar qualquer site específico.
Amazon Kendra O Web Crawler respeita as diretivas padrão do robots.txt, como e. Allow
Disallow
Você pode modificar o robots.txt
arquivo do seu site para controlar como o Amazon Kendra Web Crawler rastreia seu site.
Configurando como o Amazon Kendra Web Crawler acessa seu site
Você pode controlar como o Amazon Kendra Web Crawler indexa o uso Allow
e as diretrizes do seu site. Disallow
Você também pode controlar quais páginas da Web são indexadas e quais páginas da Web não são rastreadas.
Para permitir que o Amazon Kendra Web Crawler rastreie todas as páginas da Web, exceto páginas da Web não permitidas, use a seguinte diretiva:
User-agent: amazon-kendra # Amazon Kendra Web Crawler Disallow: /credential-pages/ # disallow access to specific pages
Para permitir que o Amazon Kendra Web Crawler rastreie somente páginas da Web específicas, use a seguinte diretiva:
User-agent: amazon-kendra # Amazon Kendra Web Crawler Allow: /pages/ # allow access to specific pages
Para permitir que o Amazon Kendra Web Crawler rastreie todo o conteúdo do site e proibir o rastreamento de outros robôs, use a seguinte diretiva:
User-agent: amazon-kendra # Amazon Kendra Web Crawler Allow: / # allow access to all pages User-agent: * # any (other) robot Disallow: / # disallow access to any pages
Impedindo que o Amazon Kendra Web Crawler rastreie seu site
Você pode impedir que o Amazon Kendra Web Crawler indexe seu site usando a diretiva. Disallow
Você também pode controlar quais páginas da Web são rastreadas ou não.
Para impedir que o Amazon Kendra Web Crawler rastreie o site, use a seguinte diretiva:
User-agent: amazon-kendra # Amazon Kendra Web Crawler Disallow: / # disallow access to any pages
Amazon Kendra O Web Crawler também suporta robôs noindex
e nofollow
diretivas em metatags em páginas HTML. Essas diretivas impedem que o rastreador da Web indexe uma página da Web e pare de seguir qualquer link na página da Web. Você coloca as metatags na seção do documento para especificar as regras das regras dos robôs.
Por exemplo, a página da web abaixo inclui as diretivas robôs noindex
enofollow
:
<html> <head> <meta name="robots" content="noindex, nofollow"/> ... </head> <body>...</body> </html>
Se você tiver alguma dúvida ou preocupação em relação ao Amazon Kendra Web Crawler, entre em contato com a equipe de AWS suporte