Configurazione del file per Web Crawler robots.txtAmazon Kendra - Amazon Kendra

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Configurazione del file per Web Crawler robots.txtAmazon Kendra

Amazon Kendra è un servizio di ricerca intelligente che AWS i clienti utilizzano per indicizzare e cercare documenti di loro scelta. Per indicizzare i documenti sul Web, i clienti possono utilizzare Amazon Kendra Web Crawler, che indica quali URL devono essere indicizzati e altri parametri operativi. Amazon Kendra i clienti devono ottenere l'autorizzazione prima di indicizzare un determinato sito Web.

Amazon Kendra Web Crawler rispetta le direttive standard di robots.txt come e. Allow Disallow Puoi modificare il robots.txt file del tuo sito Web per controllare il modo in cui Web Crawler esegue la scansione del tuo sito Amazon Kendra Web.

Configurazione del modo in cui Web Crawler accede al sito Amazon Kendra Web

Puoi controllare il modo in cui il Amazon Kendra Web Crawler indicizza il tuo sito Web utilizzando le direttive e. Allow Disallow È inoltre possibile controllare quali pagine Web vengono indicizzate e quali pagine Web non vengono sottoposte a scansione.

Per consentire a Amazon Kendra Web Crawler di eseguire la scansione di tutte le pagine Web ad eccezione delle pagine Web non consentite, utilizzate la seguente direttiva:

User-agent: amazon-kendra # Amazon Kendra Web Crawler Disallow: /credential-pages/ # disallow access to specific pages

Per consentire a Amazon Kendra Web Crawler di eseguire la scansione solo di pagine Web specifiche, utilizzate la seguente direttiva:

User-agent: amazon-kendra # Amazon Kendra Web Crawler Allow: /pages/ # allow access to specific pages

Per consentire a Amazon Kendra Web Crawler di eseguire la scansione di tutto il contenuto del sito Web e impedire la scansione per altri robot, utilizzate la seguente direttiva:

User-agent: amazon-kendra # Amazon Kendra Web Crawler Allow: / # allow access to all pages User-agent: * # any (other) robot Disallow: / # disallow access to any pages

Impedire a Web Crawler di eseguire la scansione del sito Web Amazon Kendra

Puoi impedire a Amazon Kendra Web Crawler di indicizzare il tuo sito Web utilizzando la direttiva. Disallow Puoi anche controllare quali pagine web vengono sottoposte a scansione e quali no.

Per impedire a Amazon Kendra Web Crawler di eseguire la scansione del sito Web, utilizzate la seguente direttiva:

User-agent: amazon-kendra # Amazon Kendra Web Crawler Disallow: / # disallow access to any pages

Amazon Kendra Web Crawler supporta anche i robot noindex e le nofollow direttive nei meta tag nelle pagine HTML. Queste direttive impediscono al web crawler di indicizzare una pagina Web e di non seguire più i collegamenti presenti nella pagina Web. Inserisci i meta tag nella sezione del documento per specificare le regole delle regole dei robot.

Ad esempio, la pagina web seguente include le direttive robot noindex e: nofollow

<html> <head> <meta name="robots" content="noindex, nofollow"/> ... </head> <body>...</body> </html>

Se hai domande o dubbi su Amazon Kendra Web Crawler, puoi contattare il team di supporto.AWS