Configurazione del modo in cui Web Crawler accede al sito Amazon Kendra Web Impedire a Web Crawler di eseguire la scansione del sito Web Amazon Kendra

Configurazione del file per Web Crawler `robots.txt` Amazon Kendra

Amazon Kendra è un servizio di ricerca intelligente che AWS i clienti utilizzano per indicizzare e cercare documenti di loro scelta. Per indicizzare i documenti sul Web, i clienti possono utilizzare Amazon Kendra Web Crawler, che indica quali URL devono essere indicizzati e altri parametri operativi. Amazon Kendra i clienti devono ottenere l'autorizzazione prima di indicizzare un determinato sito Web.

Amazon Kendra Web Crawler rispetta le direttive standard di robots.txt come e. Allow Disallow Puoi modificare il robots.txt file del tuo sito Web per controllare il modo in cui Web Crawler esegue la scansione del tuo sito Amazon Kendra Web.

Configurazione del modo in cui Web Crawler accede al sito Amazon Kendra Web

Puoi controllare il modo in cui il Amazon Kendra Web Crawler indicizza il tuo sito Web utilizzando le direttive e. Allow Disallow È inoltre possibile controllare quali pagine web vengono indicizzate e quali pagine web non vengono sottoposte a crawling.

Per consentire al Amazon Kendra Web Crawler di eseguire la scansione di tutte le pagine Web ad eccezione delle pagine Web non consentite, utilizzate la seguente direttiva:


User-agent: amazon-kendra    # Amazon Kendra Web Crawler
Disallow: /credential-pages/ # disallow access to specific pages

Per consentire a Amazon Kendra Web Crawler di eseguire la scansione solo di pagine Web specifiche, utilizzate la seguente direttiva:


User-agent: amazon-kendra    # Amazon Kendra Web Crawler
Allow: /pages/ # allow access to specific pages

Per consentire a Amazon Kendra Web Crawler di eseguire la scansione di tutto il contenuto del sito Web e impedire la scansione per altri robot, utilizzate la seguente direttiva:


User-agent: amazon-kendra # Amazon Kendra Web Crawler
Allow: / # allow access to all pages
User-agent: * # any (other) robot
Disallow: / # disallow access to any pages

Impedire a Web Crawler di eseguire la scansione del sito Web Amazon Kendra

Puoi impedire a Amazon Kendra Web Crawler di indicizzare il tuo sito Web utilizzando la direttiva. Disallow Puoi anche controllare quali pagine web vengono sottoposte a scansione e quali no.

Per impedire a Amazon Kendra Web Crawler di eseguire la scansione del sito Web, utilizzate la seguente direttiva:


User-agent: amazon-kendra # Amazon Kendra Web Crawler
Disallow: / # disallow access to any pages

Se hai domande o dubbi su Amazon Kendra Web Crawler, puoi contattare il team di supporto.AWS

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Amazon Kendra Connettore Web Crawler v2.0

Box

Configurazione del file per Web Crawler robots.txt Amazon Kendra

Configurazione del modo in cui Web Crawler accede al sito Amazon Kendra Web

Impedire a Web Crawler di eseguire la scansione del sito Web Amazon Kendra

Configurazione del file per Web Crawler `robots.txt` Amazon Kendra