Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Configurazione del file per Web Crawler robots.txt
Amazon Kendra
Amazon Kendra è un servizio di ricerca intelligente che AWS i clienti utilizzano per indicizzare e cercare documenti di loro scelta. Per indicizzare i documenti sul Web, i clienti possono utilizzare Amazon Kendra Web Crawler, che indica quali URL devono essere indicizzati e altri parametri operativi. Amazon Kendra i clienti devono ottenere l'autorizzazione prima di indicizzare un determinato sito Web.
Amazon Kendra Web Crawler rispetta le direttive standard di robots.txt come e. Allow
Disallow
Puoi modificare il robots.txt
file del tuo sito Web per controllare il modo in cui Web Crawler esegue la scansione del tuo sito Amazon Kendra Web.
Configurazione del modo in cui Web Crawler accede al sito Amazon Kendra Web
Puoi controllare il modo in cui il Amazon Kendra Web Crawler indicizza il tuo sito Web utilizzando le direttive e. Allow
Disallow
È inoltre possibile controllare quali pagine Web vengono indicizzate e quali pagine Web non vengono sottoposte a scansione.
Per consentire a Amazon Kendra Web Crawler di eseguire la scansione di tutte le pagine Web ad eccezione delle pagine Web non consentite, utilizzate la seguente direttiva:
User-agent: amazon-kendra # Amazon Kendra Web Crawler Disallow: /credential-pages/ # disallow access to specific pages
Per consentire a Amazon Kendra Web Crawler di eseguire la scansione solo di pagine Web specifiche, utilizzate la seguente direttiva:
User-agent: amazon-kendra # Amazon Kendra Web Crawler Allow: /pages/ # allow access to specific pages
Per consentire a Amazon Kendra Web Crawler di eseguire la scansione di tutto il contenuto del sito Web e impedire la scansione per altri robot, utilizzate la seguente direttiva:
User-agent: amazon-kendra # Amazon Kendra Web Crawler Allow: / # allow access to all pages User-agent: * # any (other) robot Disallow: / # disallow access to any pages
Impedire a Web Crawler di eseguire la scansione del sito Web Amazon Kendra
Puoi impedire a Amazon Kendra Web Crawler di indicizzare il tuo sito Web utilizzando la direttiva. Disallow
Puoi anche controllare quali pagine web vengono sottoposte a scansione e quali no.
Per impedire a Amazon Kendra Web Crawler di eseguire la scansione del sito Web, utilizzate la seguente direttiva:
User-agent: amazon-kendra # Amazon Kendra Web Crawler Disallow: / # disallow access to any pages
Amazon Kendra Web Crawler supporta anche i robot noindex
e le nofollow
direttive nei meta tag nelle pagine HTML. Queste direttive impediscono al web crawler di indicizzare una pagina Web e di non seguire più i collegamenti presenti nella pagina Web. Inserisci i meta tag nella sezione del documento per specificare le regole delle regole dei robot.
Ad esempio, la pagina web seguente include le direttive robot noindex
e: nofollow
<html> <head> <meta name="robots" content="noindex, nofollow"/> ... </head> <body>...</body> </html>
Se hai domande o dubbi su Amazon Kendra Web Crawler, puoi contattare il team di supporto.AWS