翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
Amazon Kendra Web Crawler 用の robots.txt
ファイルの設定
Amazon Kendra は、 AWS お客様が選択したドキュメントのインデックス作成と検索に使用するインテリジェントな検索サービスです。ウェブ上のドキュメントのインデックスを作成するには、どの URL にインデックスを作成するか、およびその他の運用パラメータを示す Amazon Kendra Web Crawler を使用できます。 の Amazon Kendra お客様は、特定のウェブサイトにインデックスを作成する前に認証を取得する必要があります。
Amazon Kendra Web Crawler は、 Allow
や などの標準の robots.txt ディレクティブを尊重しますDisallow
。ウェブサイトの robots.txt
ファイルを変更して、 Amazon Kendra Web Crawler がウェブサイトをクロールする方法を制御できます。
Amazon Kendra Web Crawler がウェブサイトにアクセスする方法の設定
Allow
および Disallow
ディレクティブを使用して、 Amazon Kendra Web Crawler がウェブサイトのインデックスを作成する方法を制御できます。また、インデックス作成されるウェブページとクロールしないウェブページを制御することもできます。
Amazon Kendra Web Crawler が、許可されていないウェブページを除くすべてのウェブページをクロールできるようにするには、次のディレクティブを使用します。
User-agent: amazon-kendra # Amazon Kendra Web Crawler Disallow: /credential-pages/ # disallow access to specific pages
Amazon Kendra Web Crawler が特定のウェブページのみをクロールできるようにするには、次のディレクティブを使用します。
User-agent: amazon-kendra # Amazon Kendra Web Crawler Allow: /pages/ # allow access to specific pages
Amazon Kendra Web Crawler がすべてのウェブサイトコンテンツをクロールし、他のロボットのクロールを禁止するには、次のディレクティブを使用します。
User-agent: amazon-kendra # Amazon Kendra Web Crawler Allow: / # allow access to all pages User-agent: * # any (other) robot Disallow: / # disallow access to any pages
Amazon Kendra Web Crawler によるウェブサイトのクロールの停止
Disallow
ディレクティブを使用して、 Amazon Kendra Web Crawler によるウェブサイトのインデックス作成を停止できます。また、クロールされるウェブページとクロールしないウェブページを制御できます。
Amazon Kendra Web Crawler によるウェブサイトのクロールを停止するには、次のディレクティブを使用します。
User-agent: amazon-kendra # Amazon Kendra Web Crawler Disallow: / # disallow access to any pages
Amazon Kendra Web Crawler は、HTML ページのメタタグのロボットnoindex
とnofollow
ディレクティブもサポートしています。これらのディレクティブは、ウェブクローラーによるウェブページのインデックス作成を停止し、ウェブページ上のリンクの追跡を停止します。メタタグをドキュメントのセクションに配置して、ロボットルールのルールを指定します。
例えば、以下のウェブページにはディレクティブロボット noindex
および nofollow
が含まれています。
<html> <head> <meta name="robots" content="noindex, nofollow"/> ... </head> <body>...</body> </html>
Amazon Kendra Web Crawler に関するご質問やご不明点がございましたら、AWS サポートチーム