翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
Amazon Bedrock が提供するウェブクローラーは、Amazon Bedrock ナレッジベースで使用するために選択した URL に接続してクロールします。選択した URL に設定した範囲または制限に従って、ウェブサイトのページをクロールすることができます。AWS Amazon Bedrock のマネジメントコンソール
注記
Web Crawler データソースコネクタはプレビューリリースであり、変更される可能性があります。
クロールするウェブサイトを選択するときは、Amazon 適正利用規約
ウェブクローラーは、RFC 9309
クロールできるウェブページコンテンツアイテムの数とコンテンツアイテムあたりの MB には制限があります。「Quotas for knowledge bases」を参照してください。
サポートされている機能
ウェブクローラーは、シード URL から始まる HTML ページに接続してクロールし、同じ上位のプライマリドメインとパスの下にあるすべての子リンクを巡回します。HTML ページのいずれかがサポートされているドキュメントを参照している場合、それらのドキュメントが同じ上位のプライマリドメイン内にあるかどうかにかかわらず、ウェブクローラーはそれらのドキュメントを取得します。クロール設定を変更することで、クロール動作を変更できます - 「接続設定」を参照する。
以下がサポートされています。
-
複数のソース URLs を選択してクロールし、URLs の範囲を設定してホストのみをクロールするか、サブドメインも含めます。
-
ソース URLs。
-
カスタムユーザーエージェントのサフィックスを指定して、独自のクローラのルールを設定します。
-
フィルターパターンに一致する特定の URLs を含めるか除外します。
-
「許可」や「拒否」などの標準の robots.txt ディレクティブを尊重します。
-
クロールする URL の範囲を制限し、オプションでフィルターパターンに一致する URL を除外します。
-
クロール URLs のレートとクロールするページの最大数を制限します。
-
Amazon CloudWatch でクロールされた URLsのステータスを表示する
前提条件
ウェブクローラーを使用するには、以下を確認してください。
-
ソース URL をクロールする権限があることを確認します。
-
ソース URL に対応する robots.txt へのパスが URL のクロールをブロックしていないことを確認します。ウェブクローラーは、robots.txt の基準に準拠しています。ウェブサイトに robots.txt が見つからない場合は、デフォルトで
disallow
。ウェブクローラーは、RFC 9309に従って robots.txt を尊重します。カスタムユーザーエージェントヘッダーサフィックスを指定して、独自のクローラのルールを設定することもできます。詳細については、このページ接続設定の手順の「ウェブクローラー URL アクセス」を参照してください。 -
CloudWatch Logs 配信を有効にし、ウェブクローラーログの例に従って、ウェブコンテンツを取り込むためのデータ取り込みジョブのステータスを表示し、特定の URLsできない場合。
注記
クロールするウェブサイトを選択するときは、Amazon 適正利用規約
接続設定
URL のクロール、包含/除外フィルター、URL アクセス、増分同期、およびこれらの動作の同期スコープの詳細については、以下を選択してください。
各ページ URL とシード URL の特定の関係に基づいて、クロールする URL の範囲を制限することができます。クローリングを高速化するために、シード URL のホストと初期 URL パスと同じものを持つ URL に制限できます。より広い範囲をクロールする場合は、同じホストを持つ URL をクロールするか、シード URL の任意のサブドメイン内をクロールするかを選択できます。
以下のオプションから選択できます。
-
デフォルト: 同じホストに属し、同じ初期 URL パスを持つウェブページのクロールに制限します。例えば、シード URL が「https://aws.amazon.com/bedrock/」の場合、「https://aws.amazon.com/bedrock/agents/」のように、このパスと、このパスから拡張されたウェブページのみがクロールされます。例えば、「https://aws.amazon.com/ec2/」のような 兄弟 URL はクロールされません。
-
ホストのみ: 同じホストに属するウェブページにクローリングを制限します。例えば、シード URL が「https://aws.amazon.com/bedrock/」の場合、「https://aws.amazon.com/ec2」のように「https://aws.amazon.com」を含むウェブページもクロールされます。
-
サブドメイン: シード URL と同じプライマリドメインを持つウェブページのクロールを含めます。例えば、シード URL が「https://aws.amazon.com/bedrock/」の場合、「https://www.amazon.com」のように「amazon.com」(サブドメイン) を含むウェブページもクロールされます。
注記
過剰になりうるウェブページをクローリングしていないことを確認してください。フィルターや範囲の制限なしで wikipedia.org などの大規模なウェブサイトをクロールすることはお勧めしません。大規模なウェブサイトのクローリングには非常に時間がかかります。
サポートされているファイルタイプは、範囲に関係なく、またファイルタイプに除外パターンがない場合にクロールされます。
Web Crawler は、静的ウェブサイトと動的ウェブサイトをサポートしています。
クローリング速度のスロットリングを制御するために、クローリング URLs のレートを制限することもできます。1 分あたりにホストごとにクロールされる URLs の最大数を設定します。さらに、クロールする総ウェブページの最大数 (最大 25,000) を設定することもできます。ソース URLsを超えると、データソースの同期/取り込みジョブは失敗することに注意してください。
適用範囲に従って、特定の URL を含めることも除外することもできます。サポートされているファイルタイプは、範囲に関係なく、またファイルタイプに除外パターンがない場合にクロールされます。包含フィルターと除外フィルターを指定し、両方が URL に一致する場合、除外フィルターが優先され、ウェブコンテンツはクロールされません。
重要
破壊的なバックトラックと先読みにつながる問題のある正規表現パターンフィルターは拒否されます。
「.pdf」または PDF ウェブページのアタッチメントで終わる URL を除外する正規表現フィルターパターンの例: ".*\.pdf$"
ウェブクローラー を使用して、クロールが許可されているウェブサイトのページをクロールすることができます。
クロールするウェブサイトを選択するときは、Amazon 適正利用規約
ウェブクローラーは、RFC 9309
特定のユーザーエージェントボットは、ユーザーエージェントがソース URLs」するように指定できます。ウェブサイトの robots.txt ファイルを変更して、ウェブクローラーがソース URLs をクロールする方法を制御できます。クローラはまずbedrockbot-UUID
ルールを探し、次に robots.txt ファイル内の汎用bedrockbot
ルールを探します。
ボット保護システムのクローラの許可リストに使用できる User-Agent サフィックスを追加することもできます。ユーザーエージェントの文字列を偽装できないように、このサフィックスを robots.txt
ファイルに追加する必要はありません。たとえば、ウェブクローラーがすべてのウェブサイトコンテンツをクロールし、他のロボットのクロールを禁止するには、次のディレクティブを使用します。
User-agent: bedrockbot-UUID # Amazon Bedrock Web Crawler Allow: / # allow access to all pages User-agent: * # any (other) robot Disallow: / # disallow access to any pages
ウェブクローラーを実行するたびに、ソース URL から到達可能で、範囲とフィルターに一致するすべての URL のコンテンツを取得します。すべてのコンテンツの初回同期後に増分同期を行う場合、Amazon Bedrock はナレッジベースを新規および変更されたコンテンツで更新し、存在しない古いコンテンツを削除します。時折、クローラーはコンテンツがウェブサイトから削除されたかどうかを判断できないことがあります。この場合、ナレッジベースの古いコンテンツを保存する側に回ることになります。
データソースをナレッジベースと同期するには、StartIngestionJob API を使用するか、コンソールでナレッジベースを選択し、データソースの概要セクションで [同期] を選択します。
重要
データソースから同期するすべてのデータは、データを取得する bedrock:Retrieve
アクセス許可を持つすべてのユーザーが利用できるようになります。これには、データソースのアクセス許可が制御されているデータを含めることもできます。詳細については、「Knowledge base permissions」を参照してください。
Web Crawler データソースをナレッジベースに接続する
-
の手順に従ってAmazon Bedrock ナレッジベースでデータソースに接続してナレッジベースを作成する、データソースとして Web Crawler を選択します。
-
データソースの名前とオプションの説明を入力します。
-
クロールする URL のソース URL を指定します。ソース URL の追加を選択すると、最大 9 つの URL を追加できます。ソース URL を提供することで、そのドメインをクロールする権限があることを確認することになります。
-
詳細設定セクションでは、オプションで以下を設定できます。
-
一時データストレージ用の KMS キー。– データをデフォルト AWS マネージドキー または独自の KMS キーを使用して埋め込みに変換しながら、一時的なデータを暗号化できます。詳細については、「データインジェスト時の一時データストレージの暗号化」を参照してください。
-
データ削除ポリシー – デフォルトでベクトルストアに保存されているデータソースのベクトル埋め込みを削除するか、ベクトルストアデータを保持するように選択できます。
-
-
(オプション) ウェブサーバーにアクセスするときにクローラまたはボットを識別する bedrock-UUID- のユーザーエージェントサフィックスを指定します。
-
Sync scope セクションで以下を設定します。
-
ソース URLs をクロールするウェブサイトのドメイン範囲を選択します。
-
デフォルト: 同じホストに属し、同じ初期 URL パスを持つウェブページのクロールに制限します。例えば、シード URL が「https://aws.amazon.com/bedrock/」の場合、「https://aws.amazon.com/bedrock/agents/」のように、このパスと、このパスから拡張されたウェブページのみがクロールされます。例えば、「https://aws.amazon.com/ec2/」のような 兄弟 URL はクロールされません。
-
ホストのみ: 同じホストに属するウェブページにクローリングを制限します。例えば、シード URL が「https://aws.amazon.com/bedrock/」の場合、「https://aws.amazon.com/ec2」のように「https://aws.amazon.com」を含むウェブページもクロールされます。
-
サブドメイン: シード URL と同じプライマリドメインを持つウェブページのクロールを含めます。例えば、シード URL が「https://aws.amazon.com/bedrock/」の場合、「https://www.amazon.com」のように「amazon.com」(サブドメイン) を含むウェブページもクロールされます。
注記
過剰になりうるウェブページをクローリングしていないことを確認してください。フィルターや範囲の制限なしで wikipedia.org などの大規模なウェブサイトをクロールすることはお勧めしません。大規模なウェブサイトのクローリングには非常に時間がかかります。
サポートされているファイルタイプは、範囲に関係なく、またファイルタイプに除外パターンがない場合にクロールされます。
-
-
クローリング速度の最大スロットリング を入力します。ホストごとに 1 分あたり 1~300 URL を取り込みます。クローリング速度が高いほど負荷は増加しますが、所要時間は短くなります。
-
1~25000 のデータソース同期の最大ページ数を入力します。ソース URLs からクロールされるウェブページの最大数を制限します。ウェブページがこの数を超えると、データソースの同期は失敗し、ウェブページは取り込まれません。
-
URL 正規表現パターン (オプション) では、ボックスに正規表現パターンを入力して、包含パターンまたは除外パターンを追加できます。[新しいパターンを追加する] を選択すると、包含および除外フィルターパターンをそれぞれ最大 25 個追加できます。包含パターンと除外パターンは、適用範囲に従ってクロールされます。競合がある場合、除外パターンが優先されます。
-
-
(オプション) コンテンツの解析とチャンキングセクションで、データの解析とチャンキングの方法をカスタマイズできます。これらのカスタマイズの詳細については、以下のリソースを参照してください。
-
解析オプションの詳細については、「」を参照してくださいデータソースの解析オプション。
-
チャンキング戦略の詳細については、「」を参照してくださいナレッジベースでのコンテンツチャンキングの仕組み。
警告
データソースに接続した後でチャンキング戦略を変更することはできません。
-
Lambda 関数を使用してデータのチャンキングとメタデータの処理をカスタマイズする方法の詳細については、「」を参照してくださいカスタム変換 Lambda 関数を使用して、データの取り込み方法を定義する。
-
-
埋め込みモデルとベクトルストアの選択を続けます。残りのステップを確認するには、 に戻りAmazon Bedrock ナレッジベースでデータソースに接続してナレッジベースを作成する、データソースを接続した後、ステップから続行します。