기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
Amazon Bedrock 지식 기반을 위한 웹 페이지 크롤링
Amazon Bedrock에서 제공하는 웹 크롤러는 Amazon Bedrock 지식 기반에서 사용하기 위해 선택한 URL을 연결하여 크롤링합니다. 선택한 URL에 대해 설정된 범위나 제한에 따라 웹사이트 페이지를 크롤링할 수 있습니다. AWS Amazon Bedrock용 관리 콘솔
크롤링할 웹 사이트를 선택할 때 Amazon 이용 목적 제한 방침
웹 크롤러는 RFC 9309
크롤링할 수 있는 웹 페이지 콘텐츠 항목 수와 콘텐츠 항목당 MB 크기에는 제한이 있습니다. Quotas for knowledge bases를 참조하세요.
지원 기능
웹 크롤러는 시드 URL에서 시작해 HTML 페이지를 연결하여 크롤링하고, 동일한 상위 기본 도메인 및 경로 아래에 있는 모든 하위 링크를 탐색합니다. HTML 페이지 중 지원되는 문서를 참조하는 경우 웹 크롤러는 이러한 문서가 동일한 상위 기본 도메인에 있는지 여부와 관계없이 해당 문서를 가져옵니다. 크롤링 구성을 변경하여 크롤링 동작을 수정할 수 있습니다. 연결 구성 섹션을 참조하세요.
다음과 같은 작업을 수행할 수 있습니다.
-
여러 소스 URLs 선택하여 크롤링하고 호스트만 크롤링하거나 하위 도메인도 포함하도록 URLs 범위를 설정합니다.
-
소스 URLs.
-
사용자 지정 사용자 에이전트 접미사를 지정하여 자체 크롤러에 대한 규칙을 설정합니다.
-
필터 패턴과 일치하는 특정 URLs을 포함하거나 제외합니다.
-
'허용' 및 '허용 안 함'과 같은 표준 robots.txt 지침을 준수합니다.
-
URLs의 범위를 크롤링하도록 제한하고 선택적으로 필터 패턴과 일치하는 URL의 범위를 제외합니다.
-
URLs 크롤링 속도와 크롤링할 최대 페이지 수를 제한합니다.
-
Amazon CloudWatch에서 크롤링된 URLs의 상태 보기
사전 조건
웹 크롤러를 사용하려면 다음을 수행해야 합니다.
-
소스 URL을 크롤링할 권한이 있는지 확인합니다.
-
소스 URL에 해당하는 robots.txt 경로가 URL 크롤링을 차단하지 않는지 확인하세요. 웹 크롤러는 robots.txt의 표준을 준수합니다. 웹사이트에서 robots.txt가 발견되지 않으면 기본적으로
disallow
가 적용됩니다. 웹 크롤러는 RFC 9309에 따라 robots.txt를 준수합니다. 사용자 지정 사용자 에이전트 헤더 접미사를 지정하여 자체 크롤러에 대한 규칙을 설정할 수도 있습니다. 자세한 내용은이 페이지의 연결 구성 지침에서 웹 크롤러 URL 액세스를 참조하세요. -
CloudWatch Logs 전송을 활성화하고 웹 크롤러 로그의 예제에 따라 웹 콘텐츠를 수집하기 위한 데이터 수집 작업의 상태와 특정 URLs 검색할 수 없는지 확인합니다.
참고
크롤링할 웹 사이트를 선택할 때 Amazon 이용 목적 제한 방침
연결 구성
아래에서 URL 크롤링 동기화 범위, 포함/제외 필터, URL 액세스, 증분 동기화 및 작동 방식에 대한 자세한 내용을 자세히 알아보세요.
각 페이지 URL과 시드 URL의 구체적인 관계를 기준으로 크롤링할 URL의 범위를 제한할 수 있습니다. 크롤링 속도를 높이려면 시드 URL과 동일한 호스트 및 초기 URL 경로를 갖는 URL로 제한할 수 있습니다. 더 광범위한 크롤링의 경우 동일한 호스트 내의 URL 또는 시드 URL의 하위 도메인 내의 URL을 크롤링하도록 선택할 수 있습니다.
다음 옵션 중에서 선택할 수 있습니다.
-
기본값: 기본값: 동일한 호스트에 속하고 동일한 초기 URL 경로를 사용하는 웹 페이지로 크롤링을 제한합니다. 예를 들어, ‘https://aws.amazon.com/bedrock/’이라는 시드 URL이 있으면 이 경로와 이 경로에서 확장되는 웹 페이지만 크롤링됩니다(예: https://aws.amazon.com/bedrock/agents/). ‘https://aws.amazon.com/ec2/’ 같은 형제 URL은 크롤링되지 않습니다.
-
호스트만 해당: 크롤링을 동일한 호스트에 속한 웹 페이지로 제한합니다. 예를 들어, 시드 URL이 ‘https://aws.amazon.com/bedrock/’인 경우, ‘https://aws.amazon.com’이 포함된 웹 페이지도 ‘https://aws.amazon.com/ec2’처럼 크롤링됩니다.
-
하위 도메인: 시드 URL과 동일한 기본 도메인을 갖는 모든 웹 페이지를 크롤링합니다. 예를 들어, 시드 URL이 ‘https://aws.amazon.com/bedrock/’인 경우 ‘amazon.com’(하위 도메인)이 포함된 모든 웹 페이지가 ‘https://www.amazon.com’처럼 크롤링됩니다.
참고
과도한 웹 페이지 크롤링이 발생하지 않도록 하세요. 필터나 범위 제한 없이 wikipedia.org 같은 대규모 웹 사이트를 크롤링하는 것은 권장되지 않습니다. 대규모 웹 사이트를 크롤링하는 데는 시간이 매우 오래 걸립니다.
지원되는 파일 유형은 범위에 관계없이 크롤링되며 파일 유형에 대한 제외 패턴이 없는 경우에도 크롤링됩니다.
웹 크롤러는 정적 웹 사이트와 동적 웹 사이트를 지원합니다.
크롤링 URLs의 속도를 제한하여 크롤링 속도의 제한을 제어할 수도 있습니다. 호스트당 분당 크롤링된 URLs의 최대 수를 설정합니다. 또한 크롤링할 총 웹 페이지의 최대 수(최대 25,000개)를 설정할 수도 있습니다. 소스 URLs 초과하면 데이터 소스 동기화/수집 작업이 실패합니다.
범위에 따라 특정 URL을 포함하거나 제외할 수 있습니다. 지원되는 파일 유형은 범위에 관계없이 크롤링되며 파일 유형에 대한 제외 패턴이 없는 경우에도 크롤링됩니다. 포함 및 제외 필터를 지정하고 두 필터가 모두 URL과 일치하는 경우 제외 필터가 우선하며 해당 웹 콘텐츠는 크롤링되지 않습니다.
중요
치명적인 역추적 및 예측으로 이어지는 문제가 있는 정규식 패턴 필터는 거부됩니다.
‘.pdf’로 끝나는 URL이나 PDF 웹 페이지 첨부 파일을 제외하기 위한 정규식 필터 패턴의 예: ‘.*\.pdf$’
웹 크롤러를 사용하여 크롤링할 권한이 있는 웹 사이트의 페이지를 크롤링할 수 있습니다.
크롤링할 웹 사이트를 선택할 때 Amazon 이용 목적 제한 방침
웹 크롤러는 RFC 9309
특정 사용자 에이전트 봇을 지정하여 사용자 에이전트가 소스 URLs을 크롤링하도록 '허용' 또는 '허용'할 수 있습니다. 웹 사이트의 robots.txt 파일을 수정하여 웹 크롤러가 소스 URLs을 크롤링하는 방법을 제어할 수 있습니다. 크롤러는 먼저 bedrockbot-UUID
규칙을 찾은 다음 robots.txt 파일에서 일반 bedrockbot
규칙을 찾습니다.
봇 보호 시스템에서 크롤러를 허용 목록에 추가하는 데 사용할 수 있는 User-Agent 접미사를 추가할 수도 있습니다. 이 접미사는 아무도 User Agent 문자열을 가장할 수 없도록 하기 위해 robots.txt 파일에 추가할 필요가 없습니다. 예를 들어 웹 크롤러가 모든 웹 사이트 콘텐츠를 크롤링하고 다른 로봇에 대한 크롤링을 허용하지 않도록 하려면 다음 명령을 사용합니다.
User-agent: bedrockbot-UUID # Amazon Bedrock Web Crawler Allow: / # allow access to all pages User-agent: * # any (other) robot Disallow: / # disallow access to any pages
웹 크롤러가 실행될 때마다 범위 및 필터에 일치하는 소스 URL에서 연결할 수 있는 모든 URL의 콘텐츠를 검색합니다. 모든 콘텐츠의 첫 번째 동기화 후에 이루어지는 증분 동기화의 경우 Amazon Bedrock은 지식 기반을 새 콘텐츠 및 수정된 콘텐츠로 업데이트하고 더 이상 존재하지 않는 이전 콘텐츠를 제거합니다. 가끔 크롤러가 웹사이트에서 콘텐츠가 삭제되었는지 확인하지 못할 수도 있습니다. 이런 경우 크롤러는 지식 기반에 있는 오래된 콘텐츠를 보존하는 쪽으로 조치를 취합니다.
데이터 소스를 지식 기반과 동기화하려면 StartIngestionJob API를 사용하거나 콘솔에서 지식 기반을 선택하고 데이터 소스 개요 섹션에서 동기화를 선택합니다.
중요
데이터 소스에서 동기화하는 모든 데이터는 데이터를 검색할 수 있는 bedrock:Retrieve
권한이 있는 모든 사용자에게 제공됩니다. 여기에는 제어된 데이터 소스 권한이 있는 모든 데이터가 포함될 수 있습니다. 자세한 내용은 Knowledge base permissions를 참조하세요.