Amazon Bedrock Knowledge Bases으로 데이터 동기화

중요

검색 정확도와 관리형 환경을 최적화하려면 Amazon Bedrock 관리형 지식 기반을 사용하는 것이 좋습니다.

지식 기반을 만든 후에는 데이터를 수집하거나 동기화하여 데이터를 쿼리할 수 있습니다. 수집을 통해 지정한 벡터 임베딩 모델 및 구성을 기반으로 데이터 소스의 원시 데이터를 벡터 임베딩으로 변환할 수 있습니다.

수집을 시작하기 전에 데이터 소스가 다음 조건을 충족하는지 확인합니다.

데이터 소스에 대한 연결 정보를 구성했습니다. 데이터 소스 커넥터가 데이터 소스 리포지토리에서 데이터를 크롤링하도록 구성하려면 지원되는 데이터 소스 커넥터 섹션을 참조하세요. 지식 기반을 만드는 과정에서 데이터 소스를 구성하게 됩니다.
선택한 벡터 임베딩 모델 및 벡터 저장소를 구성했습니다. 지원되는 벡터 임베딩 모델 및 지식 기반에 대한 벡터 저장소를 참조하세요. 지식 기반을 만드는 과정에서 벡터 임베딩을 구성하게 됩니다.
파일이 지원되는 형식입니다. 자세한 내용은 지원되는 문서 형식을 참조하세요.
파일이 AWS 일반 참조의 Amazon Bedrock 엔드포인트 및 할당량에 지정된 수집 작업 파일 사이즈를 초과하지 않습니다.
데이터 소스에 메타데이터 파일이 포함된 경우, 다음 조건을 확인하여 메타데이터 파일이 무시되지 않도록 하세요.
- 각 .metadata.json 파일은 연결된 소스 파일과 동일한 파일 이름과 확장자를 공유합니다.
- 지식 기반에 대한 벡터 인덱스가 Amazon OpenSearch Serverless 벡터 스토어에 있는 경우, 벡터 인덱스가 faiss 엔진으로 구성되어 있는지 확인합니다. 벡터 인덱스가 nmslib 엔진으로 구성되어 있다면 다음 중 하나를 수행해야 합니다.
  - 콘솔에서 새 지식 기반을 만들고 Amazon Bedrock이 Amazon OpenSearch Serverless에서 벡터 인덱스를 자동으로 만들도록 합니다.
  - 벡터 스토어에서 또 다른 벡터 인덱스를 만들고 엔진으로 faiss를 선택합니다. 그런 다음 새 지식 기반을 만들고 새 벡터 인덱스를 지정합니다.
- 지식 기반의 벡터 인덱스가 Amazon Aurora 데이터베이스 클러스터에 있는 경우 사용자 지정 메타데이터 필드를 사용하여 모든 메타데이터를 단일 열에 저장하고 이 열에 인덱스를 생성하는 것이 좋습니다. 사용자 지정 메타데이터 필드를 제공하지 않는 경우 수집을 시작하기 전에 인덱스의 테이블에 메타데이터 파일의 각 메타데이터 속성에 대한 열이 포함되어 있는지 확인해야 합니다. 자세한 내용은 지식 기반에 대해 생성된 벡터 저장소 사용의 사전 조건 단원을 참조하십시오.

데이터 소스에서 파일을 추가, 수정 또는 제거할 때마다 데이터 소스를 동기화하여 지식 기반에 다시 인덱싱해야 합니다. 동기화는 증분적으로 이루어지므로 Amazon Bedrock은 마지막 동기화 이후에 추가, 수정 또는 삭제된 문서만 처리합니다.

지식 기반이 재동기화를 처리하는 방법

데이터 소스에서 파일을 추가, 수정 또는 제거할 때마다 지식 기반에서 다시 인덱싱되도록 데이터 소스를 동기화해야 합니다. 동기화는 증분식이므로 Amazon Bedrock은 마지막 동기화 이후 추가, 수정 또는 삭제된 문서만 처리합니다. 데이터 소스를 동기화하면 Amazon Bedrock이 문서를 다시 수집하여 정확성과 일관성을 보장합니다. 재수집에는 구문 분석, 청킹, 임베딩 생성 및 벡터 스토어로의 인덱싱이 포함됩니다.

동기화 시나리오
시나리오	발생한 상황
감지된 변경 사항 없음	문서를 건너뜁니다.
콘텐츠 또는 메타데이터가 변경됨	문서가 다시 수집됩니다(다시 구문 분석, 다시 청크, 다시 임베딩 및 다시 인덱싱).
새 문서 추가	새 문서만 수집됩니다.
문서 삭제됨	벡터 스토어에서 문서가 제거됩니다.

메타데이터 전용 최적화

경우에 따라 Amazon Bedrock은 해당 메타데이터 파일과 연결된 문서를 다시 수집하지 않고도 메타데이터를 업데이트할 수 있습니다. 이 최적화는 벡터 스토어에서 기존 벡터 임베딩을 검색하고, 새 메타데이터를 병합하고, 업데이트된 임베딩을 다시 작성하여 임베딩 모델에 대한 호출을 방지합니다.

이 최적화는 다음 조건이 모두 충족되는 경우에만 적용됩니다.

metadata.json 파일만 수정됩니다. 콘텐츠 파일은 변경되지 않습니다.
연결된 콘텐츠 파일은 CSV 파일이 아닙니다.
데이터 소스는 사용자 지정 변환 Lambda 함수를 사용하지 않습니다.

CSV 파일의 재수집 동작

CSV 파일은 메타데이터의 documentStructureConfiguration 필드를 사용하여 인덱싱되는 열을 제어합니다. Amazon Bedrock은 파일을 재처리하지 않고이 구조 구성이 변경되었는지 여부를 확인할 수 없으므로 메타데이터 파일이 업데이트되면 CSV 파일이 항상 다시 수집됩니다.

데이터를 지식 기반에 수집하고 최신 데이터와 동기화하는 방법을 알아보려면 원하는 방법에 해당하는 탭을 선택하고 다음 단계를 따릅니다.

Console

데이터를 지식 기반에 수집하고 최신 데이터와 동기화하는 방법

그 다음 https://console.aws.amazon.com/bedrock/에서 Amazon Bedrock 콘솔을 엽니다.
왼쪽 탐색 창에서 지식 기반을 선택합니다.
데이터 소스 섹션에서 동기화를 선택하여 데이터 수집 또는 최신 데이터 동기화를 시작합니다. 현재 진행 중인 데이터 소스 동기화를 중지하려면 중지를 선택합니다. 데이터 소스 동기화를 중지하려면 데이터 소스가 현재 동기화 중이어야 합니다. 동기화를 다시 선택하여 나머지 데이터를 수집할 수 있습니다.
데이터 수집이 완료되면 녹색 성공 배너가 나타납니다.

참고
Amazon Aurora(RDS) 이외의 벡터 저장소를 사용하는 경우, 데이터 동기화가 완료된 후 새로 동기화된 데이터의 벡터 임베딩이 지식 기반에 반영되고 이를 쿼리에 사용할 수 있게 되기까지 몇 분 정도 기다려야 할 수 있습니다.
데이터 소스를 선택하여 동기화 기록을 볼 수 있습니다. 경고 보기를 선택하여 데이터 수집 작업이 실패한 이유를 확인합니다.

API

데이터를 지식 기반에 수집하고 최신 데이터와 동기화하려면 Amazon Bedrock Agents 빌드 타임 엔드포인트를 사용하여 StartIngestionJob 요청을 전송합니다. knowledgeBaseId 및 dataSourceId를 지정합니다. StopIngestionJob 요청을 전송하여 현재 실행 중인 데이터 수집 작업을 중지할 수도 있습니다. dataSourceId, ingestionJobId, 및 knowledgeBaseId을 지정합니다. 데이터 수집을 중지하려면 데이터 수집 작업이 현재 실행 중이어야 합니다. 준비가 되면 StartIngestionJob 요청을 다시 보내 나머지 데이터를 수집할 수 있습니다.

Amazon Bedrock Agents 빌드 타임 엔드포인트를 사용하여 GetIngestionJob 요청의 응답에서 반환된 ingestionJobId를 사용해 수집 작업의 상태를 추적합니다. 또한 knowledgeBaseId 및 dataSourceId를 지정합니다.

수집 작업이 완료되면 응답의 status는 COMPLETE가 됩니다.

참고
Amazon Aurora(RDS) 이외의 벡터 저장소를 사용하는 경우, 데이터 수집이 완료된 후 벡터 저장소에서 새로 수집된 데이터의 벡터 임베딩을 쿼리에 사용할 수 있게 되기까지 몇 분 정도 기다려야 할 수 있습니다.
응답의 statistics 객체는 데이터 소스의 문서 관련 수집 성공 여부에 대한 정보를 반환합니다.

또한 Amazon Bedrock Agents 빌드 타임 엔드포인트를 사용하여 ListIngestionJobs 요청을 전송해 데이터 소스의 모든 수집 작업에 대한 정보를 볼 수 있습니다. 데이터가 수집되는 지식 기반의 dataSourceId 및 knowledgeBaseId를 지정합니다.

filters 객체에서 검색할 상태를 지정하여 결과를 필터링합니다.
작업이 시작된 시각 또는 sortBy 객체를 지정하여 작업 상태를 기준으로 정렬합니다. 오름차순 또는 내림차순을 지정할 수 있습니다.
응답으로 반환할 최대 결과 수를 maxResults 필드에 설정할 수 있습니다. 설정한 수보다 많은 결과가 있는 경우 응답에서 nextToken이 반환되며, 이를 또 다른 ListIngestionJobs 요청으로 전송하여 다음 작업 배치를 확인할 수 있습니다.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

지식 기반의 보안 구성 설정

변경 사항을 지식 기반에 직접 수집

Amazon Bedrock Knowledge Bases으로 데이터 동기화

중요

지식 기반이 재동기화를 처리하는 방법

메타데이터 전용 최적화

CSV 파일의 재수집 동작

데이터를 지식 기반에 수집하고 최신 데이터와 동기화하는 방법

참고

참고