Amazon Bedrock 지식 베이스와 데이터를 동기화하십시오. - Amazon Bedrock

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

Amazon Bedrock 지식 베이스와 데이터를 동기화하십시오.

지식창고를 만든 후에는 데이터를 쿼리할 수 있도록 데이터를 수집하거나 동기화합니다. Ingestion은 데이터 원본의 원시 데이터를 벡터 임베딩으로 변환합니다. 수집을 시작하기 전에 데이터 원본이 다음 조건을 충족하는지 확인하세요.

  • 데이터 원본의 연결 정보를 구성했습니다. 데이터 원본 리포지토리의 데이터를 크롤링하도록 데이터 원본 커넥터를 구성하려면 지원되는 데이터 원본 커넥터를 참조하십시오.

  • 파일은 지원되는 형식입니다. 자세한 내용은 Support 문서 형식을 참조하십시오.

  • 파일은 에서 지정한 최대 파일 크기를 초과하지 않습니다지식창고 할당량.

  • 데이터 원본에 메타데이터 파일이 포함된 경우 다음 조건을 확인하여 메타데이터 파일이 무시되지 않도록 하세요.

    • .metadata.json 파일은 연결된 원본 파일과 동일한 파일 이름 및 확장자를 공유합니다.

    • 지식창고의 벡터 인덱스가 Amazon OpenSearch Serverless 벡터 스토어에 있는 경우 벡터 인덱스가 faiss 엔진으로 구성되어 있는지 확인하십시오. 벡터 인덱스가 nmslib 엔진으로 구성된 경우 다음 중 하나를 수행해야 합니다.

    • 지식창고의 벡터 인덱스가 Amazon Aurora 데이터베이스 클러스터에 있는 경우, 수집을 시작하기 전에 인덱스 테이블에 메타데이터 파일의 각 메타데이터 속성에 대한 열이 포함되어 있는지 확인하십시오.

참고

데이터 소스에서 파일을 추가, 수정 또는 제거할 때마다 지식 베이스에 다시 인덱싱되도록 데이터 소스를 동기화해야 합니다. 동기화는 점진적이므로 Amazon Bedrock은 마지막 동기화 이후 추가, 수정 또는 삭제된 문서만 처리합니다.

데이터 원본을 동기화하고 데이터를 지식 베이스로 수집하는 방법을 알아보려면 선택한 방법에 해당하는 탭을 선택하고 단계를 따르십시오.

Console
데이터 원본을 동기화하고 데이터를 인제스트하려면
  1. 에서 아마존 베드락 콘솔을 엽니다. https://console.aws.amazon.com/bedrock/

  2. 왼쪽 탐색 창에서 지식 기반을 선택합니다.

  3. 데이터 소스 섹션에서 동기화를 선택하여 데이터 모으기를 시작합니다.

  4. 데이터 모으기가 완료되면 녹색 성공 배너가 나타납니다.

    참고

    Amazon Aurora () 이외의 벡터 저장소를 사용하는 경우 데이터 동기화가 완료된 후 새로 동기화된 데이터의 벡터 임베딩이 지식창고에 반영되어 쿼리에 사용할 수 있을 때까지 몇 분 정도 걸릴 수 있습니다. RDS

  5. 데이터 소스를 선택하여 동기화 기록을 볼 수 있습니다. 경고 보기를 선택하여 데이터 모으기 작업이 실패한 이유를 확인합니다.

API

데이터 원본을 동기화하고 지식창고에 데이터를 수집하려면 Amazon Bedrock용 에이전트 StartIngestionJob빌드 타임 엔드포인트로 요청을 보내십시오. dataSourceId및 를 지정하십시오. knowledgeBaseId

Amazon Bedrock용 에이전트 빌드 타임 엔드포인트와 함께 GetIngestionJob요청의 응답에서 ingestionJobId 반환된 결과를 사용하여 수집 작업의 상태를 추적합니다. 또한 및 도 지정하십시오. knowledgeBaseId dataSourceId

  • 수집 작업이 완료되면 응답의 statusCOMPLETE가 됩니다.

    참고

    Amazon Aurora () 이외의 벡터 저장소를 사용하는 경우 데이터 수집이 완료된 후 새로 수집된 데이터의 벡터 임베딩을 벡터 저장소에서 쿼리용으로 사용할 수 있을 때까지 몇 분 정도 걸릴 수 있습니다. RDS

  • 응답의 statistics 객체는 데이터 소스의 문서 관련 수집 성공 여부에 대한 정보를 반환합니다.

Amazon Bedrock용 에이전트 빌드 타임 엔드포인트와 함께 ListIngestionJobs요청을 전송하여 데이터 소스의 모든 수집 작업에 대한 정보를 볼 수도 있습니다. 데이터를 수집할 대상 지식 knowledgeBaseId 베이스의 이름 dataSourceId 및 내용을 지정하십시오.

  • filters 객체에서 검색할 상태를 지정하여 결과를 필터링합니다.

  • 작업이 시작된 시각 또는 sortBy 객체를 지정하여 작업 상태를 기준으로 정렬합니다. 오름차순 또는 내림차순을 지정할 수 있습니다.

  • 응답으로 반환할 최대 결과 수를 maxResults 필드에 설정할 수 있습니다. 설정한 수보다 많은 결과가 있는 경우 응답은 nextToken a를 반환하며 다음 작업 배치를 확인하기 위해 다른 ListIngestionJobs요청으로 보낼 수 있습니다.