지식 기반에서 콘텐츠 청킹의 작동 방식 - Amazon Bedrock

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

지식 기반에서 콘텐츠 청킹의 작동 방식

데이터를 수집할 때 Amazon Bedrock은 먼저 효율적인 데이터 검색을 위해 문서 또는 콘텐츠를 관리 가능한 청크로 분할합니다. 그런 다음 청크는 원본 문서와의 매핑을 유지하면서 임베딩으로 변환되고 벡터 인덱스(데이터의 벡터 표현)에 작성됩니다. 벡터 임베딩을 사용하면 텍스트를 정량적으로 비교할 수 있습니다.

표준 청킹

Amazon Bedrock은 청킹에 대해 다음과 같은 표준 접근 방식을 지원합니다.

  • 고정 크기 청킹: 청크당 토큰 수와 중복 비율을 지정하여 원하는 청크 크기를 구성할 수 있으므로 특정 요구 사항에 맞는 유연한 조정이 가능합니다. 청크당 초과할 수 없는 최대 토큰 수와 연속된 청크 간의 오버랩 비율을 설정할 수 있습니다.

  • 기본 청킹: 콘텐츠를 약 300개의 토큰으로 구성된 텍스트 청크로 분할합니다. 청킹 프로세스는 문장 경계를 고려하여 각 청크 내에 완전한 문장이 유지되도록 합니다.

문서에 대해 청킹 없음을 선택할 수도 있습니다. 그러면 각 문서가 단일 텍스트 청크로 처리됩니다. 청킹 접근 방식/전략으로 청킹 없음을 선택하려면 먼저 문서를 별도의 파일로 분할하여 사전 처리하는 것이 좋습니다. 문서에 청킹을 선택하지 않으면 인용에서 페이지 번호를 보거나 x-amz-bedrock-kb-document-page-number 메타데이터 필드/속성을 기준으로 필터링할 수 없습니다. 이 필드는 PDF 파일 및 Amazon OpenSearch Serverless를 벡터 스토어로 사용하는 경우에만 자동으로 생성됩니다.

계층적 청킹

계층적 청킹에는 하위 청크와 상위 청크의 중첩 구조로 정보를 구성하는 작업이 포함됩니다. 데이터 소스를 만들 때 상위 청크 크기와 하위 청크 크기, 각 청크 간의 오버랩 토큰 수를 정의할 수 있습니다. 검색 과정에서 시스템이 하위 청크를 먼저 검색하지만, 모델에 보다 포괄적인 컨텍스트를 제공할 수 있도록 이후에 이를 더 광범위한 상위 청크로 대체합니다.

작은 텍스트 임베딩은 더 정확하지만, 검색에서는 포괄적인 컨텍스트를 목표로 합니다. 계층적 청킹 시스템은 필요한 경우 검색된 하위 청크를 상위 청크로 대체하여 이러한 요구 사항의 균형을 맞춥니다.

계층적 청킹에서 Amazon Bedrock 지식 기반은 청킹에 대해 두 가지 수준 또는 다음과 같은 깊이를 지정할 수 있도록 지원합니다.

  • 상위: 최대 상위 청크 토큰 크기를 설정합니다.

  • 하위: 최대 하위 청크 토큰 크기를 설정합니다.

청크 간 오버랩 토큰도 설정합니다. 연속된 상위 청크와 연속된 하위 청크 간 오버랩 토큰의 절대 수를 설정합니다.

시맨틱 청킹

시맨틱 청킹은 텍스트를 의미 있는 청크로 나누어 이해도와 정보 검색을 향상시키는 자연어 처리 기법입니다. 이는 단지 구문 구조가 아닌 의미적 콘텐츠에 집중하여 검색 정확도를 개선하는 것을 목표로 합니다. 이렇게 하면 관련 정보를 보다 정확하게 추출하고 조작할 수 있습니다.

시맨틱 청킹을 구성할 때 다음과 같은 하이퍼파라미터를 지정할 수 있습니다.

  • 최대 토큰: 문장 경계를 고려하면서 단일 청크에 포함되어야 하는 최대 토큰 수입니다.

  • 버퍼 크기: 지정된 문장의 경우 버퍼 크기는 임베딩 생성을 위해 추가할 주변 문장 수를 정의합니다. 예를 들어 버퍼 크기가 1이면 3개의 문장(현재, 이전 및 다음 문장)이 결합되고 임베딩됩니다. 이 파라미터는 각 청크의 경계를 결정하기 위해 함께 검사되는 텍스트의 양에 영향을 미칠 수 있으며, 이는 결과 청크의 세분성과 일관성에 영향을 미칩니다. 버퍼 크기가 클수록 더 많은 컨텍스트를 캡처할 수 있지만, 노이즈가 발생할 수도 있습니다. 또한 버퍼 크기가 작을수록 중요한 컨텍스트를 놓칠 수 있지만, 더 정확한 청킹을 보장할 수 있습니다.

  • 중단점 백분위수 임계값: 문장 사이의 중단점을 찾기 위한 문장 간 거리/유사성의 백분위수 임계값입니다. 더 높은 임계값을 적용하려면 문장을 여러 부분으로 나눌 수 있도록 문장의 구별이 더 쉬워야 합니다. 임계값이 높을수록 청크 수가 줄어들고 일반적으로 평균 청크 크기가 커집니다.

    참고

    파운데이션 모델을 사용하기 때문에 시맨틱 청킹을 사용하면 추가 비용이 발생합니다. 비용은 보유한 데이터의 양에 따라 달라집니다. 파운데이션 모델의 비용에 대한 자세한 내용은 Amazon Bedrock 요금을 참조하세요.