기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
데이터 소스에 대한 수집 사용자 지정
에서 데이터 소스를 연결할 때 벡터 수집을 사용자 지정 AWS Management Console 하거나 CreateDataSource 요청을 보낼 때 vectorIngestionConfiguration
필드 값을 수정하여 벡터 수집을 사용자 지정할 수 있습니다.
주제를 선택하여 데이터 소스에 연결할 때 수집을 사용자 지정하기 위한 구성을 포함하는 방법을 알아봅니다.
구문 분석에 사용할 도구를 선택합니다.
데이터의 문서를 구문 분석하는 방법을 사용자 지정할 수 있습니다. Amazon Bedrock 지식 기반에서 데이터를 구문 분석하는 옵션에 대한 자세한 내용은 섹션을 참조하세요데이터 소스에 대한 구문 분석 옵션.
에서 데이터 소스에 연결할 때 구문 분석 전략을 AWS Management Console 선택합니다. Amazon Bedrock API를 사용하면 VectorIngestionConfiguration의 필드에 ParsingConfiguration을 포함합니다. parsingConfiguration
VectorIngestionConfiguration
참고
이 구성을 생략하면 Amazon Bedrock 지식 기반에서 Amazon Bedrock 기본 구문 분석기를 사용합니다.
사용하려는 구문 분석 전략에 해당하는 섹션을 확장합니다.
기본 구문 분석기를 사용하려면 내에 parsingConfiguration
필드를 포함하지 마십시오VectorIngestionConfiguration
.
Amazon Bedrock Data Automation 구문 분석기를 사용하려면의 BEDROCK_DATA_AUTOMATION
parsingStrategy
필드에를 지정ParsingConfiguration
하고 다음 형식과 같이 bedrockDataAutomationConfiguration
필드에 BedrockDataAutomationConfiguration을 포함합니다.
{ "parsingStrategy": "BEDROCK_DATA_AUTOMATION", "bedrockDataAutomationConfiguration": { "parsingModality": "string" } }
파운데이션 모델을 파서로 사용하려면의 BEDROCK_FOUNDATION_MODEL
parsingStrategy
필드에를 지정ParsingConfiguration
하고 다음 형식과 같이 bedrockFoundationModelConfiguration
필드에 BedrockFoundationModelConfiguration을 포함합니다.
{ "parsingStrategy": "BEDROCK_FOUNDATION_MODEL", "bedrockFoundationModelConfiguration": { "modelArn": "string", "parsingModality": "string", "parsingPrompt": { "parsingPromptText": "string" } } }
청킹 전략 선택
데이터의 문서가 저장 및 검색을 위해 청크되는 방법을 사용자 지정할 수 있습니다. Amazon Bedrock 지식 기반에서 데이터를 청킹하는 옵션에 대한 자세한 내용은 섹션을 참조하세요지식 기반에서 콘텐츠 청킹의 작동 방식.
주의
데이터 소스에 연결한 후에는 청킹 전략을 변경할 수 없습니다.
에서 데이터 소스에 연결할 때 청킹 전략을 AWS Management Console 선택합니다. Amazon Bedrock API를 사용하면 VectorIngestionConfiguration의 필드에 ChunkingConfiguration을 포함합니다. chunkingConfiguration
VectorIngestionConfiguration
참고
이 구성을 생략하면 Amazon Bedrock은 문장 경계를 유지하면서 콘텐츠를 약 300개의 토큰 청크로 분할합니다.
사용하려는 구문 분석 전략에 해당하는 섹션을 확장합니다.
데이터 소스의 각 문서를 단일 소스 청크로 처리하려면의 NONE
chunkingStrategy
필드에 다음 형식으로 ChunkingConfiguration
를 지정합니다.
{ "chunkingStrategy": "NONE" }
데이터 소스의 각 문서를 거의 동일한 크기의 청크로 나누려면의 FIXED_SIZE
chunkingStrategy
필드에를 지정ChunkingConfiguration
하고 다음 형식과 같이 fixedSizeChunkingConfiguration
필드에 FixedSizeChunkingConfiguration을 포함합니다.
{ "chunkingStrategy": "FIXED_SIZE", "fixedSizeChunkingConfiguration": { "maxTokens": number, "overlapPercentage": number } }
데이터 소스의 각 문서를 두 가지 수준으로 나누려면 두 번째 계층에 첫 번째 계층에서 파생된 더 작은 청크가 포함된 경우 다음 형식HIERARCHICAL
과 같이의 chunkingStrategy
필드에를 지정ChunkingConfiguration
하고 hierarchicalChunkingConfiguration
필드를 포함합니다.
{ "chunkingStrategy": "HIERARCHICAL", "hierarchicalChunkingConfiguration": { "levelConfigurations": [{ "maxTokens": number }], "overlapTokens": number } }
데이터 소스의 각 문서를 구문 구조보다 의미의 의미를 우선시하는 청크로 나누려면의 SEMANTIC
chunkingStrategy
필드에를 지정ChunkingConfiguration
하고 다음 형식과 같이 semanticChunkingConfiguration
필드를 포함합니다.
{ "chunkingStrategy": "SEMANTIC", "semanticChunkingConfiguration": { "breakpointPercentileThreshold": number, "bufferSize": number, "maxTokens": number } }
수집 중 Lambda 함수 사용
다음과 같은 방법으로 Lambda 함수를 사용하여 데이터의 소스 청크를 벡터 스토어에 쓰는 방법을 사후 처리할 수 있습니다.
-
청킹 로직을 포함하여 사용자 지정 청킹 전략을 제공합니다.
-
청크 수준 메타데이터를 지정하는 로직을 포함합니다.
수집을 위한 사용자 지정 Lambda 함수 작성에 대한 자세한 내용은 섹션을 참조하세요사용자 지정 변환 Lambda 함수를 사용하여 데이터 수집 방법을 정의합니다.. 에서 데이터 소스에 연결할 때 Lambda 함수를 AWS Management Console 선택합니다. Amazon Bedrock API를 사용하면 VectorIngestionConfiguration의 필드에 CustomTransformationConfiguration을 포함하고 다음 형식과 같이 Lambda의 ARN을 지정합니다. CustomTransformationConfiguration
VectorIngestionConfiguration
{ "transformations": [{ "transformationFunction": { "transformationLambdaConfiguration": { "lambdaArn": "string" } }, "stepToApply": "POST_CHUNKING" }], "intermediateStorage": { "s3Location": { "uri": "string" } } }
Lambda 함수를 적용한 후 출력을 저장할 S3 위치도 지정합니다.
Amazon Bedrock에서 제공하는 청킹 옵션 중 하나를 적용한 후 Lambda 함수를 적용하는 chunkingConfiguration
필드를 포함할 수 있습니다.