Amazon Titan Multimodal Embeddings G1 모델 - Amazon Bedrock

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

Amazon Titan Multimodal Embeddings G1 모델

Amazon Titan 파운데이션 모델은 대규모 데이터세트에서 사전 훈련을 거친 강력한 범용 모델입니다. 있는 그대로 사용하거나, 대량의 데이터에 주석을 달지 않고 특정 작업에 대한 자체 데이터로 모델을 미세 조정하여 사용자 지정합니다.

Titan 모델에는 임베딩, 텍스트 생성, 이미지 생성의 세 가지 유형이 있습니다.

두 가지 Titan Multimodal Embeddings G1 모델이 있습니다. Titan Multimodal Embeddings G1 모델은 텍스트 입력(단어, 문구 또는 가능한 큰 텍스트 단위)을 텍스트의 시맨틱 의미가 포함된 숫자 표현(임베딩이라고 함)으로 변환합니다. 이 모델은 텍스트를 생성하지는 않지만 개인화 및 검색과 같은 애플리케이션에 유용합니다. 임베딩을 비교하면 모델은 단어 매칭보다 더 관련성이 높고 상황에 맞는 응답을 생성합니다. Multimodal Embeddings G1 모델은 텍스트, 유사 이미지 또는 텍스트와 이미지의 조합으로 이미지를 검색하는 등의 사용 사례에 사용됩니다. 입력 이미지 또는 텍스트를 동일한 시맨틱 공간에서 이미지와 텍스트의 시맨틱 의미를 모두 포함하는 임베딩으로 변환합니다.

Titan Text 모델은 요약, 텍스트 생성, 분류, 개방형 QnA 및 정보 추출과 같은 작업을 위한 생성형 LLM입니다. 또한 여러 프로그래밍 언어뿐만 아니라 테이블, JSON, .csv 파일과 같은 풍부한 텍스트 형식에 대해서도 훈련됩니다.

Amazon Titan 멀티모달 임베딩 모델 G1

  • 모델 IDamazon.titan-embed-image-v1

  • 최대 입력 텍스트 토큰 수 - 256

  • 언어 - 영어

  • 최대 입력 이미지 크기 - 25MB

  • 출력 벡터 크기 - 1,024(기본값), 384, 256

  • 추론 유형 - 온디맨드, 프로비저닝된 처리량

  • 지원되는 사용 사례 - 검색, 추천, 개인 맞춤

Titan Text Embeddings V1은 최대 8,192개의 토큰이 있는 비어 있지 않은 문자열을 입력으로 가져오고 1,024차원 임베딩을 반환합니다. 영어 문자 대 토큰 비율은 평균 4.7자/토큰입니다. RAG 사용 사례에 대한 참고: Titan Text Embeddings V2는 최대 8,192개의 토큰을 수용할 수 있지만 문서를 논리적 세그먼트(예: 단락 또는 섹션)로 분할하는 것이 좋습니다.

임베딩 길이

사용자 지정 임베딩 길이 설정은 선택 사항입니다. 임베딩 기본 길이는 1,024자이며 대부분의 사용 사례에 적합합니다. 임베딩 길이는 256자, 384자 또는 1,024자로 설정할 수 있습니다. 임베딩 크기가 클수록 응답이 더 디테일해지지만 계산 시간도 늘어납니다. 임베딩 길이가 짧을수록 디테일은 떨어지지만 응답 시간이 향상됩니다.

# EmbeddingConfig Shape { 'outputEmbeddingLength': int // Optional, One of: [256, 384, 1024], default: 1024 } # Updated API Payload Example body = json.dumps({ "inputText": "hi", "inputImage": image_string, "embeddingConfig": { "outputEmbeddingLength": 256 } })

미세 조정

  • Amazon Titan Multimodal Embeddings G1 미세 조정에 대한 입력은 이미지-텍스트 페어입니다.

  • 이미지 형식: PNG, JPEG

  • 입력 이미지 크기 제한 - 25MB

  • 이미지 크기: 최소 - 256픽셀, 최대 - 4,096픽셀

  • 캡션의 최대 토큰 수: 128

  • 훈련 데이터 세트 크기 범위: 1,000~500,000

  • 검증 데이터 세트 크기 범위: 8~50,000

  • 캡션 길이(문자 수): 0~2,560

  • 이미지당 최대 총 픽셀 수: 2,048*2,048*3

  • 가로 세로 비율(w/h): 최소 - 0.25, 최대 - 4

데이터 세트 준비

훈련 데이터 세트의 경우 여러 개의 JSON 라인이 포함된 .jsonl 파일을 생성합니다. 각 JSON 라인에는 Sagemaker 증강 매니페스트 형식과 유사한 image-refcaption 속성이 모두 포함되어 있습니다. 검증 데이터 세트가 필요합니다. 현재 자동 캡션 기능은 지원되지 않습니다.

{"image-ref": "s3://bucket-1/folder1/0001.png", "caption": "some text"} {"image-ref": "s3://bucket-1/folder2/0002.png", "caption": "some text"} {"image-ref": "s3://bucket-1/folder1/0003.png", "caption": "some text"}

훈련 데이터 세트 및 검증 데이터 세트 두 가지 모두의 경우 여러 개의 JSON 라인이 포함된 .jsonl 파일을 생성합니다.

Amazon S3 경로는 Amazon Bedrock 서비스 역할에 IAM 정책을 연결하여 Amazon Bedrock이 데이터에 액세스할 수 있도록 권한을 제공한 폴더와 동일한 폴더에 있어야 합니다. 훈련 데이터에 IAM 정책을 부여하는 방법에 대한 자세한 내용은 훈련 데이터에 대한 사용자 지정 작업 액세스 권한 부여를 참조하세요.

하이퍼파라미터

Multimodal Embeddings 모델 하이퍼파라미터에 맞게 이 값을 조정할 수 있습니다. 기본값은 대부분의 사용 사례에 적합합니다.

  • 학습률 - (최소/최대 학습률) - 기본값: 5.00E-05, 최소: 5.00E-08, 최대: 1

  • 배치 크기 - 유효 배치 크기 - 기본값: 576, 최소: 256, 최대: 9,216

  • 최대 에포크 - 기본값: ‘자동’, 최소: 1, 최대: 100