Amazon Titan Text Embeddings 모델 - Amazon Bedrock

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

Amazon Titan Text Embeddings 모델

Amazon Titan Embeddings 텍스트 모델에는 Amazon Titan 텍스트 임베딩 v2 및 타이탄 텍스트 임베딩 G1 모델이 포함됩니다.

텍스트 임베딩은 문서, 단락, 문장과 같은 비정형 텍스트를 유의미한 벡터로 표현한 것입니다. 텍스트의 본문을 입력하면 (1 x n) 벡터가 출력됩니다. 다양한 응용 분야에 임베딩 벡터를 사용할 수 있습니다.

Amazon Titan 텍스트 임베딩 v2 모델 (amazon.titan-embed-text-v2:0) 은 최대 8,192개의 토큰을 받을 수 있으며 1,024 차원의 벡터를 출력합니다. 또한 이 모델은 100개 이상의 다른 언어에서도 작동합니다. 이 모델은 텍스트 검색 작업에 최적화되어 있지만 시맨틱 유사성 및 클러스터링과 같은 추가 작업도 수행할 수 있습니다. Amazon Titan Embeddings 텍스트 v2는 긴 문서도 지원하지만, 검색 작업의 경우 문서를 단락이나 섹션과 같은 논리적 세그먼트로 분할하는 것이 좋습니다.

Amazon Titan Embeddings 모델은 문서, 단락 및 문장의 의미 있는 의미있는 의미있는 표현을 생성합니다. Amazon Titan 텍스트 임베딩은 텍스트 본문을 입력으로 받아 n차원 벡터를 생성합니다. Amazon Titan Text Embeddings는 지연 시간이 최적화된 엔드포인트 호출 [링크] 를 통해 제공되므로 검색 속도가 빨라지고 (검색 단계에서 권장) 처리량이 최적화된 배치 작업 [링크] 을 통해 제공되므로 색인 생성 속도가 빨라집니다.

Amazon Titan Embedding Text v2 모델은 다음 언어를 지원합니다. 영어, 독일어, 프랑스어, 스페인어, 일본어, 중국어, 힌디어, 아랍어, 이탈리아어, 포르투갈어, 스웨덴어, 한국어, 히브리어, 체코어, 터키어, 타갈로그어, 러시아어, 네덜란드어, 폴란드어, 타밀어, 마라티어, 말라얄람어, 텔루구어, 칸나다어, 베트남어, 인도네시아어, 페르시아어, 루마니아어, 덴마크어, 태국어, 핀란드어, 슬로바키아어, 우크라이나어, 노르웨이어, 불가리아어, 카탈로니아어, 세르비아어, 크로아티아어, 리투아니아어, 슬로베니아어, 에스토니아어, 라틴어, 벵골어, 라트비아어, 말레이어, 보스니아어, 알바니아어, 아제르바이잔어, 갈리시아어, 아이슬란드어, 조지아어,마케도니아어, 바스크어, 아르메니아어, 네팔어, 우르두어, 카자흐어, 몽골어, 벨라루스어, 우즈베크어, 크메르어, 노르웨이어 뉘노르스크, 구자라트어, 버마어, 웨일스어, 에스페란토어, 신할라어, 타타르어, 스와힐리어, 아프리칸스어, 아일랜드어, 판자브어, 쿠르드어, 키르기스어, 타지크어, 오리야어, 라오스어, 페로스어, 몰타어, 소말리아어, 룩셈부르크어, 암하라어, 오크어, 자바어, 하우사어, 푸쉬토어, 산스크리트어, 서부 프리지아어, 마다가스카어, 아삼어, 바쉬르어, 브르타뉴어, 와라이어 (필리핀), 투르크멘어, 코르시카어, 디베히어, 세부아노어, 키냐르완다어, 아이티어, 이디시어, 신디시어, 신디시어 줄루어, 스코틀랜드 게일어, 티베트어, 위구르어, 마오리, 로마어, 코사어, 순다어, 요루바어.

참고

Amazon Titan 텍스트 임베딩 v2 모델 및 Titan 텍스트 임베딩 v1 모델은 또는 와 같은 추론 파라미터를 지원하지 않습니다. maxTokenCount topP

아마존 타이탄 텍스트 임베딩 V2 모델

  • 모델 IDamazon.titan-embed-text-v2:0

  • 최대 입력 텍스트 토큰 — 8,192

  • 언어 - 영어 (100개 이상의 언어 미리 보기)

  • 최대 입력 이미지 크기 - 5MB

  • 출력 벡터 크기 - 1,024(기본값), 384, 256

  • 추론 유형 - 온디맨드, 프로비저닝된 처리량

  • 지원되는 사용 사례 — RAG 문서 검색, 순위 조정, 분류 등

참고

타이탄 텍스트 임베딩 V2는 최대 8,192개의 토큰이 포함된 비어 있지 않은 문자열을 입력으로 사용합니다. 영어의 문자 대 토큰 비율은 토큰당 4.7자입니다. 타이탄 텍스트 임베딩 V1과 타이탄 텍스트 임베딩 V2는 최대 8,192개의 토큰을 수용할 수 있지만 문서를 논리적 세그먼트 (예: 단락 또는 섹션) 로 분할하는 것이 좋습니다.

텍스트 또는 이미지 임베딩 모델을 사용하려면 Invoke Model API 연산을 amazon.titan-embed-text-v1 또는 amazon.titan-embed-image-v1 와 함께 사용하고 응답에서 임베딩 객체를 검색하십시오. model Id

Jupyter Notebook 예제를 보려면

  1. 집에서 https://console.aws.amazon.com/bedrock/ Amazon Bedrock 콘솔에 로그인합니다.

  2. 왼쪽 메뉴에서 기본 모델을 선택합니다.

  3. 아래로 스크롤하여 Amazon Titan Embeddings G1 - Text 모델을 선택합니다.

  4. Amazon Titan Embeddings G1 - Text 탭 (선택한 모델에 따라 다름) 에서 예제 노트북 보기를 선택하여 임베딩용 예제 노트북을 볼 수 있습니다.

멀티모달 훈련용 데이터 세트 준비에 대한 자세한 내용은 데이터 세트 준비를 참조하세요.