미세 조정을 위한 대규모 언어 모델 지원
Autopilot API를 사용하면 Amazon SageMaker JumpStart 로 구동되는 대규모 언어 모델(LLMs)을 미세 조정할 수 있습니다.
참고
최종 사용자 라이선스 계약의 승인이 필요한 미세 조정 모델의 경우 AutoML 작업 생성 시 EULA 수락을 명시적으로 선언해야 합니다. 사전 학습된 모델을 미세 조정한 후에는 원래 모델의 가중치가 변경되므로 미세 조정된 모델을 배포할 때 나중에 EULA를 수락할 필요가 없습니다.
AutoML API를 사용하여 미세 조정 작업을 생성할 때 EULA를 수락하는 방법에 대한 자세한 내용은 AutoML API를 사용하여 모델을 미세 조정할 때 EULA 수락을 설정하는 방법 섹션을 참조하세요.
다음 모델 테이블
다음 표에는 AutoML 작업으로 미세 조정할 수 있는 지원되는 JumpStart 모델이 나열되어 있습니다.
JumpStart 모델 ID | API 요청의 BaseModelName |
설명 |
---|---|---|
huggingface-textgeneration-dolly-v2-3b-bf16 | Dolly3B |
Dolly 3B는 pythia-2.8b |
huggingface-textgeneration-dolly-v2-7b-bf16 | Dolly7B |
Dolly 7B는 pythia-6.9b |
huggingface-textgeneration-dolly-v2-12b-bf16 | Dolly12B |
Dolly 12B는 pythia-12b |
huggingface-llm-falcon-7b-bf16 | Falcon7B |
Falcon 7B는 엄선한 코포라로 향상된 1,500억 개의 토큰에 대해 훈련된 70억 개의 파라미터 인과관계 대규모 언어 모델입니다. Falcon-7B는 영어 및 프랑스어 데이터에서만 훈련되며 다른 언어로 적절하게 일반화되지 않습니다. 이 모델은 대량의 웹 데이터에 대해 훈련되었으므로 일반적으로 온라인에서 발견되는 고정 관념과 편향을 보입니다. |
huggingface-llm-falcon-7b-instruct-bf16 | Falcon7BInstruct |
Falcon 7B Instruct는 Falcon 7B를 기반으로 구축되고 채팅/지시 데이터세트가 혼합된 2억 5천만 개의 토큰을 기반으로 미세 조정된 70억 개의 파라미터 인과관계 대규모 언어 모델입니다. Falcon 7B Instruct는 대부분 영어 데이터에 대한 교육을 받았으며 다른 언어로는 적절하게 일반화되지 않습니다. 또한 웹을 대표하는 대규모 기업체에 대해 훈련되므로 온라인에서 흔히 접하는 고정 관념과 편향이 수반됩니다. |
huggingface-llm-falcon-40b-bf16 | Falcon40B |
Falcon 40B는 큐레이트된 코포라로 향상된 1,000억 개의 토큰에 대해 훈련된 400억 개의 파라미터 인과관계 대규모 언어 모델입니다. 영어, 독일어, 스페인어 및 프랑스어로 대부분 훈련되었으며 이탈리아어, 포르투갈어, 폴란드어, 네덜란드어, 루마니아어, 체코어 및 스웨덴어로 제한된 기능을 갖추고 있습니다. 다른 언어로는 적절하게 일반화되지 않습니다. 또한 웹을 대표하는 대규모 기업체에 대해 훈련되므로 온라인에서 흔히 접하는 고정 관념과 편향이 수반됩니다. |
huggingface-llm-falcon-40b-instruct-bf16 | Falcon40BInstruct |
Falcon 40B Instruct는 Falcon40B를 기반으로 빌드되고 Baize를 혼합하여 미세 조정된 400억 개의 매개변수 인과관계 대규모 언어 모델입니다. 영어 및 프랑스어 데이터에 대해 대부분 훈련되었으며 다른 언어로는 적절하게 일반화되지 않습니다. 또한 웹을 대표하는 대규모 기업체에 대해 훈련되므로 온라인에서 흔히 접하는 고정 관념과 편향이 수반됩니다. |
huggingface-text2text-flan-t5-large | FlanT5L |
Flan-T5 |
huggingface-text2text-flan-t5-xl | FlanT5XL |
Flan-T5 |
huggingface-text2text-flan-t5-xxll | FlanT5XXL |
Flan-T5 |
meta-textgeneration-llama-2-7b | Llama2-7B |
Llama 2는 70억~700억 파라미터 범위의 사전 훈련되고 미세 조정된 생성 텍스트 모델 모음입니다. Llama2-7B는 영어용으로 설계된 70억 파라미터 모델이며 다양한 자연어 생성 작업에 맞게 조정할 수 있습니다. |
meta-textgeneration-llama-2-7b-f | Llama2-7BChat |
Llama 2는 70억~700억 파라미터 범위의 사전 훈련되고 미세 조정된 생성 텍스트 모델 모음입니다. Llama2-7B는 대화 사용 사례에 최적화된 70억 파라미터 채팅 모델입니다. |
meta-textgeneration-llama-2-13b | Llama2-13B |
Llama 2는 70억~700억 파라미터 범위의 사전 훈련되고 미세 조정된 생성 텍스트 모델 모음입니다. Llama2-13B는 영어용으로 설계된 130억 개의 파라미터 모델로, 다양한 자연어 생성 작업에 맞게 조정할 수 있습니다. |
meta-textgeneration-llama-2-13b-f | Llama2-13BChat |
Llama 2는 70억~700억 파라미터 범위의 사전 훈련되고 미세 조정된 생성 텍스트 모델 모음입니다. Llama2-13B는 대화 사용 사례에 최적화된 130억 개의 파라미터 채팅 모델입니다. |
huggingface-llm-mistral-7b | Mistral7B |
Mistral 7B는 70억 파라미터 코드 및 범용 영어 텍스트 생성 모델입니다. 텍스트 요약, 분류, 텍스트 완료 또는 코드 완료 등 다양한 사용 사례에 사용할 수 있습니다. |
huggingface-llm-mistral-7b-instruct | Mistral7BInstruct |
Mistral 7B Instruct는 대화 사용 사례를 위해 Mistral 7B의 미세 조정된 버전입니다. 영어로 공개적으로 사용 가능한 다양한 대화 데이터세트를 사용하여 전문화되었습니다. |
huggingface-textgeneration1-mpt-7b-bf16 | MPT7B |
MPT 7B는 67억 개의 파라미터가 있는 디코더 스타일 트랜스포머 대규모 언어 모델로, 영어 텍스트 및 코드 토큰 1조 개에 대해 처음부터 사전 훈련되었습니다. 긴 컨텍스트 길이를 처리할 준비가 되어 있습니다. |
huggingface-textgeneration1-mpt-7b-instruct-bf16 | MPT7BInstruct |
MPT 7B Instruct는 작업에 따른 단축형 명령어 모델입니다. databricks-dolly-15k |