本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
支援大型語言模型進行微調
使用 Autopilot API,使用者可以微調採用 Amazon SageMaker JumpStart 的大型語言模型 (LLMs)。
注意
對於需要接受最終使用者授權合約的微調模型,您必須在建立 AutoML 任務時明確宣告接受 EULA。請注意,在微調預先訓練模型之後,原始模型的權重會變更,因此您稍後在部署微調模型時不需要接受 EULA。
如需使用 AutoML API 建立微調任務時如何接受 EULA 的資訊,請參閱 如何使用 AutoML API 微調模型時設定 EULA 接受。
您可以在下列模型資料表中搜尋 JumpStart 模型 ID,然後遵循來源欄中的連結,以尋找每個模型的完整詳細資訊。 https://sagemaker.readthedocs.io/en/stable/doc_utils/pretrainedmodels.html#built-in-algorithms-with-pre-trained-model-table
下表列出支援的 JumpStart 模型,您可以使用 AutoML 任務進行微調。
JumpStart 模型 ID | API 請求中的BaseModelName |
描述 |
---|---|---|
huggingface-textgeneration-dolly-v2-3b-bf16 | Dolly3B |
Dolly 3B 是以 pythia-2.8b 為基礎的 28 |
huggingface-textgeneration-dolly-v2-7b-bf16 | Dolly7B |
Dolly 7B 是以 pythia-6.9b 為基礎的 69 |
huggingface-textgeneration-dolly-v2-12b-bf16 | Dolly12B |
Dolly 12B 是以 pythia-12b 為基礎的 12 |
huggingface-llm-falcon-7b-bf16 | Falcon7B |
Falcon 7B 是 70 億個參數因果大型語言模型,使用 1,5000 億個字符進行訓練,並增強了精選的 corpora。Falcon-7B 僅針對英文和法文資料進行訓練,且無法以其他語言進行適當一般化。因為模型是針對大量 Web 資料進行訓練,所以會帶來線上常見的刻板印象和偏差。 |
huggingface-llm-falcon-7b-instruct-bf16 | Falcon7BInstruct |
Falcon 7B Instruct 是以 Falcon 7B 為基礎建置的 7B0 億個參數因果大型語言模型,並根據聊天/指示資料集的 2.5 億個字符混合進行微調。Falcon 7B Instruct 主要是針對英文資料進行訓練,且無法以其他語言進行適當的一般化。此外,由於它在 Web 的大規模企業代表上進行訓練,它具有線上常見的刻板印象和偏差。 |
huggingface-llm-falcon-40b-bf16 | Falcon40B |
Falcon 40B 是 400 億參數因果大型語言模型,以 1,0000 億個字符進行訓練,使用精選企業增強。它主要以英文、德文、西班牙文和法文進行訓練,在義大利文、葡萄牙文、波蘭文、荷蘭文、羅馬尼亞文、捷克文和瑞典文的功能有限。它無法適當地將 概括為其他語言。此外,由於它在 Web 的大規模企業代表上進行訓練,它具有線上常見的刻板印象和偏差。 |
huggingface-llm-falcon-40b-instruct-bf16 | Falcon40BInstruct |
Falcon 40B Instruct 是以 Falcon40B 為基礎建置的 400 億個參數因果大型語言模型,並根據 Baize 的混合進行微調。它主要是針對英文和法文資料進行訓練,並且無法適當地將內容歸納到其他語言。此外,由於它在 Web 的大規模企業代表上進行訓練,它具有線上常見的刻板印象和偏差。 |
huggingface-text2text-flan-t5-large | FlanT5L |
Flan-T5 |
huggingface-text2text-flan-t5-xl | FlanT5XL |
Flan-T5 |
huggingface-text2text-flan-t5-xxll | FlanT5XXL |
Flan-T5 |
meta-textgeneration-llama-2-7b | Llama2-7B |
Llama 2 是預先訓練和微調的生成文字模型集合,範圍從 70 億到 700 億個參數。Llama2-7B 是 70 億個參數模型,適用於英文使用,並可適應各種自然語言產生任務。 |
meta-textgeneration-llama-2-7b-f | Llama2-7BChat |
Llama 2 是預先訓練和微調的生成文字模型集合,範圍從 70 億到 700 億個參數。Llama2-7B 是針對對話使用案例最佳化的 70 億個參數聊天模型。 |
meta-textgeneration-llama-2-13b | Llama2-13B |
Llama 2 是預先訓練和微調的生成文字模型集合,範圍從 70 億到 700 億個參數。Llama2-13B 是 130 億個參數模型,適用於英文使用,並可適應各種自然語言產生任務。 |
meta-textgeneration-llama-2-13b-f | Llama2-13BChat |
Llama 2 是預先訓練和微調的生成文字模型集合,範圍從 70 億到 700 億個參數。Llama2-13B 是針對對話使用案例最佳化的 130 億個參數聊天模型。 |
huggingface-llm-mistral-7b | Mistral7B |
Mistral 7B 是 70 億個參數程式碼和一般用途英文文字產生模型。它可用於各種使用案例,包括文字摘要、分類、文字完成或程式碼完成。 |
huggingface-llm-mistral-7b-instruct | Mistral7BInstruct |
Mistral 7B Instruct 是針對對話式使用案例微調的 Mistral 7B 版本。它使用各種公開可用的英文對話資料集進行專門處理。 |
huggingface-textgeneration1-mpt-7b-bf16 | MPT7B |
MPT 7B 是解碼器樣式的大型語言模型,具有 67 億個參數,從頭開始預先訓練 1 兆個英文文字和程式碼字符。它已準備好處理長內容長度。 |
huggingface-textgeneration1-mpt-7b-instruct-bf16 | MPT7BInstruct |
MPT 7B Instruct 是下列任務的短格式指令模型。它透過微調 MPT 7B 建置於衍生自 databricks-dolly-15k |