支援大型語言模型進行微調

使用 Autopilot API，使用者可以微調由 Amazon 提供技術支援的大型語言模型（LLMs） SageMaker JumpStart。

注意

對於需要接受最終使用者授權合約的微調模型，您必須在建立 AutoML 任務時明確宣告EULA接受。請注意，微調預先訓練模型後，原始模型的權重會變更，因此在部署微調模型EULA時，您稍後不需要接受。

如需使用 AutoML 建立微調任務EULA時如何接受的資訊API，請參閱如何使用 AutoML 微調模型時設定EULA接受 API。

您可以在下列模型資料表中搜尋JumpStart 模型 ID，然後遵循來源欄中的連結找到每個模型的完整詳細資訊。 https://sagemaker.readthedocs.io/en/stable/doc_utils/pretrainedmodels.html#built-in-algorithms-with-pre-trained-model-table這些詳細資訊可能包括模型支援的語言、可能顯示的偏差、用於微調的資料集等。

下表列出您可以使用 AutoML 任務微調的支援 JumpStart 模型。

JumpStart 模型 ID	`BaseModelName` 在API請求中	描述
huggingface-textgeneration-dolly-v2-3b-bf16	`Dolly3B`	Dolly 3B 是以 pythia-2.8b 為基礎的 28 億參數指令追蹤大型語言模型。其已針對指示/回應微調資料集 databricks-dolly-15k 進行訓練，並可執行包括腦力激盪、分類、問題和答案、文字產生、資訊擷取和摘要等任務。
huggingface-textgeneration-dolly-v2-7b-bf16	`Dolly7B`	Dolly 7B 是以 pythia-6.9b 為基礎的 69 億參數指令追蹤大型語言模型。其已針對指示/回應微調資料集 databricks-dolly-15k 進行訓練，並可執行包括腦力激盪、分類、問題和答案、文字產生、資訊擷取和摘要等任務。
huggingface-textgeneration-dolly-v2-12b-bf16	`Dolly12B`	Dolly 12B 是以 pythia-12b 為基礎的 120 億參數指令追蹤大型語言模型。其已針對指示/回應微調資料集 databricks-dolly-15k 進行訓練，並可執行包括腦力激盪、分類、問題和答案、文字產生、資訊擷取和摘要等任務。
huggingface-llm-falcon-7b-bf16	`Falcon7B`	Falcon 7B 是 70 億參數因果大型語言模型，使用 1，5000 億個權杖進行訓練，並增強了經過策劃的 corpora。Falcon-7B 僅針對英文和法文資料進行訓練，且無法以其他語言進行適當的一般化。由於模型已針對大量 Web 資料進行訓練，因此會攜帶線上常見的刻板印象和偏差。
huggingface-llm-falcon-7b-instruct-bf16	`Falcon7BInstruct`	Falcon 7B Instruct 是以 Falcon 7B 為基礎所建置的 7B0 億個參數因果大型語言模型，並根據聊天/指示資料集的 2.5 億個字符混合進行微調。Falcon 7B Instruct 主要是針對英文資料進行訓練，且無法以其他語言進行適當的一般化。此外，由於它在 Web 的大規模企業代表上進行訓練，因此具有線上常見的刻板印象和偏差。
huggingface-llm-falcon-40b-bf16	`Falcon40B`	Falcon 40B 是 400 億參數因果關係大型語言模型，使用 1，000 億個字符進行訓練，並增強了精選的 corpora。它主要是針對英文、德文、西班牙文和法文進行訓練，在義大利文、葡萄牙文、波蘭文、荷蘭文、羅馬尼亞文、捷克文和瑞典文的功能有限。它無法適當地將概括為其他語言。此外，由於它在 Web 的大規模企業代表上進行訓練，因此具有線上常見的刻板印象和偏差。
huggingface-llm-falcon-40b-instruct-bf16	`Falcon40BInstruct`	Falcon 40B Instruct 是以 Falcon40B 為基礎建置的 400 億參數因果大型語言模型，並根據 Baize 的混合進行微調。其主要是針對英文和法文資料進行訓練，且無法適當概括至其他語言。此外，由於它在 Web 的大規模企業代表上進行訓練，因此具有線上常見的刻板印象和偏差。
huggingface-text2text-flan-t5-large	`FlanT5L`	Flan-T5 模型系列是一組大型語言模型，可根據多個任務進行微調，並可進一步訓練。這些模型非常適合語言翻譯、文字產生、句子完成、字義模糊、摘要或問題回答等任務。Flan T5 L 是 7 億 8 千萬個參數大型語言模型，以多種語言進行訓練。您可以在模型 JumpStart資料表中，依模型 ID 擷取的模型詳細資訊中找到 Flan T5 L 支援的語言清單。
huggingface-text2text-flan-t5-xl	`FlanT5XL`	Flan-T5 模型系列是一組大型語言模型，可根據多個任務進行微調，並可進一步訓練。這些模型非常適合語言翻譯、文字產生、句子完成、字義模糊、摘要或問題回答等任務。Flan T5 XL 是一種 30 億參數大型語言模型，以多種語言進行訓練。您可以在模型 JumpStart資料表中，依模型 ID 擷取的模型詳細資訊中找到 Flan T5 XL 支援的語言清單。
huggingface-text2text-flan-t5-xxll	`FlanT5XXL`	Flan-T5 模型系列是一組大型語言模型，可根據多個任務進行微調，並可進一步訓練。這些模型非常適合語言翻譯、文字產生、句子完成、字義模糊、摘要或問題回答等任務。Flan T5 XXL 是 110 億個參數模型。您可以在的模型資料表 XXL 中，依模型 ID 從搜尋擷取的 JumpStart模型詳細資訊中找到 Flan T5 支援的語言清單。
meta-textgeneration-llama-2-7b	`Llama2-7B`	Llama 2 是預先訓練和微調的生成文字模型集合，其規模範圍從 70 億到 700 億個參數。Llama2-7B 是 70 億參數模型，適用於英文使用，並可適應各種自然語言產生任務。
meta-textgeneration-llama-2-7b-f	`Llama2-7BChat`	Llama 2 是預先訓練和微調的生成文字模型集合，其規模從 70 億到 700 億個參數不等。Llama2-7B 是針對對話使用案例最佳化的 70 億參數聊天模型。
meta-textgeneration-llama-2-13b	`Llama2-13B`	Llama 2 是預先訓練和微調的生成文字模型集合，其規模從 70 億到 700 億個參數不等。Llama2-13B 是 130 億個參數模型，適用於英文使用，並可適應各種自然語言產生任務。
meta-textgeneration-llama-2-13b-f	`Llama2-13BChat`	Llama 2 是預先訓練和微調的生成文字模型集合，其規模從 70 億到 700 億個參數不等。Llama2-13B 是針對對話使用案例最佳化的 130 億參數聊天模型。
huggingface-llm-mistral-7b	`Mistral7B`	Mistral 7B 是 70 億個參數程式碼和一般用途的英文文字產生模型。它可用於各種使用案例，包括文字摘要、分類、文字完成或程式碼完成。
huggingface-llm-mistral-7b-instruct	`Mistral7BInstruct`	Mistral 7B Instruct 是針對對話式使用案例微調的 Mistral 7B 版本。它使用各種公開可用的英文對話資料集來專門設計。
huggingface-textgeneration1-mpt-7b-bf16	`MPT7B`	MPT 7B 是解碼器型轉換器大型語言模型，具有 67 億個參數，從頭開始預先訓練 1 兆個英文文字和程式碼權杖。它已準備好處理長內容長度。
huggingface-textgeneration1-mpt-7b-instruct-bf16	`MPT7BInstruct`	MPT 7B 指示是下列任務的短格式指示模型。其建置方式是針對衍生自 databricks-dolly-15k MPT 的資料集，以及 Anthropic Helpful and Harmless （HH-RLHF）資料集，微調 7B。

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

文件慣用形式

使用 AutoML 建立LLM微調任務 API

資料集檔案類型與輸入資料格式