支援大型語言模型進行微調 - Amazon SageMaker AI

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

支援大型語言模型進行微調

使用 Autopilot API,使用者可以微調採用 Amazon SageMaker JumpStart 的大型語言模型 (LLMs)。

注意

對於需要接受最終使用者授權合約的微調模型,您必須在建立 AutoML 任務時明確宣告接受 EULA。請注意,在微調預先訓練模型之後,原始模型的權重會變更,因此您稍後在部署微調模型時不需要接受 EULA。

如需使用 AutoML API 建立微調任務時如何接受 EULA 的資訊,請參閱 如何使用 AutoML API 微調模型時設定 EULA 接受

您可以在下列模型資料表中搜尋 JumpStart 模型 ID,然後遵循來源欄中的連結,以尋找每個模型的完整詳細資訊。 https://sagemaker.readthedocs.io/en/stable/doc_utils/pretrainedmodels.html#built-in-algorithms-with-pre-trained-model-table這些詳細資訊可能包括模型支援的語言、可能顯示的偏差、用於微調的資料集等。

下表列出支援的 JumpStart 模型,您可以使用 AutoML 任務進行微調。

JumpStart 模型 ID API 請求中的BaseModelName 描述
huggingface-textgeneration-dolly-v2-3b-bf16 Dolly3B

Dolly 3B 是以 pythia-2.8b 為基礎的 28 億個參數指令遵循大型語言模型。其已針對指示/回應微調資料集 databricks-dolly-15k 進行訓練,並可執行包括腦力激盪、分類、問題和答案、文字產生、資訊擷取和摘要等任務。

huggingface-textgeneration-dolly-v2-7b-bf16 Dolly7B

Dolly 7B 是以 pythia-6.9b 為基礎的 69 億個參數指令遵循大型語言模型。其已針對指示/回應微調資料集 databricks-dolly-15k 進行訓練,並可執行包括腦力激盪、分類、問題和答案、文字產生、資訊擷取和摘要等任務。

huggingface-textgeneration-dolly-v2-12b-bf16 Dolly12B

Dolly 12B 是以 pythia-12b 為基礎的 120 億個參數指令遵循大型語言模型。其已根據指示/回應微調資料集 databricks-dolly-15k 進行訓練,並可執行包括腦力激盪、分類、問題和答案、文字產生、資訊擷取和摘要等任務。

huggingface-llm-falcon-7b-bf16 Falcon7B

Falcon 7B 是 70 億個參數因果大型語言模型,使用 1,5000 億個字符進行訓練,並增強了精選的 corpora。Falcon-7B 僅針對英文和法文資料進行訓練,且無法以其他語言進行適當一般化。因為模型是針對大量 Web 資料進行訓練,所以會帶來線上常見的刻板印象和偏差。

huggingface-llm-falcon-7b-instruct-bf16 Falcon7BInstruct

Falcon 7B Instruct 是以 Falcon 7B 為基礎建置的 7B0 億個參數因果大型語言模型,並根據聊天/指示資料集的 2.5 億個字符混合進行微調。Falcon 7B Instruct 主要是針對英文資料進行訓練,且無法以其他語言進行適當的一般化。此外,由於它在 Web 的大規模企業代表上進行訓練,它具有線上常見的刻板印象和偏差。

huggingface-llm-falcon-40b-bf16 Falcon40B

Falcon 40B 是 400 億參數因果大型語言模型,以 1,0000 億個字符進行訓練,使用精選企業增強。它主要以英文、德文、西班牙文和法文進行訓練,在義大利文、葡萄牙文、波蘭文、荷蘭文、羅馬尼亞文、捷克文和瑞典文的功能有限。它無法適當地將 概括為其他語言。此外,由於它在 Web 的大規模企業代表上進行訓練,它具有線上常見的刻板印象和偏差。

huggingface-llm-falcon-40b-instruct-bf16 Falcon40BInstruct

Falcon 40B Instruct 是以 Falcon40B 為基礎建置的 400 億個參數因果大型語言模型,並根據 Baize 的混合進行微調。它主要是針對英文和法文資料進行訓練,並且無法適當地將內容歸納到其他語言。此外,由於它在 Web 的大規模企業代表上進行訓練,它具有線上常見的刻板印象和偏差。

huggingface-text2text-flan-t5-large FlanT5L

Flan-T5 模型系列是一組大型語言模型,可針對多個任務進行微調,並可進一步訓練。這些模型非常適合語言翻譯、文字產生、句子完成、單字意義混淆、摘要或問題回答等任務。Flan T5 L 是一種 7.8 億個參數大型語言模型,以多種語言進行訓練。您可以在 JumpStart 模型資料表中依模型 ID 擷取的模型詳細資訊中找到 Flan T5 L 支援的語言清單。

huggingface-text2text-flan-t5-xl FlanT5XL

Flan-T5 模型系列是一組大型語言模型,可針對多個任務進行微調,並可進一步訓練。這些模型非常適合語言翻譯、文字產生、句子完成、單字意義混淆、摘要或問題回答等任務。Flan T5 XL 是 30 億個參數大型語言模型,以多種語言進行訓練。您可以在 JumpStart 模型資料表中依模型 ID 擷取的模型詳細資訊中找到 Flan T5 XL 支援的語言清單。

huggingface-text2text-flan-t5-xxll FlanT5XXL

Flan-T5 模型系列是一組大型語言模型,可針對多個任務進行微調,並可進一步訓練。這些模型非常適合語言翻譯、文字產生、句子完成、單字意義混淆、摘要或問題回答等任務。Flan T5 XXL 是 110 億個參數模型。您可以在 JumpStart 模型資料表中依模型 ID 擷取的模型詳細資訊中找到 Flan T5 XXL 支援的語言清單。

meta-textgeneration-llama-2-7b Llama2-7B

Llama 2 是預先訓練和微調的生成文字模型集合,範圍從 70 億到 700 億個參數。Llama2-7B 是 70 億個參數模型,適用於英文使用,並可適應各種自然語言產生任務。

meta-textgeneration-llama-2-7b-f Llama2-7BChat

Llama 2 是預先訓練和微調的生成文字模型集合,範圍從 70 億到 700 億個參數。Llama2-7B 是針對對話使用案例最佳化的 70 億個參數聊天模型。

meta-textgeneration-llama-2-13b Llama2-13B

Llama 2 是預先訓練和微調的生成文字模型集合,範圍從 70 億到 700 億個參數。Llama2-13B 是 130 億個參數模型,適用於英文使用,並可適應各種自然語言產生任務。

meta-textgeneration-llama-2-13b-f Llama2-13BChat

Llama 2 是預先訓練和微調的生成文字模型集合,範圍從 70 億到 700 億個參數。Llama2-13B 是針對對話使用案例最佳化的 130 億個參數聊天模型。

huggingface-llm-mistral-7b Mistral7B

Mistral 7B 是 70 億個參數程式碼和一般用途英文文字產生模型。它可用於各種使用案例,包括文字摘要、分類、文字完成或程式碼完成。

huggingface-llm-mistral-7b-instruct Mistral7BInstruct

Mistral 7B Instruct 是針對對話式使用案例微調的 Mistral 7B 版本。它使用各種公開可用的英文對話資料集進行專門處理。

huggingface-textgeneration1-mpt-7b-bf16 MPT7B

MPT 7B 是解碼器樣式的大型語言模型,具有 67 億個參數,從頭開始預先訓練 1 兆個英文文字和程式碼字符。它已準備好處理長內容長度。

huggingface-textgeneration1-mpt-7b-instruct-bf16 MPT7BInstruct

MPT 7B Instruct 是下列任務的短格式指令模型。它透過微調 MPT 7B 建置於衍生自 databricks-dolly-15k 的資料集,以及 Anthropic Helpful and Harmless (HH-RLHF) 資料集。