支持进行微调的大型语言模型 - Amazon SageMaker

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

支持进行微调的大型语言模型

使用 AutopilotAPI,用户可以微调由 Amazon 提供支持的大型语言模型 (LLMs)。 SageMaker JumpStart

注意

对于需要接受最终用户许可协议的微调模型,您必须在创建 AutoML EULA 作业时明确声明接受。请注意,在对预训练模型进行微调后,原始模型的权重会发生变化,因此您以后在部署微调模型EULA时无需接受。

有关在使用 A API utoML 创建微调作业EULA时如何接受的信息,请参阅。使用 AutoML 微调模型时如何设置EULA接受度 API

您可以在下方的模型表中搜索您的JumpStart 模型 ID,然后点击来源列中的链接,找到每个模型的完整详细信息。这些细节可能包括模型支持的语言、模型可能表现出的偏差、用于微调的数据集等。

下表列出了您可以通过 AutoML 作业进行微调的支持的 JumpStart 模型。

JumpStart 型号标识 BaseModelName在API请求中 描述
huggingface-textgeneration-dolly-v2-3b-bf16 Dolly3B

Dolly 3B 是一个基于 pythia-2.8b 的 28 亿个参数遵循指令的大型语言模型。它接受了指令/响应微调数据集 databricks-dolly-15k 的训练,可以执行包括头脑风暴、分类、问答、文本生成、信息提取和总结在内的任务。

huggingface-textgeneration-dolly-v2-7b-bf16 Dolly7B

Dolly 7B 是一个基于 pythia-6.9b 的 69 亿个参数遵循指令的大型语言模型。它接受了指令/响应微调数据集 databricks-dolly-15k 的训练,可以执行包括头脑风暴、分类、问答、文本生成、信息提取和总结在内的任务。

huggingface-textgeneration-dolly-v2-12b-bf16 Dolly12B

Dolly 12B 是一个基于 pythia-12b 的 120 亿个参数遵循指令的大型语言模型。它接受了指令/响应微调数据集 databricks-dolly-15k 的训练,可以执行包括头脑风暴、分类、问答、文本生成、信息提取和总结在内的任务。

huggingface-llm-falcon-7b-bf16 Falcon7B

Falcon 7B是一个70亿个参数的因果关系大型语言模型,使用1500亿个代币进行训练,并使用精心策划的语料库进行了增强。Falcon-7B 仅使用英语和法语数据进行训练,不能适当地推广到其他语言。由于该模型是在大量网络数据上训练的,因此它带有网上常见的陈规定型观念和偏见。

huggingface-llm-falcon-7b-instruct-bf16 Falcon7BInstruct

Falcon 7B Instruct是一个70亿个参数的因果关系大型语言模型,基于Falcon 7B构建,并在2.5亿个聊天/指导数据集的代币混合物上进行了微调。Falcon 7B Instruct 主要使用英语数据进行训练,无法适当地推广到其他语言。此外,由于它是在网络的大型语料库上接受培训的,因此它承载了网上常见的陈规定型观念和偏见。

huggingface-llm-falcon-40b-bf16 Falcon40B

Falcon 40B是一个400亿个参数的因果关系大型语言模型,使用1000亿个代币进行训练,并使用精心策划的语料库进行增强。它主要用英语、德语、西班牙语和法语进行培训,但意大利语、葡萄牙语、波兰语、荷兰语、罗马尼亚语、捷克语和瑞典语能力有限。它不能适当地推广到其他语言。此外,由于它是在网络的大型语料库上接受培训的,因此它承载了网上常见的陈规定型观念和偏见。

huggingface-llm-falcon-40b-instruct-bf16 Falcon40BInstruct

Falcon 40B Instruct 是一个 400 亿个参数的因果关系大型语言模型,建立在 Falcon40B 的基础上,并在 Baize 的混合物上进行了微调。它主要根据英语和法语数据进行训练,不能适当地推广到其他语言。此外,由于它是在网络的大型语料库上接受培训的,因此它承载了网上常见的陈规定型观念和偏见。

huggingface-text2text-flan-t5-large FlanT5L

这些区域有:Flan-T5模型家族是一组大型语言模型,这些模型针对多项任务进行了微调,并且可以进一步训练。这些模型非常适合语言翻译、文本生成、句子完成、词义消歧、摘要或问答等任务。Flan T5 L 是一个使用多种语言训练的7.8亿参数的大型语言模型。您可以在模型表中按型号 ID 搜索的模型详细信息中找到 Flan T5 L 支持的语言列表。 JumpStart

huggingface-text2text-flan-t5-xl FlanT5XL

这些区域有:Flan-T5模型家族是一组大型语言模型,这些模型针对多项任务进行了微调,并且可以进一步训练。这些模型非常适合语言翻译、文本生成、句子完成、词义消歧、摘要或问答等任务。Flan T5 XL 是一款 30 亿个参数的大型语言模型,使用多种语言进行训练。您可以在模型表中按型号 ID 搜索的模型详细信息中找到 Flan T5 XL 支持的语言列表。 JumpStart

huggingface-text2text-flan-t5-xxll FlanT5XXL

这些区域有:Flan-T5模型家族是一组大型语言模型,这些模型针对多项任务进行了微调,并且可以进一步训练。这些模型非常适合语言翻译、文本生成、句子完成、词义消歧、摘要或问答等任务。Flan T5 XXL 是一款 110 亿个参数的模型。您可以在模型表中按型号 ID 搜索的模型详细信息XXL中找到 Flan T5 支持的语言列表。 JumpStart

meta-textgeneration-llama-2-7b Llama2-7B

Llama 2 是一系列经过预训练和微调的生成文本模型,其规模从 70 亿到 700 亿个参数不等。Llama2-7B 是 70 亿个参数的模型,专供英语使用,可以适应各种自然语言生成任务。

meta-textgeneration-llama-2-7b-f Llama2-7BChat

Llama 2 是一系列经过预训练和微调的生成文本模型,其规模从 70 亿到 700 亿个参数不等。Llama2-7B 是 70 亿个参数的聊天模型,针对对话用例进行了优化。

meta-textgeneration-llama-2-13b Llama2-13B

Llama 2 是一系列经过预训练和微调的生成文本模型,其规模从 70 亿到 700 亿个参数不等。Llama2-13B 是一个 130 亿个参数的模型,专供英语使用,可以适应各种自然语言生成任务。

meta-textgeneration-llama-2-13b-f Llama2-13BChat

Llama 2 是一系列经过预训练和微调的生成文本模型,其规模从 70 亿到 700 亿个参数不等。Llama2-13B 是 130 亿个参数的聊天模型,针对对话用例进行了优化。

huggingface-llm-mistral-7b Mistral7B

Mistral 7B 是一个70亿个参数的代码和通用英文文本生成模型。它可用于各种用例,包括文本摘要、分类、文本完成或代码完成。

huggingface-llm-mistral-7b-instruct Mistral7BInstruct

Mistral 7B Instruct 是 Mistral 7B 的微调版本,适用于对话用例。它专门使用各种公开可用的英语对话数据集。

huggingface-textgeneration1-mpt-7b-bf16 MPT7B

MPT7B 是一种解码器式的转换器大型语言模型,具有 67 亿个参数,在 1 万亿个英文文本和代码标记上从头开始预训练。它已准备好处理较长的上下文长度。

huggingface-textgeneration1-mpt-7b-instruct-bf16 MPT7BInstruct

MPT7B Instruct 是任务之后的简短教学模型。它是通过在源自 d atabricks-dolly-15k 和 An thropic 有用和无害 (HH-) 数据集的数据集上微调 MPT 7B 构建的。RLHF