

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 使用自定义模型导入功能将自定义的开源模型导入 Amazon Bedrock 中
<a name="model-customization-import-model"></a>

您可以使用 Amazon Bedrock 自定义模型导入功能来导入您在其他环境（例如 Amazon AI）中自定义的基础模型，从而在 Ama SageMaker zon Bedrock 中创建自定义模型。例如，您可能有一个在 Amazon A SageMaker I 中创建的具有专有模型权重的模型。现在，您可以将该模型导入 Amazon Bedrock，然后利用 Amazon Bedrock 的功能对该模型进行推理调用。

您可以将导入的模型与按需吞吐量配合使用。使用[InvokeModel](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_runtime_InvokeModel.html)或[InvokeModelWithResponseStream](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_runtime_InvokeModelWithResponseStream.html)运算对模型进行推理调用。有关更多信息，请参阅 [使用以下命令提交单个提示 InvokeModel](inference-invoke.md)。

以下区域支持自定义模型导入：
+ eu-central-1
+ us-east-1
+ us-east-2
+ us-west-2

**注意**  
请确保您在 Amazon Bedrock 中导入和使用模型时遵守适用于模型的条款或许可。  
您不能将自定义模型导入功能与以下 Amazon Bedrock 功能一起使用。  
批量推理
CloudFormation

使用自定义模型导入功能，您可以创建支持以下模式的自定义模型。
+ **微调模型**-您可以使用专有数据自定义模型权重，但保留基本模型的配置。
+ **适应能力**您可以根据自己的领域自定义模型，以适应模型无法很好地泛化的使用案例。有了领域适应能力，您可以修改模型，使其适用于目标领域，并处理跨领域的差异，例如金融行业想要创建一个能在定价方面很好地泛化的模型。另一个示例是语言适应。例如，您可以自定义模型以生成葡萄牙语或泰米尔语的响应。通常，这涉及对所用模型的词汇表的更改。
+ **从头开始预训练** – 除了自定义模型的权重和词汇表外，您还可以更改模型配置参数，例如注意力头目的数量、隐藏层或上下文长度。

有关自定义模型导入功能的定价的信息，请在 [Amazon Bedrock 定价](https://aws.amazon.com/bedrock/pricing)的“模型定价详情”部分中，选择“自定义模型导入”选项卡。

**Topics**
+ [支持的架构](#model-customization-import-model-architecture)
+ [从 Amazon S3 导入模型源](#model-customization-import-model-source)
+ [导入自定义模型的先决条件](custom-model-import-prereq.md)
+ [提交模型导入作业](model-customization-import-model-job.md)
+ [调用您导入的模型](invoke-imported-model.md)
+ [处理自定义聊天模板和分词器](custom-chat-templates-tokenizers.md)
+ [计算运行自定义模型的成本](import-model-calculate-cost.md)
+ [自定义模型导入的代码示例](custom-model-import-code-samples.md)

## 支持的架构
<a name="model-customization-import-model-architecture"></a>

导入的模型必须是以下架构之一。
+ **Mistral** – 仅限解码器的基于转换器的架构，具有滑动窗口注意力 (SWA) 和分组查询注意力 (GQA) 选项。有关更多信息，请参阅 Hugging Face 文档中的 [https://huggingface.co/docs/transformers/en/model_doc/mistral](https://huggingface.co/docs/transformers/en/model_doc/mistral)。
+ **Mixtral** – 仅限解码器的转换器模型，具有稀疏混合专家 (MoE) 模型。有关更多信息，请参阅 Hugging Face 文档中的 [Mixtral](https://huggingface.co/docs/transformers/en/model_doc/mixtral)。
+  **Flan** – T5 架构的增强版，基于编码器-解码器的转换器模型。有关更多信息，请参阅 Hugging Face 文档中的 [https://huggingface.co/docs/transformers/model_doc/flan-t5](https://huggingface.co/docs/transformers/model_doc/flan-t5)。
+ **Llama 2、Llama3、Llama3.1、Llama3.2 Llama 3.3 和 Mllama** – 具有分组查询注意力（GQA）的 Llama 的改进版本。有关更多信息，请参阅 Hugging Face 文档中的 [https://huggingface.co/blog/llama2](https://huggingface.co/blog/llama2)、[https://huggingface.co/blog/llama3 ](https://huggingface.co/blog/llama3 )、[https://huggingface.co/meta-llama/Meta-Llama-3.1-8B-Instruct#model-information](https://huggingface.co/meta-llama/Meta-Llama-3.1-8B-Instruct#model-information)、[https://huggingface.co/meta-llama/Llama-3.2-11B-Vision-Instruct](https://huggingface.co/meta-llama/Llama-3.2-11B-Vision-Instruct)、[https://huggingface.co/meta-llama/Llama-3.3-70B-Instruct](https://huggingface.co/meta-llama/Llama-3.3-70B-Instruct) 和 [https://huggingface.co/docs/transformers/main/en/model_doc/mllama](https://huggingface.co/docs/transformers/main/en/model_doc/mllama)。
+ **GPTBigCode** – 采用多查询操作的 GPT-2 的优化版本。有关更多信息，请参阅Hugging Face文档中的[GPTBig代码](https://huggingface.co/docs/transformers/en/model_doc/gpt_bigcode)。
+ **Qwen2、Qwen2.5、Qwen2-VL、Qwen2.5-VL、Qwen3** – 具有全面的多模态感知能力和高速视觉编码功能的 LLM 系列。可以导入任何使用 Qwen2、Qwen2-VL 和 Qwen2.5-VL 架构的模型。对于 Qwen3 架构，仅支持 Qwen3ForCausalLM 和 Qwen3MoeForCausalLM。Qwen3 模型也不支持 Converse。有关更多信息，请参阅 Hugging Face 文档中的 [Qwen2](https://huggingface.co/collections/Qwen/qwen2-6659360b33528ced941e557f)、[Qwen2.5](https://huggingface.co/collections/Qwen/qwen25-66e81a666513e518adb90d9e)、[Qwen2-VL](https://huggingface.co/collections/Qwen/qwen2-vl-66cee7455501d7126940800d)、[Qwen2.5-VL](https://huggingface.co/collections/Qwen/qwen25-vl-6795ffac22b334a837c0f9a5) 和 [Qwen3](https://huggingface.co/docs/transformers/en/model_doc/qwen3)。
+ **GPT-OSS**— 基于GPT-OSS开放人工智能的架构。Amazon Bedrock 支持基于 20B 和 120B 的自定义模型。 GPT-OSS仅美国东部（弗吉尼亚北部）地区支持模型架构。

**注意**  
导入的模型权重大小必须小于 100 GB（多模态模型）和 200 GB（文本模型）。
模型支持的最大位置嵌入或最大上下文长度应小于 128 K。
Amazon Bedrock 支持变压器版本 4.51.3。对模型进行微调时，请务必使用转换器版本 4.51.3。
自定义模型导入不支持嵌入模型。

## 从 Amazon S3 导入模型源
<a name="model-customization-import-model-source"></a>

您可以通过在 Amazon Bedrock 控制台或 API 中创建模型导入作业，将模型导入到 Amazon Bedrock 中。在作业中，您可以指定模型文件来源的 Amazon S3 URI。在模型训练过程中，导入作业会自动检测模型的架构。

您需要提供采用 Hugging Face 权重格式的模型文件。您可以使用 Hugging Face 转换器库来创建文件。要为 Llama 模型创建模型文件，请参阅 [convert\$1llama\$1weights\$1to\$1hf.py](https://github.com/huggingface/transformers/blob/main/src/transformers/models/llama/convert_llama_weights_to_hf.py)。要为 Mistral AI 模型创建文件，请参阅 [convert\$1mistral\$1weights\$1to\$1hf.py](https://github.com/huggingface/transformers/blob/main/src/transformers/models/mistral/convert_mistral_weights_to_hf.py)。

要从 Amazon S3 导入模型，您至少需要 Hugging Face 转换器库创建的以下文件。
+ **.safetensor** – *Safetensor* 格式的模型权重。Safetensors 是 Hugging Face 创建的一种格式，可将模型权重存储为张量。您必须将模型的张量存储在扩展名为 `.safetensors` 的文件中。有关更多信息，请参阅 [Safetensors](https://huggingface.co/docs/safetensors/en/index)。有关将模型权重转换为 Safetensor 格式的信息，请参阅[将权重转换为 Safetensor](https://huggingface.co/docs/safetensors/en/convert-weights)。
+ **config.json** — 有关示例，请参阅[LlamaConfig](https://huggingface.co/docs/transformers/model_doc/llama2#transformers.LlamaConfig)和。[MistralConfig](https://huggingface.co/docs/transformers/model_doc/mistral#transformers.MistralConfig)
**注意**  
Amazon Bedrock 会使用以下值覆盖 llama3 `rope_scaling`值：  
`original_max_position_embeddings=8192`
`high_freq_factor=4`
`low_freq_factor=1`
`factor=8`
+ **tokenizer\$1config.js** on 有关示例，请参阅。[LlamaTokenizer](https://huggingface.co/docs/transformers/model_doc/llama2#transformers.LlamaTokenizer)
+ **tokenizer.json**
+ **tokenizer.model** 

### 支持的标记器
<a name="tokenizers"></a>

Amazon Bedrock 自定义模型导入功能支持以下标记器。您可以将这些标记器与任何模型配合使用。
+ T5Tokenizer
+ T5 TokenizerFast
+ LlamaTokenizer
+ LlamaTokenizerFast
+ CodeLlamaTokenizer
+ CodeLlamaTokenizerFast
+ GPT2分词器
+ GPT2TokenizerFast
+ GPTNeoXTokenizer
+ GPTNeoXTokenizer快速
+ PreTrainedTokenizer
+ PreTrainedTokenizerFast
+ Qwen2Tokenizer
+ Qwen2 TokenizerFast