

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 使用自訂模型匯入，將自訂的開放原始碼模型匯入 Amazon Bedrock
<a name="model-customization-import-model"></a>

您可以使用 Amazon Bedrock 自訂模型匯入功能在 Amazon Bedrock 中建立自訂模型，以匯入您在其他環境中自訂的基礎模型，例如 Amazon SageMaker AI。例如，您可能有一個在 Amazon SageMaker AI 中建立且具有專屬模型權重的模型。您現在可以將該模型匯入 Amazon Bedrock，然後利用 Amazon Bedrock 功能對模型進行推論呼叫。

您可以使用您匯入的模型搭配隨需輸送量。使用 [InvokeModel](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_runtime_InvokeModel.html) 或 [InvokeModelWithResponseStream](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_runtime_InvokeModelWithResponseStream.html) 操作對模型進行推論呼叫。如需詳細資訊，請參閱[使用 InvokeModel 提交單一提示](inference-invoke.md)。

下列區域支援自訂模型匯入：
+ eu-central-1
+ us-east-1
+ us-east-2
+ us-west-2

**注意**  
請確定您在 Amazon Bedrock 中匯入和使用模型符合適用於模型的條款或授權。  
您無法搭配下列 Amazon Bedrock 功能使用自訂模型匯入。  
批次推論
CloudFormation

透過自訂模型匯入，您可以建立支援下列模式的自訂模型。
+ **微調模型** — 您可以使用專屬資料自訂模型權重，但保留基本模型的組態。
+ **適應性** 您可以配合您的領域自訂模型，以用於模型無法妥善一般化的使用案例。領域適應性會修改模型，以針對目標領域進行一般化，並處理跨領域的差異，例如想要建立理想地一般化定價之模型的金融產業。另一個範例是語言適應性。例如，您可以自訂模型，以產生葡萄牙文或坦米爾文的回應。這通常涉及變更您正在使用的模型詞彙。
+ **從頭開始預先訓練** — 除了自訂模型的權重和詞彙之外，您還可以變更模型組態參數，例如注意力頭數、隱藏圖層或內容長度。

如需自訂模型匯入定價的相關資訊，請在 [Amazon Bedrock 定價](https://aws.amazon.com/bedrock/pricing)的模型定價詳細資訊區段中選取 [自訂模型匯入] 標籤。

**Topics**
+ [支援的架構](#model-customization-import-model-architecture)
+ [從 Amazon S3 匯入模型來源](#model-customization-import-model-source)
+ [匯入自訂模型的先決條件](custom-model-import-prereq.md)
+ [提交模型匯入任務](model-customization-import-model-job.md)
+ [調用匯入的模型](invoke-imported-model.md)
+ [處理自訂聊天範本和權杖化工具](custom-chat-templates-tokenizers.md)
+ [計算執行自訂模型的成本](import-model-calculate-cost.md)
+ [自訂模型匯入的程式碼範例](custom-model-import-code-samples.md)

## 支援的架構
<a name="model-customization-import-model-architecture"></a>

您匯入的模型必須位於下列其中一個架構中。
+ **Mistral** — 僅解碼器轉換器型架構，具有滑動視窗注意力 (SWA) 和分組查詢注意力 (GQA) 的選項。如需詳細資訊，請參閱 Hugging Face 文件中的 [https://huggingface.co/docs/transformers/en/model_doc/mistral](https://huggingface.co/docs/transformers/en/model_doc/mistral)。
+ **Mixtral** — 僅解碼器轉換器模型，具有疏鬆的專家混合 (MoE) 模型。如需詳細資訊，請參閱 Hugging Face 文件中的 [Mixtral](https://huggingface.co/docs/transformers/en/model_doc/mixtral)。
+  **Flan ** — T5 架構的增強版本，以編碼器解碼器為基礎的轉換器模型。如需詳細資訊，請參閱 Hugging Face 文件中的 [https://huggingface.co/docs/transformers/model_doc/flan-t5](https://huggingface.co/docs/transformers/model_doc/flan-t5)。
+ **Llama 2、Llama3、Llama3.1、Llama3.2、Llama 3.3 和 Mllama** — 改善的 Llama 版本，具有分組查詢注意力 (GQA)。如需詳細資訊，請參閱 Hugging Face 文件中的 [https://huggingface.co/blog/llama2](https://huggingface.co/blog/llama2)、[https://huggingface.co/blog/llama3 ](https://huggingface.co/blog/llama3 )、[https://huggingface.co/meta-llama/Meta-Llama-3.1-8B-Instruct#model-information](https://huggingface.co/meta-llama/Meta-Llama-3.1-8B-Instruct#model-information)、[https://huggingface.co/meta-llama/Llama-3.2-11B-Vision-Instruct](https://huggingface.co/meta-llama/Llama-3.2-11B-Vision-Instruct)、[https://huggingface.co/meta-llama/Llama-3.3-70B-Instruct](https://huggingface.co/meta-llama/Llama-3.3-70B-Instruct) 和 [https://huggingface.co/docs/transformers/main/en/model_doc/mllama](https://huggingface.co/docs/transformers/main/en/model_doc/mllama)。
+ **GPTBigCode** — 具有多查詢動作的 GPT-2 最佳化版本。如需詳細資訊，請參閱 Hugging Face 文件中的 [GPTBigCode](https://huggingface.co/docs/transformers/en/model_doc/gpt_bigcode)。
+ **Qwen2、Qwen2.5、Qwen2-VL、Qwen2.5-VL、Qwen3** — 具有全方位多模態感知和高速視覺編碼的 LLM 系列。您可以匯入任何使用 Qwen2、Qwen2-VL 和 Qwen2.5-VL 架構的模型。對於 Qwen3 架構，僅支援 Qwen3ForCausalLM 和 Qwen3MoeForCausalLM。Qwen3 模型也不支援 Converse。如需詳細資訊，請參閱 Hugging Face 文件中的 [Qwen2](https://huggingface.co/collections/Qwen/qwen2-6659360b33528ced941e557f)、[Qwen2.5](https://huggingface.co/collections/Qwen/qwen25-66e81a666513e518adb90d9e)、[Qwen2-VL](https://huggingface.co/collections/Qwen/qwen2-vl-66cee7455501d7126940800d)、[Qwen2.5-VL](https://huggingface.co/collections/Qwen/qwen25-vl-6795ffac22b334a837c0f9a5) 和 [Qwen3](https://huggingface.co/docs/transformers/en/model_doc/qwen3)。
+ **GPT-OSS** — 以 OpenAI 為基礎的GPT-OSS架構。Amazon Bedrock 同時支援 20B 和 120B 型自訂模型。 GPT-OSS 模型架構僅支援美國東部 （維吉尼亞北部） 區域。

**注意**  
匯入模型權重的大小在多模態模型中必須小於 100GB，在文字模型中必須小於 200GB。
模型支援的最大位置嵌入或最大內容長度應小於 128K。
Amazon Bedrock 支援轉換器 4.51.3 版。微調模型時，請確定您使用的是轉換器 4.51.3 版。
自訂模型匯入不支援內嵌模型。

## 從 Amazon S3 匯入模型來源
<a name="model-customization-import-model-source"></a>

您可以在 Amazon Bedrock 主控台或 API 中建立模型匯入任務，以將模型匯入 Amazon Bedrock。在任務中，您會指定 Amazon S3 URI 作為模型檔案的來源。在模型訓練期間，匯入任務會自動偵測模型的架構。

您需要以 Hugging Face 權重格式提供模型檔案。您可以使用 Hugging Face 轉換器程式庫來建立檔案。若要建立 Llama 模型的模型檔案，請參閱 [convert\$1llama\$1weights\$1to\$1hf.py](https://github.com/huggingface/transformers/blob/main/src/transformers/models/llama/convert_llama_weights_to_hf.py)。若要建立 Mistral AI 模型的檔案，請參閱 [convert\$1mistral\$1weights\$1to\$1hf.py](https://github.com/huggingface/transformers/blob/main/src/transformers/models/mistral/convert_mistral_weights_to_hf.py)。

若要從 Amazon S3 匯入模型，您至少需要 Hugging Face 轉換器程式庫建立的下列檔案。
+ **.safetensor** — *Safetensor* 格式的模型權重。Safetensors 是由 Hugging Face 建立的格式，可將模型權重存放為張量。您必須將模型的張量存放在副檔名為 `.safetensors` 的檔案中。如需詳細資訊，請參閱 [Safetensors](https://huggingface.co/docs/safetensors/en/index)。如需將模型權重轉換為 Safetensor 格式的資訊，請參閱[將權重轉換為 safetensor](https://huggingface.co/docs/safetensors/en/convert-weights)。
+ **config.json** — 如需範例，請參閱 [LlamaConfig](https://huggingface.co/docs/transformers/model_doc/llama2#transformers.LlamaConfig) 和 [MistralConfig](https://huggingface.co/docs/transformers/model_doc/mistral#transformers.MistralConfig)。
**注意**  
Amazon Bedrock 會以下列值覆寫 llama3 `rope_scaling` 值：  
`original_max_position_embeddings=8192`
`high_freq_factor=4`
`low_freq_factor=1`
`factor=8`
+ **tokenizer\$1config.json** 如需範例，請參閱 [LlamaTokenizer](https://huggingface.co/docs/transformers/model_doc/llama2#transformers.LlamaTokenizer)。
+ **tokenizer.json **
+ **tokenizer.model** 

### 支援的字符化工具
<a name="tokenizers"></a>

Amazon Bedrock 自訂模型匯入支援下列字符化工具。您可以搭配任何模型使用這些字符化工具。
+ T5Tokenizer
+ T5TokenizerFast
+ LlamaTokenizer
+ LlamaTokenizerFast
+ CodeLlamaTokenizer
+ CodeLlamaTokenizerFast
+ GPT2Tokenizer
+ GPT2TokenizerFast
+ GPTNeoXTokenizer
+ GPTNeoXTokenizerFast
+ PreTrainedTokenizer
+ PreTrainedTokenizerFast
+ Qwen2Tokenizer
+ Qwen2TokenizerFast