

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# Amazon SageMaker Training Compiler 版本備註
<a name="training-compiler-release-notes"></a>

**重要**  
Amazon Web Services (AWS) 宣佈不再推出新版本的 SageMaker Training Compiler。您可以透過現有的 AWS 適用於 SageMaker Training 的深度學習容器 (DLCs)，繼續利用 SageMaker Training Compiler。請務必注意，雖然現有 DLCs仍可存取，但根據深度學習容器架構支援政策 AWS，他們將不再收到來自 的修補程式或更新。 [AWS](https://docs.aws.amazon.com/deep-learning-containers/latest/devguide/support-policy.html)

請參閱以下版本備註，以追蹤 Amazon SageMaker Training Compiler 的最新更新。

## SageMaker Training Compiler 版本備註：2023 年 2 月 13 日
<a name="training-compiler-release-notes-20230213"></a>

**貨幣更新**
+ 新增支援 PyTorch 1.13.1 版

**錯誤修正**
+ 修正 GPU 上的競爭條件問題，此問題在某些模型 (例如視覺轉換器 (ViT) 模型中造成 NAN 損失。

**其他變更**
+ SageMaker Training Compiler 透過讓 PyTorch/XLA 使用其在 `torch_xla.amp.syncfree` 中的 SyncFree 版本 (例如 `torch_xla.amp.syncfree.SGD`、`torch_xla.amp.syncfree.Adam`、`torch_xla.amp.syncfree.AdamW`)，自動覆寫 `torch.optim` 或 `transformers.optimization` 中的最佳化工具 (例如 SGD、Adam、AdamW) ，進而改善效能。您不需要變更在訓練指令碼中定義最佳化工具的程式碼行。

**遷移至 AWS 深度學習容器**

此版本通過基準測試，並遷移至下列 AWS 深度學習容器：
+ PyTorch 1.13.1 版

  ```
  763104351884.dkr.ecr.us-west-2.amazonaws.com/pytorch-trcomp-training:1.13.1-gpu-py39-cu117-ubuntu20.04-sagemaker
  ```

  若要使用 Amazon SageMaker Training Compiler 查找預先建置容器完整清單，請參閱[支援的架構 AWS 區域、執行個體類型和已測試的模型](training-compiler-support.md)。

## SageMaker Training Compiler 版本備註：2023 年 1 月 9 日
<a name="training-compiler-release-notes-20230109"></a>

**突破性變更**
+ `tf.keras.optimizers.Optimizer` 在 TensorFlow 2.11.0 和更新版本中指向新的最佳化工具。舊的最佳化工具將移至 `tf.keras.optimizers.legacy`。執行下列動作時，可能會因為突破性變更遇到任務失敗。
  + 從舊的最佳化工具載入檢查點。我們建議您切換至使用舊版最佳化工具。
  + 使用 TensorFlow 第 1 版。如果您需要繼續使用 TensorFlow 第 1 版，我們建議您遷移至 TensorFlow 第 2 版，或切換至舊版最佳化工具。

  如需最佳化工具變更的突破性變更詳細清單，請參閱 TensorFlow GitHub 儲存庫中的[官方 TensorFlow 2.11.0 版版本備註](https://github.com/tensorflow/tensorflow/releases/tag/v2.11.0)。

**遷移至 AWS 深度學習容器**

此版本通過基準測試，並遷移至下列 AWS 深度學習容器：
+ TensorFlow 2.11.0 版

  ```
  763104351884.dkr.ecr.{{<region>}}.amazonaws.com/tensorflow-training:2.11.0-gpu-py39-cu112-ubuntu20.04-sagemaker
  ```

  若要使用 Amazon SageMaker Training Compiler 查找預先建置容器完整清單，請參閱[支援的架構 AWS 區域、執行個體類型和已測試的模型](training-compiler-support.md)。

## SageMaker Training Compiler 版本備註：2022 年 12 月 8 日
<a name="training-compiler-release-notes-20221208"></a>

**錯誤修正**
+ 修正啟動 PyTorch 1.12 版時的 PyTorch 訓練任務的種子，確保不同程序之間的模型初始化不存在差異。另請參閲 [PyTorch 再現](https://pytorch.org/docs/stable/notes/randomness.html)。
+ 修正導致 G4dn 和 G5 執行個體上的 PyTorch 分散式訓練任務無法預設為透過 [PCIe](https://en.wikipedia.org/wiki/PCI_Express) 通訊的問題。

**已知問題**
+ 在 Hugging Face 版本的視覺轉換器中不當使用 PyTorch/XLA API 可能會導致收斂問題。

**其他變更**
+ 使用 Hugging Face 轉換器 `Trainer` 類別時，請務必將 `optim` 引數設定為 `adamw_torch_xla`，以使用 SyncFree 最佳化工具。如需詳細資訊，請參閱[使用 Hugging Face 轉換器 `Trainer` 類別的大型語言模型](training-compiler-pytorch-models.md#training-compiler-pytorch-models-transformers-trainer)。另請參閲 *Hugging Face 轉換器文件*中的[最佳化工具](https://huggingface.co/docs/transformers/v4.23.1/en/perf_train_gpu_one#optimizer)。

**遷移至 AWS 深度學習容器**

此版本通過基準測試，並遷移至下列 AWS 深度學習容器：
+ PyTorch 1.12.0 版

  ```
  763104351884.dkr.ecr.{{<region>}}.amazonaws.com/pytorch-trcomp-training:1.12.0-gpu-py38-cu113-ubuntu20.04-sagemaker
  ```

  若要使用 Amazon SageMaker Training Compiler 查找預先建置容器完整清單，請參閱[支援的架構 AWS 區域、執行個體類型和已測試的模型](training-compiler-support.md)。

## SageMaker Training Compiler 版本備註：2022 年 10 月 4 日
<a name="training-compiler-release-notes-20221004"></a>

**貨幣更新**
+ 新增支援 TensorFlow 2.10.0 版。

**其他變更**
+ 在 TensorFlow 架構測試中新增使用轉換器程式庫的 Hugging Face NLP 模型。若要查找已測試的轉換器模型，請參閱[測試過的模型](training-compiler-support.md#training-compiler-tested-models)。

**遷移至 AWS 深度學習容器**

此版本通過基準測試，並遷移至下列 AWS 深度學習容器：
+ TensorFlow 2.10.0 版

  ```
  763104351884.dkr.ecr.{{<region>}}.amazonaws.com/tensorflow-training:2.10.0-gpu-py39-cu112-ubuntu20.04-sagemaker
  ```

  若要使用 Amazon SageMaker Training Compiler 查找預先建置容器完整清單，請參閱[支援的架構 AWS 區域、執行個體類型和已測試的模型](training-compiler-support.md)。

## SageMaker Training Compiler 版本備註：2022 年 9 月 1 日
<a name="training-compiler-release-notes-20220825"></a>

**貨幣更新**
+ 新增支援 Hugging Face 轉換器 4.21.1 版和 PyTorch 1.11.0 版。

**改進**
+ 實作新的分散式訓練啟動器機制，透過 PyTorch 啟動 Hugging Face 轉換器模型的 SageMaker Training Compiler。如需進一步了解，請參閱[針對分散式訓練使用 SageMaker Training Compiler 執行 PyTorch 訓練任務](training-compiler-enable-pytorch.md#training-compiler-estimator-pytorch-distributed)。
+ 與 EFA 整合，以改善分散式訓練中的集體通訊。
+ 新增支援 PyTorch 訓練任務的 G5 執行個體。如需詳細資訊，請參閱[支援的架構 AWS 區域、執行個體類型和已測試的模型](training-compiler-support.md)。

**遷移至 AWS 深度學習容器**

此版本通過基準測試，並遷移至下列 AWS 深度學習容器：
+ [HuggingFace 4.21.1 版與 PyTorch 1.11.0 版](https://github.com/aws/deep-learning-containers/releases/tag/v1.0-trcomp-hf-4.21.1-pt-1.11.0-tr-gpu-py38)

  ```
  763104351884.dkr.ecr.us-west-2.amazonaws.com/huggingface-pytorch-trcomp-training:1.11.0-transformers4.21.1-gpu-py38-cu113-ubuntu20.04
  ```

  若要使用 Amazon SageMaker Training Compiler 查找預先建置容器完整清單，請參閱[支援的架構 AWS 區域、執行個體類型和已測試的模型](training-compiler-support.md)。

## SageMaker Training Compiler 版本備註：2022 年 6 月 14 日
<a name="training-compiler-release-notes-20220614"></a>

**新功能**
+ 新增支援 TensorFlow 2.9.1 版。SageMaker Training Compiler 提供對編譯 TensorFlow 模組 (`tf.*`) 和 TensorFlow 模組 (`tf.keras.*`) 的完整支援。
+ 新增對擴展適用於 TensorFlow 的 AWS 深度學習容器所建立之自訂容器的支援。如需詳細資訊，請參閱 [使用 SageMaker Python SDK 和擴充 SageMaker AI 架構深度學習容器啟動 SageMaker Training Compiler](training-compiler-enable-tensorflow.md#training-compiler-enable-tensorflow-sdk-extend-container)。
+ 新增支援 TensorFlow 訓練任務的 G5 執行個體。

**遷移至 AWS 深度學習容器**

此版本通過基準測試，並遷移至下列 AWS 深度學習容器：
+ TensorFlow 2.9.1 版

  ```
  763104351884.dkr.ecr.{{<region>}}.amazonaws.com/tensorflow-training:2.9.1-gpu-py39-cu112-ubuntu20.04-sagemaker
  ```

  若要使用 Amazon SageMaker Training Compiler 查找預先建置容器完整清單，請參閱[支援的架構 AWS 區域、執行個體類型和已測試的模型](training-compiler-support.md)。

## SageMaker Training Compiler 版本備註：2022 年 4 月 26 日
<a name="training-compiler-release-notes-20220426"></a>

**改進**
+ 新增對 AWS 區域 [AWS 深度學習容器](https://github.com/aws/deep-learning-containers/blob/master/available_images.md)提供服務之所有 的支援，但中國區域除外。

## SageMaker Training Compiler 版本備註：2022 年 4 月 12 日
<a name="training-compiler-release-notes-20220412"></a>

**貨幣更新**
+ 新增支援 Hugging Face 轉換器 4.17.0 版及 TensorFlow 2.6.3 版和 PyTorch 1.10.2 版。

## SageMaker Training Compiler 版本備註：2022 年 2 月 21 日
<a name="training-compiler-release-notes-20220221"></a>

**改進**
+ 已完成基準測試，並已確認 `ml.g4dn` 執行個體類型的訓練加速。若要查找已測試 `ml` 執行個體的完整清單，請參閱[支援的執行個體類型](training-compiler-support.md#training-compiler-supported-instance-types)。

## SageMaker Training Compiler 版本備註：2021 年 12 月 1 日
<a name="training-compiler-release-notes-20211201"></a>

**新功能**
+ 於 AWS re：Invent 2021 推出 Amazon SageMaker Training Compiler。

**遷移至 AWS 深度學習容器**
+ Amazon SageMaker Training Compiler 通過基準測試，並遷移至 AWS 深度學習容器。若要使用 Amazon SageMaker Training Compiler 查找預先建置容器完整清單，請參閱[支援的架構 AWS 區域、執行個體類型和已測試的模型](training-compiler-support.md)。