

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# Amazon SageMaker AI 数据并行库示例
<a name="distributed-data-parallel-v2-examples"></a>

本页提供了 Jupyter 笔记本，这些笔记本提供了实现 SageMaker 人工智能分布式数据并行度 (SMDDP) 库以在 AI 上运行分布式训练作业的示例。 SageMaker 

## 博客和案例研究
<a name="distributed-data-parallel-v2-examples-blog"></a>

以下博客将讨论有关使用 SMDDP 库的案例研究。

**SMDDP v2 博客**
+ [使用亚马逊 A SageMaker I 数据并行库实现更快的训练](https://aws.amazon.com/blogs/machine-learning/enable-faster-training-with-amazon-sagemaker-data-parallel-library/)，M *AWS achine Learning 博客*（2023 年 12 月 5 日）

**SMDDP v1 博客**
+ [我是如何在 SageMaker AI *中*训练稳定扩散的 10TB](https://medium.com/@emilywebber/how-i-trained-10tb-for-stable-diffusion-on-sagemaker-39dcea49ce32) 的（2022 年 11 月 29 日）
+ [在亚马逊 SageMaker 培训上运行 PyTorch Lightning 和原生 PyTorch DDP，其中包括亚马逊搜索、AWS Machine Le](https://aws.amazon.com/blogs/machine-learning/run-pytorch-lightning-and-native-pytorch-ddp-on-amazon-sagemaker-training-featuring-amazon-search/) arnin *g 博客*（2022 年 8 月 18 日）
+ [AWS 使用 PyTorch SageMaker 人工智能分布式数据并行库进行训练 YOLOv5 ](https://medium.com/@sitecao/training-yolov5-on-aws-with-pytorch-and-sagemaker-distributed-data-parallel-library-a196ab01409b)，*中等*（2022 年 5 月 6 日）
+ [使用 SageMaker PyTorch 人工智能分布式数据并行库（中）加快 SageMaker 人工智能 EfficientNet 模型训练](https://medium.com/@dangmz/speed-up-efficientnet-model-training-on-amazon-sagemaker-with-pytorch-and-sagemaker-distributed-dae4b048c01a)*（2022 年 3 月 21 日）*
+ [AWS 使用 SageMaker 人工智能分布式数据并行库《*迈向数据科学》*加快 EfficientNet 训练速度](https://towardsdatascience.com/speed-up-efficientnet-training-on-aws-by-up-to-30-with-sagemaker-distributed-data-parallel-library-2dbf6d1e18e8)（2022 年 1 月 12 日）
+ [现代汽车使用亚马逊 A SageMaker I 缩短自动驾驶模型的AWS 机器学习模型训练时间，M](https://aws.amazon.com/blogs/machine-learning/hyundai-reduces-training-time-for-autonomous-driving-models-using-amazon-sagemaker/) *achine Learning Blog*（2021 年 6 月 25 日）
+ [分布式训练：使用《变形金刚》和 Amazon A SageMaker I 训练 BART/T5 进行总结](https://huggingface.co/blog/sagemaker-distributed-training-seq2seq)，Hugging Face *网站（2021 年 4 月* 8 日）

## 示例笔记本
<a name="distributed-data-parallel-v2-examples-pytorch"></a>

[SageMaker AI 示例 GitHub 存储库中提供了示例](https://github.com/aws/amazon-sagemaker-examples/tree/master/training/distributed_training/)笔记本。要下载示例，请运行以下命令克隆库并转到 `training/distributed_training/pytorch/data_parallel`。

**注意**  
克隆并运行以下 SageMaker AI ML 中的示例笔记本 IDEs。  
[SageMaker 人工智能 JupyterLab](https://docs.aws.amazon.com/sagemaker/latest/dg/studio-updated-jl.html)（在 2023 年 12 月之后创建[的工作室](https://docs.aws.amazon.com/sagemaker/latest/dg/studio-updated.html)中可用）
[SageMaker AI 代码编辑器](https://docs.aws.amazon.com/sagemaker/latest/dg/code-editor.html)（在 2023 年 12 月之后创建的 [Studio](https://docs.aws.amazon.com/sagemaker/latest/dg/studio-updated.html) 中可用）
[Studio Classic](https://docs.aws.amazon.com/sagemaker/latest/dg/studio.html)（可作为 2023 年 12 月之后创建的 [Studio](https://docs.aws.amazon.com/sagemaker/latest/dg/studio-updated.html) 中的应用程序使用）
[SageMaker 笔记本实例](https://docs.aws.amazon.com/sagemaker/latest/dg/nbi.html)

```
git clone https://github.com/aws/amazon-sagemaker-examples.git
cd amazon-sagemaker-examples/training/distributed_training/pytorch/data_parallel
```

**SMDDP v2 示例**
+ [使用 SageMaker AI 分布式数据并行库 (SMDDP) 训练 Llama 2 DeepSpeed](https://github.com/aws/amazon-sagemaker-examples/blob/main/training/distributed_training/pytorch/data_parallel/deepspeed/llama2/smddp_deepspeed_example.ipynb)
+ [使用 SageMaker AI 分布式数据并行库 (SMDDP) 和 PyTorch 完全分片数据并行化 (FSDP) 训练 Falcon](https://github.com/aws/amazon-sagemaker-examples/blob/main/training/distributed_training/pytorch/data_parallel/fully_sharded_data_parallel/falcon/smddp_fsdp_example.ipynb)

**SMDDP v1 示例**
+ [CNN wit PyTorch h 和 SageMaker AI 数据并行度库](https://github.com/aws/amazon-sagemaker-examples/blob/main/training/distributed_training/pytorch/data_parallel/mnist/pytorch_smdataparallel_mnist_demo.ipynb)
+ [BERT w PyTorch ith 和 SageMaker AI 数据并行度库](https://github.com/aws/amazon-sagemaker-examples/blob/main/training/distributed_training/pytorch/data_parallel/bert/pytorch_smdataparallel_bert_demo.ipynb)
+ [带有 TensorFlow 2.3.1 的 CNN 和 SageMaker 人工智能数据并行度库](https://sagemaker-examples.readthedocs.io/en/latest/training/distributed_training/tensorflow/data_parallel/mnist/tensorflow2_smdataparallel_mnist_demo.html)
+ [带有 TensorFlow 2.3.1 的 BERT 和 SageMaker AI 数据并行度库](https://sagemaker-examples.readthedocs.io/en/latest/training/distributed_training/tensorflow/data_parallel/bert/tensorflow2_smdataparallel_bert_demo.html)
+ [HuggingFace 在 SageMaker AI PyTorch 上进行分布式数据并行训练-分布式问答](https://github.com/huggingface/notebooks/blob/master/sagemaker/03_distributed_training_data_parallelism/sagemaker-notebook.ipynb)
+ [HuggingFace 在 SageMaker AI PyTorch 上进行分布式数据并行训练-分布式文本摘要](https://github.com/huggingface/notebooks/blob/master/sagemaker/08_distributed_summarization_bart_t5/sagemaker-notebook.ipynb)
+ [HuggingFace 在 SageMaker AI TensorFlow 上进行分布式数据并行训练](https://github.com/huggingface/notebooks/blob/master/sagemaker/07_tensorflow_distributed_training_data_parallelism/sagemaker-notebook.ipynb)