本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
支持的框架 AWS 区域、实例类型和经过测试的模型
重要
Amazon Web Services (AWS) 宣布, SageMaker 训练编译器将没有新版本或新版本。你可以继续通过现有的 Dee AWS p Learning Containers (DLCs) 使用 SageMaker SageMaker 训练编译器进行训练。值得注意的是,根据AWS 深度学习容器(Deep Learning Containers Framework Support)政策 AWS,虽然现有内容DLCs仍然可以访问,但它们将不再收到来自的补丁或更新。
在使用 T SageMaker raining Compiler 之前,请检查您选择的框架是否受支持,实例类型是否在您的 AWS 账户中可用,以及您的 AWS 账户是否在支持的框架中 AWS 区域。
注意
SageMaker 训练编译器在 SageMaker Python SDK v2.70.0 或更高版本中可用。
支持的框架
SageMaker Training Compiler 支持以下深度学习框架,可通过 Deep Learning C AWS ontainers 获得。
PyTorch
框架 | 框架版本 | 深度学习容器 URI | 对 Docker 自定义可扩展 |
---|---|---|---|
PyTorch | PyTorch v1.13.1 | 763104351884.dkr.ecr。<region> .amazonaws.com/: 1.12.0-gpu-py38-cu113-ubuntu20.04-sagemaker pytorch-trcomp-training |
否 |
PyTorch v1.12.0 | 763104351884.dkr.ecr。<region> .amazonaws.com/: 1.13.1-gpu-py39-cu117-ubuntu20.04-sagemaker pytorch-trcomp-training |
否 | |
PyTorch 用 Hugging Face 变形金刚 |
Transformers v4.21.1 PyTorch v1.11.0 |
763104351884.dkr.ecr。 |
否 |
Transformers v4.17.0 PyTorch v1.10.2 |
763104351884.dkr.ecr。 |
否 | |
Transformers v4.11.0 PyTorch v1.9.0 |
763104351884.dkr.ecr。 |
否 |
TensorFlow
框架 | 框架版本 | 深度学习容器 URI | 对 Docker 自定义可扩展 |
---|---|---|---|
TensorFlow |
TensorFlow v2.11.0 |
763104351884.dkr.ecr。 |
是 |
TensorFlow v2.10.0 |
763104351884.dkr.ecr。 |
是 | |
TensorFlow v2.9.1 |
763104351884.dkr.ecr。 |
是 | |
TensorFlow 用 Hugging Face 变形金刚 |
Transformers v4.17.0 TensorFlow v2.6.3 |
763104351884.dkr.ecr。 |
否 |
Transformers v4.11.0 TensorFlow v2.5.1 |
763104351884.dkr.ecr。 |
否 |
有关更多信息,请参阅 Dee AWS p Learning Containers GitHub 存储库中的可用镜像
AWS 区域
SageMaker 训练编译器容器
支持的实例类型
SageMaker 训练编译器已在以下 ML 实例类型上经过测试并支持以下 ML 实例类型。
-
P4 实例
-
P3 实例
-
G4dn 实例
-
G5 实例
有关实例类型的规格,请参阅 Amazon EC2 实例类型页面
如果您遇到类似以下内容的错误消息,请按照请求增加 SageMaker 资源服务配额中的说明进行操作。
ResourceLimitExceeded: An error occurred (ResourceLimitExceeded) when calling the CreateTrainingJob operation: The account-level service limit 'ml.p3dn.24xlarge for training job usage' is 0 Instances, with current utilization of 0 Instances and a request delta of 1 Instances. Please contact AWS support to request an increase for this limit.
经过测试的模型
下表列出了已使用 T SageMaker raining Compiler 测试过的模型。作为参考,内存中能够容纳的最大批量也包含在其他训练参数旁边。 SageMaker Training Compiler 可以更改模型训练过程的内存占用;因此,在训练过程中通常可以使用更大的批次大小,从而进一步缩短总训练时间。在某些情况下,T SageMaker raining Compiler 会智能地提升缓存,从而减少可以容纳的最大批量大小。GPU您必须重新调整模型超参数并找到最适合您的案例的批处理大小。为了节省时间,请使用以下参考表来查找批处理大小,这将是您的使用案例的良好起点。
注意
批量大小是适合相应实例类型GPU中每个人的本地批次大小。在更改批处理大小时,您还应调整学习率。
自然语言处理 (NLP) 模型
以下模型针对单节点和多节点的所有组合的训练作业进行了测试,包括单核或多GPU核以及自动混合精度 (AMP),如图所示。
单节点/多节点单节点/多节点 GPU GPU | ||||||
---|---|---|---|---|---|---|
模型 | 数据集 | 实例类型 | 精度 | 序列长度 | 原生框架的批处理大小 | SageMaker 训练编译器的批次大小 |
albert-base-v2 | wikitext-2-raw-v1 | g4dn.16xlarge | float16 | 128 | 80 | 192 |
albert-base-v2 | wikitext-2-raw-v1 | g5.4xlarge | float16 | 128 | 128 | 332 |
albert-base-v2 | wikitext-2-raw-v1 | p3.2xlarge | float16 | 128 | 80 | 224 |
bert-base-uncased | wikitext-2-raw-v1 | g5.4xlarge | float16 | 128 | 160 | 288 |
camembert-base | wikitext-2-raw-v1 | g5.4xlarge | float16 | 128 | 160 | 280 |
distilbert-base-uncased | wikitext-2-raw-v1 | g5.4xlarge | float16 | 128 | 240 | 472 |
distilgpt2 | wikitext-2-raw-v1 | g4dn.16xlarge | float16 | 128 | 77 | 128 |
distilgpt2 | wikitext-2-raw-v1 | g5.4xlarge | float16 | 128 | 138 | 390 |
distilgpt2 | wikitext-2-raw-v1 | p3.2xlarge | float16 | 128 | 96 | 256 |
distilroberta-base | wikitext-2-raw-v1 | g4dn.16xlarge | float16 | 128 | 96 | 192 |
distilroberta-base | wikitext-2-raw-v1 | g5.4xlarge | float16 | 128 | 171 | 380 |
distilroberta-base | wikitext-2-raw-v1 | p3.2xlarge | float16 | 128 | 112 | 256 |
gpt2 | wikitext-2-raw-v1 | g4dn.16xlarge | float16 | 128 | 52 | 152 |
gpt2 | wikitext-2-raw-v1 | g5.4xlarge | float16 | 128 | 84 | 240 |
gpt2 | wikitext-2-raw-v1 | p3.2xlarge | float16 | 128 | 58 | 164 |
microsoft/deberta-base | wikitext-2-raw-v1 | g4dn.16xlarge | float16 | 128 | 48 | 128 |
microsoft/deberta-base | wikitext-2-raw-v1 | g5.4xlarge | float16 | 128 | 84 | 207 |
microsoft/deberta-base | wikitext-2-raw-v1 | p3.2xlarge | float16 | 128 | 53 | 133 |
roberta-base | wikitext-2-raw-v1 | g5.4xlarge | float16 | 128 | 125 | 224 |
xlm-roberta-base | wikitext-2-raw-v1 | g4dn.16xlarge | float16 | 128 | 16 | 31 |
xlm-roberta-base | wikitext-2-raw-v1 | p3.2xlarge | float16 | 128 | 18 | 50 |
xlnet-base-cased | wikitext-2-raw-v1 | g5.4xlarge | float16 | 128 | 128 | 240 |
bert-base-uncased | wikitext-103-v1 | g5.48xlarge | float16 | 512 | 29 | 50 |
distilbert-base-uncased | wikitext-103-v1 | g5.48xlarge | float16 | 512 | 45 | 64 |
gpt2 | wikitext-103-v1 | g5.48xlarge | float16 | 512 | 18 | 45 |
roberta-base | wikitext-103-v1 | g5.48xlarge | float16 | 512 | 23 | 44 |
gpt2 | wikitext-103-v1 | p4d.24xlarge | float16 | 512 | 36 | 64 |
计算机视觉 (CV) 模型
如图所示,使用具有自动混合精度的 TensorFlowModel Garden
单/多节点单/多节点 GPU | |||||
---|---|---|---|---|---|
模型 | 数据集 | 实例类型 | 精度 | 原生框架的批处理大小 | SageMaker 训练编译器的批次大小 |
ResNet152 | food101 | g4dn.16xlarge | float16 | 128 | 144 |
ResNet152 | food101 | g5.4xlarge | float16 | 128 | 192 |
ResNet152 | food101 | p3.2xlarge | float16 | 152 | 156 |
ViT | food101 | g4dn.16xlarge | float16 | 512 | 512 |
ViT | food101 | g5.4xlarge | float16 | 992 | 768 |
ViT | food101 | p3.2xlarge | float16 | 848 | 768 |
自然语言处理 (NLP) 模型
以下模型针对单节点和多节点的所有组合的训练作业进行了测试,包括单核或多GPU核以及自动混合精度 (AMP),如图所示。
单节点/多节点单节点/多节点 GPU GPU | ||||||
---|---|---|---|---|---|---|
模型 | 数据集 | 实例类型 | 精度 | 序列长度 | 原生框架的批处理大小 | SageMaker 训练编译器的批次大小 |
albert-base-v2 | wikitext-2-raw-v1 | ml.g5.2xlarge | float16 | 128 | 128 | 248 |
bert-base-uncased | wikitext-2-raw-v1 | ml.g5.2xlarge | float16 | 128 | 160 | 288 |
camembert-base | wikitext-2-raw-v1 | ml.g5.2xlarge | float16 | 128 | 160 | 279 |
camembert-base | wikitext-2-raw-v1 | ml.p3.2xlarge | float16 | 128 | 105 | 164 |
distilgpt2 | wikitext-2-raw-v1 | ml.g5.2xlarge | float16 | 128 | 136 | 256 |
distilgpt2 | wikitext-2-raw-v1 | ml.p3.2xlarge | float16 | 128 | 80 | 118 |
gpt2 | wikitext-2-raw-v1 | ml.g5.2xlarge | float16 | 128 | 84 | 240 |
gpt2 | wikitext-2-raw-v1 | ml.p3.2xlarge | float16 | 128 | 80 | 119 |
microsoft/deberta-base | wikitext-2-raw-v1 | ml.g5.2xlarge | float16 | 128 | 93 | 197 |
microsoft/deberta-base | wikitext-2-raw-v1 | ml.p3.2xlarge | float16 | 128 | 113 | 130 |
roberta-base | wikitext-2-raw-v1 | ml.g5.2xlarge | float16 | 128 | 125 | 224 |
roberta-base | wikitext-2-raw-v1 | ml.p3.2xlarge | float16 | 128 | 78 | 112 |
xlnet-base-cased | wikitext-2-raw-v1 | ml.g5.2xlarge | float16 | 128 | 138 | 240 |
bert-base-uncased | wikitext-103-v1 | ml.p4d.24xlarge | float16 | 512 | 52 | |
distilbert-base-uncased | wikitext-103-v1 | ml.p4d.24xlarge | float16 | 512 | 160 | |
gpt2 | wikitext-103-v1 | ml.p4d.24xlarge | float16 | 512 | 25 | |
roberta-base | wikitext-103-v1 | ml.p4d.24xlarge | float16 | 512 | 64 |
计算机视觉 (CV) 模型
如图所示,使用具有自动混合精度的 TensorFlowModel Garden
单/多节点单/多节点 GPU | |||||
---|---|---|---|---|---|
模型 | 数据集 | 实例类型 | 精度 | 原生框架的批处理大小 | SageMaker 训练编译器的批次大小 |
口罩 RCNN-ResNet 50-FPN | COCO-2017 | ml.g5.2xlarge | float16 | 6 | 8 |
口罩 RCNN-ResNet 50-FPN | COCO-2017 | ml.p3.2xlarge | float16 | 4 | 6 |
ResNet50 | ImageNet | ml.g5.2xlarge | float16 | 192 | 256 |
ResNet50 | ImageNet | ml.p3.2xlarge | float16 | 256 | 256 |
ResNet101 | ImageNet | ml.g5.2xlarge | float16 | 128 | 256 |
ResNet101 | ImageNet | ml.p3.2xlarge | float16 | 128 | 128 |
ResNet152 | ImageNet | ml.g5.2xlarge | float16 | 128 | 224 |
ResNet152 | ImageNet | ml.p3.2xlarge | float16 | 128 | 128 |
VisionTransformer | ImageNet | ml.g5.2xlarge | float16 | 112 | 144 |
VisionTransformer | ImageNet | ml.p3.2xlarge | float16 | 96 | 128 |
自然语言处理 (NLP) 模型
如图所示,使用变压器模型Sequence_Len=128
和自动混合精度 (AMP) 进行了测试。
单/多节点单/多节点 GPU | |||||
---|---|---|---|---|---|
模型 | 数据集 | 实例类型 | 精度 | 原生框架的批处理大小 | SageMaker 训练编译器的批次大小 |
albert-base-v2 | wikitext-2-raw-v1 | ml.g5.2xlarge | float16 | 160 | 197 |
albert-base-v2 | wikitext-2-raw-v1 | ml.p3.2xlarge | float16 | 95 | 127 |
bert-base-uncased | wikitext-2-raw-v1 | ml.g5.2xlarge | float16 | 160 | 128 |
bert-base-uncased | wikitext-2-raw-v1 | ml.p3.2xlarge | float16 | 104 | 111 |
bert-large-uncased | wikitext-2-raw-v1 | ml.g5.2xlarge | float16 | 65 | 48 |
bert-large-uncased | wikitext-2-raw-v1 | ml.p3.2xlarge | float16 | 40 | 35 |
camembert-base | wikitext-2-raw-v1 | ml.g5.2xlarge | float16 | 128 | 162 |
camembert-base | wikitext-2-raw-v1 | ml.p3.2xlarge | float16 | 105 | 111 |
distilbert-base-uncased | wikitext-2-raw-v1 | ml.g5.2xlarge | float16 | 256 | 264 |
distilbert-base-uncased | wikitext-2-raw-v1 | ml.p3.2xlarge | float16 | 128 | 169 |
gpt2 | wikitext-2-raw-v1 | ml.g5.2xlarge | float16 | 128 | 120 |
gpt2 | wikitext-2-raw-v1 | ml.p3.2xlarge | float16 | 80 | 83 |
jplu/ tf-xlm-roberta-base | wikitext-2-raw-v1 | ml.g5.2xlarge | float16 | 32 | 32 |
jplu/ tf-xlm-roberta-base | wikitext-2-raw-v1 | ml.p3.2xlarge | float16 | 32 | 36 |
microsoft/mpnet-base | wikitext-2-raw-v1 | ml.g5.2xlarge | float16 | 144 | 160 |
microsoft/mpnet-base | wikitext-2-raw-v1 | ml.p3.2xlarge | float16 | 106 | 110 |
roberta-base | wikitext-2-raw-v1 | ml.g5.2xlarge | float16 | 128 | 128 |
roberta-base | wikitext-2-raw-v1 | ml.p3.2xlarge | float16 | 72 | 98 |
albert-base-v2 | wikitext-2-raw-v1 | ml.g5.48xlarge | float16 | 128 | 192 |
albert-base-v2 | wikitext-2-raw-v1 | ml.p3.16xlarge | float16 | 95 | 96 |
distilbert-base-uncased | wikitext-2-raw-v1 | ml.g5.48xlarge | float16 | 256 | 256 |
distilbert-base-uncased | wikitext-2-raw-v1 | ml.p3.16xlarge | float16 | 140 | 184 |
谷歌/ electra-small-discriminator | wikitext-2-raw-v1 | ml.g5.48xlarge | float16 | 256 | 384 |
谷歌/ electra-small-discriminator | wikitext-2-raw-v1 | ml.p3.16xlarge | float16 | 256 | 268 |
gpt2 | wikitext-2-raw-v1 | ml.g5.48xlarge | float16 | 116 | 116 |
gpt2 | wikitext-2-raw-v1 | ml.p3.16xlarge | float16 | 85 | 83 |
gpt2 | wikitext-2-raw-v1 | ml.p4d.24xlarge | float16 | 94 | 110 |
microsoft/mpnet-base | wikitext-2-raw-v1 | ml.g5.48xlarge | float16 | 187 | 164 |
microsoft/mpnet-base | wikitext-2-raw-v1 | ml.p3.16xlarge | float16 | 106 | 111 |
计算机视觉 (CV) 模型
如图所示,使用具有自动混合精度的 TensorFlowModel Garden
单节点单节点/多节点 GPU GPU | |||||
---|---|---|---|---|---|
模型 | 数据集 | 实例类型 | 精度 | 原生框架的批处理大小 | SageMaker 训练编译器的批次大小 |
DetectionTransformer-ResNet 50 | COCO-2017 | ml.g4dn.2xlarge | float32 | 2 | 4 |
DetectionTransformer-ResNet 50 | COCO-2017 | ml.g5.2xlarge | float32 | 3 | 6 |
DetectionTransformer-ResNet 50 | COCO-2017 | ml.p3.2xlarge | float32 | 2 | 4 |
口罩 RCNN-ResNet 50-FPN | COCO-2017 | ml.g4dn.2xlarge | float16 | 4 | 6 |
口罩 RCNN-ResNet 50-FPN | COCO-2017 | ml.g5.2xlarge | float16 | 6 | 8 |
口罩 RCNN-ResNet 50-FPN | COCO-2017 | ml.g5.48xlarge | float16 | 48 | 64 |
口罩 RCNN-ResNet 50-FPN | COCO-2017 | ml.p3.2xlarge | float16 | 4 | 6 |
ResNet50 | ImageNet | ml.g4dn.2xlarge | float16 | 224 | 256 |
ResNet50 | ImageNet | ml.g5.2xlarge | float16 | 192 | 160 |
ResNet50 | ImageNet | ml.g5.48xlarge | float16 | 2048 | 2048 |
ResNet50 | ImageNet | ml.p3.2xlarge | float16 | 224 | 160 |
ResNet101 | ImageNet | ml.g4dn.2xlarge | float16 | 160 | 128 |
ResNet101 | ImageNet | ml.g5.2xlarge | float16 | 192 | 256 |
ResNet101 | ImageNet | ml.g5.48xlarge | float16 | 2048 | 2048 |
ResNet101 | ImageNet | ml.p3.2xlarge | float16 | 160 | 224 |
ResNet152 | ImageNet | ml.g4dn.2xlarge | float16 | 128 | 128 |
ResNet152 | ImageNet | ml.g5.2xlarge | float16 | 192 | 224 |
ResNet152 | ImageNet | ml.g5.48xlarge | float16 | 1536 | 1792 |
ResNet152 | ImageNet | ml.p3.2xlarge | float16 | 128 | 160 |
VisionTransformer | ImageNet | ml.g4dn.2xlarge | float16 | 80 | 128 |
VisionTransformer | ImageNet | ml.g5.2xlarge | float16 | 112 | 144 |
VisionTransformer | ImageNet | ml.g5.48xlarge | float16 | 896 | 1152 |
VisionTransformer | ImageNet | ml.p3.2xlarge | float16 | 80 | 128 |
自然语言处理 (NLP) 模型
如图所示,使用变压器模型Sequence_Len=128
和自动混合精度 (AMP) 进行了测试。
单节点单节点/多节点 GPU GPU | |||||
---|---|---|---|---|---|
模型 | 数据集 | 实例类型 | 精度 | 原生框架的批处理大小 | SageMaker 训练编译器的批次大小 |
albert-base-v2 | wikitext-2-raw-v1 | g4dn.16xlarge | float16 | 128 | 112 |
albert-base-v2 | wikitext-2-raw-v1 | p3.2xlarge | float16 | 128 | 128 |
albert-base-v2 | wikitext-2-raw-v1 | p3.8xlarge | float16 | 128 | 135 |
albert-base-v2 | wikitext-2-raw-v1 | g5.4xlarge | float16 | 128 | 191 |
bert-base-uncased | wikitext-2-raw-v1 | g4dn.16xlarge | float16 | 64 | 94 |
bert-base-uncased | wikitext-2-raw-v1 | p3.2xlarge | float16 | 96 | 101 |
bert-base-uncased | wikitext-2-raw-v1 | p3.8xlarge | float16 | 96 | 96 |
bert-base-uncased | wikitext-2-raw-v1 | g5.4xlarge | float16 | 128 | 128 |
bert-large-uncased | wikitext-2-raw-v1 | g4dn.16xlarge | float16 | 35 | 21 |
bert-large-uncased | wikitext-2-raw-v1 | p3.2xlarge | float16 | 39 | 26 |
bert-large-uncased | wikitext-2-raw-v1 | g5.4xlarge | float16 | 60 | 50 |
camembert-base | wikitext-2-raw-v1 | g4dn.16xlarge | float16 | 96 | 90 |
camembert-base | wikitext-2-raw-v1 | p3.2xlarge | float16 | 96 | 98 |
camembert-base | wikitext-2-raw-v1 | p3.8xlarge | float16 | 96 | 96 |
camembert-base | wikitext-2-raw-v1 | g5.4xlarge | float16 | 128 | 128 |
distilbert-base-uncased | wikitext-2-raw-v1 | g4dn.16xlarge | float16 | 256 | 160 |
distilbert-base-uncased | wikitext-2-raw-v1 | p3.2xlarge | float16 | 128 | 176 |
distilbert-base-uncased | wikitext-2-raw-v1 | p3.8xlarge | float16 | 128 | 160 |
distilbert-base-uncased | wikitext-2-raw-v1 | g5.4xlarge | float16 | 256 | 258 |
google_ electra-small-discriminator | wikitext-2-raw-v1 | g4dn.16xlarge | float16 | 256 | 216 |
google_ electra-small-discriminator | wikitext-2-raw-v1 | p3.2xlarge | float16 | 256 | 230 |
google_ electra-small-discriminator | wikitext-2-raw-v1 | p3.8xlarge | float16 | 256 | 224 |
google_ electra-small-discriminator | wikitext-2-raw-v1 | g5.4xlarge | float16 | 256 | 320 |
gpt2 | wikitext-2-raw-v1 | g4dn.16xlarge | float16 | 80 | 64 |
gpt2 | wikitext-2-raw-v1 | p3.2xlarge | float16 | 80 | 77 |
gpt2 | wikitext-2-raw-v1 | p3.8xlarge | float16 | 80 | 72 |
gpt2 | wikitext-2-raw-v1 | g5.4xlarge | float16 | 128 | 120 |
jplu_ tf-xlm-roberta-base | wikitext-2-raw-v1 | g4dn.16xlarge | float16 | 28 | 24 |
jplu_ tf-xlm-roberta-base | wikitext-2-raw-v1 | p3.2xlarge | float16 | 32 | 24 |
jplu_ tf-xlm-roberta-base | wikitext-2-raw-v1 | p3.8xlarge | float16 | 32 | 26 |
jplu_ tf-xlm-roberta-base | wikitext-2-raw-v1 | g5.4xlarge | float16 | 66 | 52 |
microsoft_mpnet-base | wikitext-2-raw-v1 | g4dn.16xlarge | float16 | 96 | 92 |
microsoft_mpnet-base | wikitext-2-raw-v1 | p3.2xlarge | float16 | 96 | 101 |
microsoft_mpnet-base | wikitext-2-raw-v1 | p3.8xlarge | float16 | 96 | 101 |
microsoft_mpnet-base | wikitext-2-raw-v1 | g5.4xlarge | float16 | 128 | 152 |
roberta-base | wikitext-2-raw-v1 | g4dn.16xlarge | float16 | 64 | 72 |
roberta-base | wikitext-2-raw-v1 | p3.2xlarge | float16 | 64 | 84 |
roberta-base | wikitext-2-raw-v1 | p3.8xlarge | float16 | 64 | 86 |
roberta-base | wikitext-2-raw-v1 | g5.4xlarge | float16 | 128 | 128 |
使用具有自动混合精度的 TensorFlowModel Garden
单节点单节点/多节点 GPU GPU | ||||
---|---|---|---|---|
模型 | 数据集 | 实例类型 | 原生框架的批处理大小 | SageMaker 训练编译器的批次大小 |
ResNet50 | ImageNet | ml.g4dn.2xlarge | 192 | 256* |
ResNet101 | ImageNet | ml.g4dn.2xlarge | 128 | 160 |
ml.g5.2xlarge | 224 | 256* | ||
ml.p3.16xlarge | 1536 | 1792 | ||
ResNet152 | ImageNet | ml.g5.2xlarge | 192 | 224 |
ml.p3.2xlarge | 160 | 160 | ||
ml.p3.16xlarge | 1024 | 1 280 | ||
VisionTransformer | ImageNet | ml.g4dn.2xlarge | 80 | 128* |
ml.g5.2xlarge | 112 | 128* | ||
ml.p3.2xlarge | 56 | 128* | ||
ml.p3.16xlarge | 640 | 1024* | ||
DetectionTransformer-ResNet 50 | COCO-2017 | ml.g4dn.2xlarge | 2 | 2 |
ml.g5.2xlarge | 3 | 6 | ||
ml.p3.2xlarge | 2 | 4 | ||
ml.p3.16xlarge | 8 | 32 | ||
口罩 RCNN-ResNet 50-FPN | COCO-2017 | ml.g4dn.2xlarge | 4 | 4 |
ml.g5.2xlarge | 6 | 8 | ||
ml.p3.2xlarge | 4 | 6 |
* 标有星号 (*) 的批量大小表示 SageMaker 训练编译器开发团队测试的最大批量。对于已标记的单元格,该实例可能能够容纳比所示批处理大小更大的批处理大小。
经过测试Sequence_Len=512
并自动混合精度 (AMP)。
单节点单节点 GPU | |||||
---|---|---|---|---|---|
模型 | 数据集 | 实例类型 | 实例计数 | 原生框架的批处理大小 | Training Compiler 的批处理大小 |
albert-base-v2 | wikitext-2 | ml.g4dn.2xlarge | 1 | 14 | 28 |
ml.g5.2xlarge | 1 | 18 | 40 | ||
ml.p3.2xlarge | 1 | 14 | 32 | ||
bert-base-cased | wikitext-2 | ml.g4dn.2xlarge | 1 | 12 | 24 |
ml.g5.2xlarge | 1 | 28 | 44 | ||
ml.p3.2xlarge | 1 | 16 | 20 | ||
camembert-base | wikitext-2 | ml.g4dn.2xlarge | 1 | 16 | 28 |
ml.g5.2xlarge | 1 | 24 | 40 | ||
ml.p3.2xlarge | 1 | 16 | 24 | ||
distilbert-base-uncased | wikitext-2 | ml.g4dn.2xlarge | 1 | 28 | 52 |
ml.g5.2xlarge | 1 | 40 | 76 | ||
ml.p3.2xlarge | 1 | 32 | 48 | ||
wikitext-103-v1 | ml.p4d.24xlarge | 4 | 82 | 160 | |
distilgpt2 | wikitext-2 | ml.g4dn.2xlarge | 1 | 6 | 18 |
ml.g5.2xlarge | 1 | 12 | 28 | ||
ml.p3.2xlarge | 1 | 6 | 16 | ||
distilroberta-base | wikitext-2 | ml.g4dn.2xlarge | 1 | 20 | 40 |
ml.g5.2xlarge | 1 | 28 | 56 | ||
ml.p3.2xlarge | 1 | 24 | 40 | ||
EleutherAI/gpt-neo-125M | wikitext-2 | ml.g4dn.2xlarge | 1 | 4 | 8 |
ml.g5.2xlarge | 1 | 6 | 14 | ||
ml.p3.2xlarge | 1 | 4 | 10 | ||
gpt2 | wikitext-2 | ml.g4dn.2xlarge | 1 | 4 | 8 |
ml.g5.2xlarge | 1 | 6 | 16 | ||
ml.p3.2xlarge | 1 | 4 | 10 | ||
wikitext-103-v1 | ml.p4d.24xlarge | 4 | 13 | 25 | |
roberta-base | wikitext-2 | ml.g4dn.2xlarge | 1 | 12 | 20 |
ml.g5.2xlarge | 1 | 24 | 36 | ||
ml.p3.2xlarge | 1 | 12 | 20 | ||
wikitext-103-v1 | ml.p4d.24xlarge | 4 | 36 | 64 | |
xlnet-base-cased | wikitext-2 | ml.g4dn.2xlarge | 1 | 2 | 6 |
ml.g5.2xlarge | 1 | 2 | 10 | ||
ml.p3.2xlarge | 1 | 2 | 8 | ||
bert-base-uncased | wikitext-103-v1 | ml.p4d.24xlarge | 2 | 32 | 64 |
4 | 32 | 64 | |||
8 | 32 | 64 | |||
16 | 32 | 64 | |||
roberta-large | wikitext-103-v1 | ml.p4d.24xlarge | 4 | 16 | 24 |
microsoft/deberta-v3-base | wikitext-103-v1 | ml.p4d.24xlarge | 16 | 9 | 23 |
经过测试Sequence_Len=512
并自动混合精度 (AMP)。
单节点单节点 GPU | |||
---|---|---|---|
模型 | 实例类型 | 原生框架的批处理大小 | Training Compiler 的批处理大小 |
albert-base-v2 | ml.p3.2xlarge | 14 | 28 |
ml.g4dn.2xlarge | 14 | 24 | |
bert-base-cased | ml.p3.2xlarge | 16 | 24 |
ml.g4dn.2xlarge | 12 | 24 | |
bert-base-uncased | ml.p3.2xlarge | 16 | 24 |
ml.g4dn.2xlarge | 12 | 28 | |
camembert-base | ml.p3.2xlarge | 12 | 24 |
ml.g4dn.2xlarge | 12 | 28 | |
distilbert-base-uncased | ml.p3.2xlarge | 28 | 48 |
ml.g4dn.2xlarge | 24 | 52 | |
distilgpt2 | ml.p3.2xlarge | 6 | 12 |
ml.g4dn.2xlarge | 6 | 14 | |
distilroberta-base | ml.p3.2xlarge | 20 | 40 |
ml.g4dn.2xlarge | 12 | 40 | |
EleutherAI/gpt-neo-125M | ml.p3.2xlarge | 2 | 10 |
ml.g4dn.2xlarge | 2 | 8 | |
facebook/bart-base | ml.p3.2xlarge | 2 | 6 |
ml.g4dn.2xlarge | 2 | 6 | |
gpt2 | ml.p3.2xlarge | 4 | 8 |
ml.g4dn.2xlarge | 2 | 8 | |
roberta-base | ml.p3.2xlarge | 12 | 20 |
ml.g4dn.2xlarge | 12 | 20 | |
xlnet-base-cased | ml.p3.2xlarge | 2 | 8 |
ml.g4dn.2xlarge | 4 | 6 |
经过测试Sequence_Len=512
并自动混合精度 (AMP)。
单节点单节点 GPU | |||
---|---|---|---|
模型 | 实例类型 | 本机的批处理大小 | Training Compiler 的批处理大小 |
albert-base-v2 | ml.p3.2xlarge | 12 | 32 |
bert-base-cased | ml.p3.2xlarge | 14 | 24 |
bert-base-chinese | ml.p3.2xlarge | 16 | 24 |
bert-base-multilingual-cased | ml.p3.2xlarge | 4 | 16 |
bert-base-multilingual-uncased | ml.p3.2xlarge | 8 | 16 |
bert-base-uncased | ml.p3.2xlarge | 12 | 24 |
cl-tohoku/-word-masking bert-base-japanese-whole | ml.p3.2xlarge | 12 | 24 |
cl-tohoku/ bert-base-japanese | ml.p3.2xlarge | 12 | 24 |
distilbert-base-uncased | ml.p3.2xlarge | 28 | 32 |
distilbert-base-uncased-finetuned-sst-2-english | ml.p3.2xlarge | 28 | 32 |
distilgpt2 | ml.p3.2xlarge | 16 | 32 |
facebook/bart-base | ml.p3.2xlarge | 4 | 8 |
gpt2 | ml.p3.2xlarge | 6 | 20 |
nreimers/ iniLMv M 2-L6-H384-Distilled-from-R-Large oBERTa | ml.p3.2xlarge | 20 | 32 |
roberta-base | ml.p3.2xlarge | 12 | 20 |
单节点多节点 GPU | |||
---|---|---|---|
模型 | 实例类型 | 本机的批处理大小 | Training Compiler 的批处理大小 |
bert-base-chinese | ml.p3.8xlarge | 16 | 26 |
bert-base-multilingual-cased | ml.p3.8xlarge | 6 | 16 |
bert-base-multilingual-uncased | ml.p3.8xlarge | 6 | 16 |
bert-base-uncased | ml.p3.8xlarge | 14 | 24 |
distilbert-base-uncased | ml.p3.8xlarge | 14 | 32 |
distilgpt2 | ml.p3.8xlarge | 6 | 32 |
facebook/bart-base | ml.p3.8xlarge | 8 | 16 |
gpt2 | ml.p3.8xlarge | 8 | 20 |
roberta-base | ml.p3.8xlarge | 12 | 20 |
经过测试Sequence_Len=128
并自动混合精度 (AMP)。
模型 | 实例类型 | 原生框架的批处理大小 | Training Compiler 的批处理大小 |
---|---|---|---|
albert-base-v2 | ml.g4dn.16xlarge | 136 | 208 |
albert-base-v2 | ml.g5.4xlarge | 219 | 312 |
albert-base-v2 | ml.p3.2xlarge | 152 | 208 |
albert-base-v2 | ml.p3.8xlarge | 152 | 192 |
bert-base-uncased | ml.g4dn.16xlarge | 120 | 101 |
bert-base-uncased | ml.g5.4xlarge | 184 | 160 |
bert-base-uncased | ml.p3.2xlarge | 128 | 108 |
bert-large-uncased | ml.g4dn.16xlarge | 37 | 28 |
bert-large-uncased | ml.g5.4xlarge | 64 | 55 |
bert-large-uncased | ml.p3.2xlarge | 40 | 32 |
camembert-base | ml.g4dn.16xlarge | 96 | 100 |
camembert-base | ml.g5.4xlarge | 190 | 160 |
camembert-base | ml.p3.2xlarge | 129 | 108 |
camembert-base | ml.p3.8xlarge | 128 | 104 |
distilbert-base-uncased | ml.g4dn.16xlarge | 210 | 160 |
distilbert-base-uncased | ml.g5.4xlarge | 327 | 288 |
distilbert-base-uncased | ml.p3.2xlarge | 224 | 196 |
distilbert-base-uncased | ml.p3.8xlarge | 192 | 182 |
google_ electra-small-discriminator | ml.g4dn.16xlarge | 336 | 288 |
google_ electra-small-discriminator | ml.g5.4xlarge | 504 | 384 |
google_ electra-small-discriminator | ml.p3.2xlarge | 352 | 323 |
gpt2 | ml.g4dn.16xlarge | 89 | 64 |
gpt2 | ml.g5.4xlarge | 140 | 146 |
gpt2 | ml.p3.2xlarge | 94 | 96 |
gpt2 | ml.p3.8xlarge | 96 | 88 |
jplu_ tf-xlm-roberta-base | ml.g4dn.16xlarge | 52 | 16 |
jplu_ tf-xlm-roberta-base | ml.g5.4xlarge | 64 | 44 |
microsoft_mpnet-base | ml.g4dn.16xlarge | 120 | 100 |
microsoft_mpnet-base | ml.g5.4xlarge | 192 | 160 |
microsoft_mpnet-base | ml.p3.2xlarge | 128 | 104 |
microsoft_mpnet-base | ml.p3.8xlarge | 130 | 92 |
roberta-base | ml.g4dn.16xlarge | 108 | 64 |
roberta-base | ml.g5.4xlarge | 176 | 142 |
roberta-base | ml.p3.2xlarge | 118 | 100 |
roberta-base | ml.p3.8xlarge | 112 | 88 |
经过测试Sequence_Len=128
并自动混合精度 (AMP)。
单节点单节点 GPU | |||
---|---|---|---|
模型 | 实例类型 | 本机的批处理大小 | Training Compiler 的批处理大小 |
albert-base-v2 | ml.p3.2xlarge | 128 | 128 |
bart-base | ml.p3.2xlarge | 12 | 64 |
bart-large | ml.p3.2xlarge | 4 | 28 |
bert-base-cased | ml.p3.2xlarge | 16 | 128 |
bert-base-chinese | ml.p3.2xlarge | 16 | 128 |
bert-base-multilingual-cased | ml.p3.2xlarge | 12 | 64 |
bert-base-multilingual-uncased | ml.p3.2xlarge | 16 | 96 |
bert-base-uncased | ml.p3.2xlarge | 16 | 96 |
bert-large-uncased | ml.p3.2xlarge | 4 | 24 |
cl-tohoku/ bert-base-japanese | ml.p3.2xlarge | 16 | 128 |
cl-tohoku/-word-masking bert-base-japanese-whole | ml.p3.2xlarge | 16 | 128 |
distilbert-base-sst2 | ml.p3.2xlarge | 32 | 128 |
distilbert-base-uncased | ml.p3.2xlarge | 32 | 128 |
distilgpt2 | ml.p3.2xlarge | 32 | 128 |
gpt2 | ml.p3.2xlarge | 12 | 64 |
gpt2-large | ml.p3.2xlarge | 2 | 24 |
jplu/ tf-xlm-roberta-base | ml.p3.2xlarge | 12 | 32 |
roberta-base | ml.p3.2xlarge | 4 | 64 |
roberta-large | ml.p3.2xlarge | 4 | 64 |
t5-base | ml.p3.2xlarge | 64 | 64 |
t5-small | ml.p3.2xlarge | 128 | 128 |