支援的架構 AWS 區域、執行個體類型和測試模型 - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

支援的架構 AWS 區域、執行個體類型和測試模型

重要

Amazon Web Services(AWS)宣布將不會有新版本或 SageMaker 培訓編譯器版本。您可以透過現有的 AWS Deep Learning Containers (DLCs) 繼續使用 SageMaker 訓練編譯器進行 SageMaker 訓練。請務必注意,儘管現有的DLCs保持可存取,但根據 AWS Deep Learning Containers 架構 Support 政策 AWS,它們將不再從中接收修補程式或更新。

在使用 SageMaker 培訓編譯器之前,請檢查您選擇的框架是否受支持,您的 AWS 帳戶中是否可以使用實例類型,並且您的 AWS 帳戶位於其中一個受支持的框架中 AWS 區域。

注意

SageMaker 訓練編譯器可在 SageMaker Python SDK v2.70.0 或更高版本中使用。

支援的架構

SageMaker 訓練編譯器支援下列深度學習架構,並可透過 AWS Deep Learning Containers 取得。

PyTorch

架構 框架版本 深度學習容器 URI 可針對 Docker 自訂進行擴展
PyTorch PyTorch V1.13.1 763104351884.dkr.ecr.<region>. pytorch-trcomp-training 亞馬遜公司/: 1.12.0-G-皮亞麻 -38-共 118-下垂器
PyTorch 763104351884.dkr.ecr.<region>. pytorch-trcomp-training 亞馬遜公司/: 1.13.1-克普-皮 39-共 117-下垂器
PyTorch 與 Hugging Face 變壓器

轉換器 v4.21.1

PyTorch v1.11.0

763104351884.dkr.ecr.<region>. huggingface-pytorch-trcomp-training 亞馬遜公司/: 1.11.1-變壓器 4.21.1-GPU-聚氨酯

轉換器 v4.17.0

PyTorch V1.10.2

763104351884.dkr.ecr.<region>. huggingface-pytorch-trcomp-training 亞馬遜公司/: 1.10.2-變壓器 4.17.0-GPU-基於 38-銅

轉換器 v4.11.0

PyTorch

763104351884.dkr.ecr.<region>. huggingface-pytorch-training-comp 亞馬遜. COM /: 1.9.0-變壓器 4.11.0-GPU-聚氨酯

TensorFlow

架構 框架版本 深度學習容器 URI 可針對 Docker 自訂進行擴展
TensorFlow

TensorFlow v2.11.0

763104351884.dkr.ecr.<region>. 亞馬遜/張力流訓練:2.11.0-G-焦糖 -39-共 112-下垂器

TensorFlow v2.10.0

763104351884.dkr.ecr.<region>. 亞馬遜/張力流訓練:2.10.0-G-焦糖 -39-共 112-下垂器

TensorFlow v2.9.1

763104351884.dkr.ecr.<region>. 亞馬遜/張力流訓練:2.9.1 克-焦糖 -39-共 110-下垂器

TensorFlow 與 Hugging Face 變壓器

轉換器 v4.17.0

TensorFlow v2.6.3

763104351884.dkr.ecr.<region>. huggingface-tensorflow-trcomp-training 亞馬遜網站 /:2.6.3-變壓器 4.17.0-GPU-聚氨酯

轉換器 v4.11.0

TensorFlow v2.5.1

763104351884.dkr.ecr.<region>. huggingface-tensorflow-training-comp 亞馬遜網站/: 2.5.1-變壓器 4.11.0-GPU-聚氯乙烯

如需詳細資訊,請參閱 AWS Deep Learning Containers GitHub 儲存庫中的可用映像

AWS 區域

SageMaker 訓練編譯器容器可用於服務中 AWS 區域 的 AWS Deep Learning Contain ers (中國區域除外)。

支援的執行個體類型

SageMaker 訓練編譯器會在測試並支援下列 ML 執行個體類型。

  • P4 執行個體

  • P3 執行個體

  • G4dn 執行個體

  • G5 執行個體

如需執行個體類型的規格,請參閱 Amazon EC2 執行個體類型頁面中的「加速運算」一節。如需執行個體定價的相關資訊,請參閱 Amazon SageMaker 定價

如果您遇到類似下列內容的錯誤訊息,請遵循要求增加 SageMaker 資源的服務配額中的指示。

ResourceLimitExceeded: An error occurred (ResourceLimitExceeded) when calling the CreateTrainingJob operation: The account-level service limit 'ml.p3dn.24xlarge for training job usage' is 0 Instances, with current utilization of 0 Instances and a request delta of 1 Instances. Please contact AWS support to request an increase for this limit.

測試模型模型

下表包含已使用 SageMaker 訓練編譯器測試的模型清單。作為參考,能夠放入記憶體的最大批次大小也包含在其他訓練參數中。 SageMaker 訓練編譯器可以變更模型訓練程序的記憶體佔用量;因此,在訓練過程中通常可以使用較大的批次大小,進一步減少總訓練時間。在某些情況下, SageMaker 訓練編譯器會智慧地提升快取,進而導致最大的批次大小減少,可適合. GPU 您必須重新調整模型超參數,找到適合您案例的最佳批次大小。若要節省時間,請利用下列參考資料表來查詢批次大小,作為您使用案例的良好起點。

注意

批次大小是本機批次大小,適合各個執行個體類型GPU中的每個人。在變更批次大小時,您也應調整學習速率。

自然語言處理 (NLP) 模型

下列型號已針對單一或多GPU核心的單節點與多節點組合,以及自動混合精確度 (AMP) 所有組合的訓練工作進行測試,如下所示。

單節點/多節點單/多 GPU GPU
模型 資料集 執行個體類型 精確度 序列長度 原生架構的批次大小 SageMaker 訓練編譯器的 Batch 大小
albert-base-v2 wikitext-2-raw-v1 g4dn.16xlarge float16 128 80 192
albert-base-v2 wikitext-2-raw-v1 g5.4xlarge float16 128 128 332
albert-base-v2 wikitext-2-raw-v1 p3.2xlarge float16 128 80 224
bert-base-uncased wikitext-2-raw-v1 g5.4xlarge float16 128 160 288
camembert-base wikitext-2-raw-v1 g5.4xlarge float16 128 160 280
distilbert-base-uncased wikitext-2-raw-v1 g5.4xlarge float16 128 240 472
distilgpt2 wikitext-2-raw-v1 g4dn.16xlarge float16 128 77 128
distilgpt2 wikitext-2-raw-v1 g5.4xlarge float16 128 138 390
distilgpt2 wikitext-2-raw-v1 p3.2xlarge float16 128 96 256
distilroberta-base wikitext-2-raw-v1 g4dn.16xlarge float16 128 96 192
distilroberta-base wikitext-2-raw-v1 g5.4xlarge float16 128 171 380
distilroberta-base wikitext-2-raw-v1 p3.2xlarge float16 128 112 256
gpt2 wikitext-2-raw-v1 g4dn.16xlarge float16 128 52 152
gpt2 wikitext-2-raw-v1 g5.4xlarge float16 128 84 240
gpt2 wikitext-2-raw-v1 p3.2xlarge float16 128 58 164
microsoft/deberta-base wikitext-2-raw-v1 g4dn.16xlarge float16 128 48 128
microsoft/deberta-base wikitext-2-raw-v1 g5.4xlarge float16 128 84 207
microsoft/deberta-base wikitext-2-raw-v1 p3.2xlarge float16 128 53 133
roberta-base wikitext-2-raw-v1 g5.4xlarge float16 128 125 224
xlm-roberta-base wikitext-2-raw-v1 g4dn.16xlarge float16 128 16 31
xlm-roberta-base wikitext-2-raw-v1 p3.2xlarge float16 128 18 50
xlnet-base-cased wikitext-2-raw-v1 g5.4xlarge float16 128 128 240
bert-base-uncased wikitext-103-v1 g5.48xlarge float16 512 29 50
distilbert-base-uncased wikitext-103-v1 g5.48xlarge float16 512 45 64
gpt2 wikitext-103-v1 g5.48xlarge float16 512 18 45
roberta-base wikitext-103-v1 g5.48xlarge float16 512 23 44
gpt2 wikitext-103-v1 p4d.24xlarge float16 512 36 64

電腦視覺 (CV) 模型

如圖所示,使用具有自動混合精度(AMP)的TensorFlow模型花園進行測試。

單/多節點單/多節點 GPU
模型 資料集 執行個體類型 精確度 原生架構的批次大小 SageMaker 訓練編譯器的 Batch 大小
ResNet152 food101 g4dn.16xlarge float16 128 144
ResNet152 food101 g5.4xlarge float16 128 192
ResNet152 food101 p3.2xlarge float16 152 156
ViT food101 g4dn.16xlarge float16 512 512
ViT food101 g5.4xlarge float16 992 768
ViT food101 p3.2xlarge float16 848 768

自然語言處理 (NLP) 模型

下列型號已針對單一或多GPU核心的單節點與多節點組合,以及自動混合精確度 (AMP) 所有組合的訓練工作進行測試,如下所示。

單節點/多節點單/多 GPU GPU
模型 資料集 執行個體類型 精確度 序列長度 原生架構的批次大小 SageMaker 訓練編譯器的 Batch 大小
albert-base-v2 wikitext-2-raw-v1 ml.g5.2xlarge float16 128 128 248
bert-base-uncased wikitext-2-raw-v1 ml.g5.2xlarge float16 128 160 288
camembert-base wikitext-2-raw-v1 ml.g5.2xlarge float16 128 160 279
camembert-base wikitext-2-raw-v1 ml.p3.2xlarge float16 128 105 164
distilgpt2 wikitext-2-raw-v1 ml.g5.2xlarge float16 128 136 256
distilgpt2 wikitext-2-raw-v1 ml.p3.2xlarge float16 128 80 118
gpt2 wikitext-2-raw-v1 ml.g5.2xlarge float16 128 84 240
gpt2 wikitext-2-raw-v1 ml.p3.2xlarge float16 128 80 119
microsoft/deberta-base wikitext-2-raw-v1 ml.g5.2xlarge float16 128 93 197
microsoft/deberta-base wikitext-2-raw-v1 ml.p3.2xlarge float16 128 113 130
roberta-base wikitext-2-raw-v1 ml.g5.2xlarge float16 128 125 224
roberta-base wikitext-2-raw-v1 ml.p3.2xlarge float16 128 78 112
xlnet-base-cased wikitext-2-raw-v1 ml.g5.2xlarge float16 128 138 240
bert-base-uncased wikitext-103-v1 ml.p4d.24xlarge float16 512 52
distilbert-base-uncased wikitext-103-v1 ml.p4d.24xlarge float16 512 160
gpt2 wikitext-103-v1 ml.p4d.24xlarge float16 512 25
roberta-base wikitext-103-v1 ml.p4d.24xlarge float16 512 64

電腦視覺 (CV) 模型

如圖所示,使用具有自動混合精度(AMP)的TensorFlow模型花園進行測試。

單/多節點單/多節點 GPU
模型 資料集 執行個體類型 精確度 原生架構的批次大小 SageMaker 訓練編譯器的 Batch 大小
面膜 RCNN-ResNet 50-FPN COCO-2017 ml.g5.2xlarge float16 6 8
面膜 RCNN-ResNet 50-FPN COCO-2017 ml.p3.2xlarge float16 4 6
ResNet50 ImageNet ml.g5.2xlarge float16 192 256
ResNet50 ImageNet ml.p3.2xlarge float16 256 256
ResNet101 ImageNet ml.g5.2xlarge float16 128 256
ResNet101 ImageNet ml.p3.2xlarge float16 128 128
ResNet152 ImageNet ml.g5.2xlarge float16 128 224
ResNet152 ImageNet ml.p3.2xlarge float16 128 128
VisionTransformer ImageNet ml.g5.2xlarge float16 112 144
VisionTransformer ImageNet ml.p3.2xlarge float16 96 128

自然語言處理 (NLP) 模型

使用具Sequence_Len=128有「自動混合精度」(AMP) 的變壓器型號測試,如下所示。

單/多節點單/多節點 GPU
模型 資料集 執行個體類型 精確度 原生架構的批次大小 SageMaker 訓練編譯器的 Batch 大小
albert-base-v2 wikitext-2-raw-v1 ml.g5.2xlarge float16 160 197
albert-base-v2 wikitext-2-raw-v1 ml.p3.2xlarge float16 95 127
bert-base-uncased wikitext-2-raw-v1 ml.g5.2xlarge float16 160 128
bert-base-uncased wikitext-2-raw-v1 ml.p3.2xlarge float16 104 111
bert-large-uncased wikitext-2-raw-v1 ml.g5.2xlarge float16 65 48
bert-large-uncased wikitext-2-raw-v1 ml.p3.2xlarge float16 40 35
camembert-base wikitext-2-raw-v1 ml.g5.2xlarge float16 128 162
camembert-base wikitext-2-raw-v1 ml.p3.2xlarge float16 105 111
distilbert-base-uncased wikitext-2-raw-v1 ml.g5.2xlarge float16 256 264
distilbert-base-uncased wikitext-2-raw-v1 ml.p3.2xlarge float16 128 169
gpt2 wikitext-2-raw-v1 ml.g5.2xlarge float16 128 120
gpt2 wikitext-2-raw-v1 ml.p3.2xlarge float16 80 83
插頭/tf-xlm-roberta-base wikitext-2-raw-v1 ml.g5.2xlarge float16 32 32
插頭/tf-xlm-roberta-base wikitext-2-raw-v1 ml.p3.2xlarge float16 32 36
microsoft/mpnet-base wikitext-2-raw-v1 ml.g5.2xlarge float16 144 160
microsoft/mpnet-base wikitext-2-raw-v1 ml.p3.2xlarge float16 106 110
roberta-base wikitext-2-raw-v1 ml.g5.2xlarge float16 128 128
roberta-base wikitext-2-raw-v1 ml.p3.2xlarge float16 72 98
albert-base-v2 wikitext-2-raw-v1 ml.g5.48xlarge float16 128 192
albert-base-v2 wikitext-2-raw-v1 ml.p3.16xlarge float16 95 96
distilbert-base-uncased wikitext-2-raw-v1 ml.g5.48xlarge float16 256 256
distilbert-base-uncased wikitext-2-raw-v1 ml.p3.16xlarge float16 140 184
谷歌/electra-small-discriminator wikitext-2-raw-v1 ml.g5.48xlarge float16 256 384
谷歌/electra-small-discriminator wikitext-2-raw-v1 ml.p3.16xlarge float16 256 268
gpt2 wikitext-2-raw-v1 ml.g5.48xlarge float16 116 116
gpt2 wikitext-2-raw-v1 ml.p3.16xlarge float16 85 83
gpt2 wikitext-2-raw-v1 ml.p4d.24xlarge float16 94 110
microsoft/mpnet-base wikitext-2-raw-v1 ml.g5.48xlarge float16 187 164
microsoft/mpnet-base wikitext-2-raw-v1 ml.p3.16xlarge float16 106 111

電腦視覺 (CV) 模型

如圖所示,使用具有自動混合精度(AMP)的TensorFlow模型花園進行測試。

單節點單/多-GPU GPU
模型 資料集 執行個體類型 精確度 原生架構的批次大小 SageMaker 訓練編譯器的 Batch 大小
DetectionTransformer-ResNet 50 COCO-2017 ml.g4dn.2xlarge float32 2 4
DetectionTransformer-ResNet 50 COCO-2017 ml.g5.2xlarge float32 3 6
DetectionTransformer-ResNet 50 COCO-2017 ml.p3.2xlarge float32 2 4
面膜 RCNN-ResNet 50-FPN COCO-2017 ml.g4dn.2xlarge float16 4 6
面膜系列 RCNN-ResNet 50-FPN COCO-2017 ml.g5.2xlarge float16 6 8
面膜系列 RCNN-ResNet 50-FPN COCO-2017 ml.g5.48xlarge float16 48 64
面膜系列 RCNN-ResNet 50-FPN COCO-2017 ml.p3.2xlarge float16 4 6
ResNet50 ImageNet ml.g4dn.2xlarge float16 224 256
ResNet50 ImageNet ml.g5.2xlarge float16 192 160
ResNet50 ImageNet ml.g5.48xlarge float16 2048 2048
ResNet50 ImageNet ml.p3.2xlarge float16 224 160
ResNet101 ImageNet ml.g4dn.2xlarge float16 160 128
ResNet101 ImageNet ml.g5.2xlarge float16 192 256
ResNet101 ImageNet ml.g5.48xlarge float16 2048 2048
ResNet101 ImageNet ml.p3.2xlarge float16 160 224
ResNet152 ImageNet ml.g4dn.2xlarge float16 128 128
ResNet152 ImageNet ml.g5.2xlarge float16 192 224
ResNet152 ImageNet ml.g5.48xlarge float16 1536 1792
ResNet152 ImageNet ml.p3.2xlarge float16 128 160
VisionTransformer ImageNet ml.g4dn.2xlarge float16 80 128
VisionTransformer ImageNet ml.g5.2xlarge float16 112 144
VisionTransformer ImageNet ml.g5.48xlarge float16 896 1152
VisionTransformer ImageNet ml.p3.2xlarge float16 80 128

自然語言處理 (NLP) 模型

使用具Sequence_Len=128有「自動混合精度」(AMP) 的變壓器型號測試,如下所示。

單節點單/多-GPU GPU
模型 資料集 執行個體類型 精確度 原生架構的批次大小 SageMaker 訓練編譯器的 Batch 大小
albert-base-v2 wikitext-2-raw-v1 g4dn.16xlarge float16 128 112
albert-base-v2 wikitext-2-raw-v1 p3.2xlarge float16 128 128
albert-base-v2 wikitext-2-raw-v1 p3.8xlarge float16 128 135
albert-base-v2 wikitext-2-raw-v1 g5.4xlarge float16 128 191
bert-base-uncased wikitext-2-raw-v1 g4dn.16xlarge float16 64 94
bert-base-uncased wikitext-2-raw-v1 p3.2xlarge float16 96 101
bert-base-uncased wikitext-2-raw-v1 p3.8xlarge float16 96 96
bert-base-uncased wikitext-2-raw-v1 g5.4xlarge float16 128 128
bert-large-uncased wikitext-2-raw-v1 g4dn.16xlarge float16 35 21
bert-large-uncased wikitext-2-raw-v1 p3.2xlarge float16 39 26
bert-large-uncased wikitext-2-raw-v1 g5.4xlarge float16 60 50
camembert-base wikitext-2-raw-v1 g4dn.16xlarge float16 96 90
camembert-base wikitext-2-raw-v1 p3.2xlarge float16 96 98
camembert-base wikitext-2-raw-v1 p3.8xlarge float16 96 96
camembert-base wikitext-2-raw-v1 g5.4xlarge float16 128 128
distilbert-base-uncased wikitext-2-raw-v1 g4dn.16xlarge float16 256 160
distilbert-base-uncased wikitext-2-raw-v1 p3.2xlarge float16 128 176
distilbert-base-uncased wikitext-2-raw-v1 p3.8xlarge float16 128 160
distilbert-base-uncased wikitext-2-raw-v1 g5.4xlarge float16 256 258
谷歌 electra-small-discriminator wikitext-2-raw-v1 g4dn.16xlarge float16 256 216
谷歌 electra-small-discriminator wikitext-2-raw-v1 p3.2xlarge float16 256 230
谷歌 electra-small-discriminator wikitext-2-raw-v1 p3.8xlarge float16 256 224
谷歌 electra-small-discriminator wikitext-2-raw-v1 g5.4xlarge float16 256 320
gpt2 wikitext-2-raw-v1 g4dn.16xlarge float16 80 64
gpt2 wikitext-2-raw-v1 p3.2xlarge float16 80 77
gpt2 wikitext-2-raw-v1 p3.8xlarge float16 80 72
gpt2 wikitext-2-raw-v1 g5.4xlarge float16 128 120
JPLU_ tf-xlm-roberta-base wikitext-2-raw-v1 g4dn.16xlarge float16 28 24
JPLU_ tf-xlm-roberta-base wikitext-2-raw-v1 p3.2xlarge float16 32 24
JPLU_ tf-xlm-roberta-base wikitext-2-raw-v1 p3.8xlarge float16 32 26
JPLU_ tf-xlm-roberta-base wikitext-2-raw-v1 g5.4xlarge float16 66 52
microsoft_mpnet-base wikitext-2-raw-v1 g4dn.16xlarge float16 96 92
microsoft_mpnet-base wikitext-2-raw-v1 p3.2xlarge float16 96 101
microsoft_mpnet-base wikitext-2-raw-v1 p3.8xlarge float16 96 101
microsoft_mpnet-base wikitext-2-raw-v1 g5.4xlarge float16 128 152
roberta-base wikitext-2-raw-v1 g4dn.16xlarge float16 64 72
roberta-base wikitext-2-raw-v1 p3.2xlarge float16 64 84
roberta-base wikitext-2-raw-v1 p3.8xlarge float16 64 86
roberta-base wikitext-2-raw-v1 g5.4xlarge float16 128 128

使用TensorFlow模型花園進行測試,具有自動混合精度(AMP)。

單節點單/多-GPU GPU
模型 資料集 執行個體類型 原生架構的批次大小 SageMaker 訓練編譯器的 Batch 大小
ResNet50 ImageNet ml.g4dn.2xlarge 192 256*
ResNet101 ImageNet ml.g4dn.2xlarge 128 160
ml.g5.2xlarge 224 256*
ml.p3.16xlarge 1536 1792
ResNet152 ImageNet ml.g5.2xlarge 192 224
ml.p3.2xlarge 160 160
ml.p3.16xlarge 1024 1280
VisionTransformer ImageNet ml.g4dn.2xlarge 80 128*
ml.g5.2xlarge 112 128*
ml.p3.2xlarge 56 128*
ml.p3.16xlarge 640 1024*
DetectionTransformer-ResNet 50 COCO-2017 ml.g4dn.2xlarge 2 2
ml.g5.2xlarge 3 6
ml.p3.2xlarge 2 4
ml.p3.16xlarge 8 32
面膜系列 RCNN-ResNet 50-FPN COCO-2017 ml.g4dn.2xlarge 4 4
ml.g5.2xlarge 6 8
ml.p3.2xlarge 4 6

* 標有星號 (*) 的批次大小表示 SageMaker 訓練編譯器開發人員團隊測試的最大批次大小。對於標記的儲存格,執行個體可能可容納比指示更大的批次大小。

通過測試Sequence_Len=512和自動混合精度(AMP)。

單節點單 GPU
模型 資料集 執行個體類型 執行個體計數 原生架構的批次大小 Training Compiler 的批次大小
albert-base-v2 wikitext-2 ml.g4dn.2xlarge 1 14 28
ml.g5.2xlarge 1 18 40
ml.p3.2xlarge 1 14 32
bert-base-cased wikitext-2 ml.g4dn.2xlarge 1 12 24
ml.g5.2xlarge 1 28 44
ml.p3.2xlarge 1 16 20
camembert-base wikitext-2 ml.g4dn.2xlarge 1 16 28
ml.g5.2xlarge 1 24 40
ml.p3.2xlarge 1 16 24
distilbert-base-uncased wikitext-2 ml.g4dn.2xlarge 1 28 52
ml.g5.2xlarge 1 40 76
ml.p3.2xlarge 1 32 48
wikitext-103-v1 ml.p4d.24xlarge 4 82 160
distilgpt2 wikitext-2 ml.g4dn.2xlarge 1 6 18
ml.g5.2xlarge 1 12 28
ml.p3.2xlarge 1 6 16
distilroberta-base wikitext-2 ml.g4dn.2xlarge 1 20 40
ml.g5.2xlarge 1 28 56
ml.p3.2xlarge 1 24 40
EleutherAI/gpt-neo-125M wikitext-2 ml.g4dn.2xlarge 1 4 8
ml.g5.2xlarge 1 6 14
ml.p3.2xlarge 1 4 10
gpt2 wikitext-2 ml.g4dn.2xlarge 1 4 8
ml.g5.2xlarge 1 6 16
ml.p3.2xlarge 1 4 10
wikitext-103-v1 ml.p4d.24xlarge 4 13 25
roberta-base wikitext-2 ml.g4dn.2xlarge 1 12 20
ml.g5.2xlarge 1 24 36
ml.p3.2xlarge 1 12 20
wikitext-103-v1 ml.p4d.24xlarge 4 36 64
xlnet-base-cased wikitext-2 ml.g4dn.2xlarge 1 2 6
ml.g5.2xlarge 1 2 10
ml.p3.2xlarge 1 2 8
bert-base-uncased wikitext-103-v1 ml.p4d.24xlarge 2 32 64
4 32 64
8 32 64
16 32 64
roberta-large wikitext-103-v1 ml.p4d.24xlarge 4 16 24
microsoft/deberta-v3-base wikitext-103-v1 ml.p4d.24xlarge 16 9 23

通過測試Sequence_Len=512和自動混合精度(AMP)。

單節點單 GPU
模型 執行個體類型 原生架構的批次大小 Training Compiler 的批次大小
albert-base-v2 ml.p3.2xlarge 14 28
ml.g4dn.2xlarge 14 24
bert-base-cased ml.p3.2xlarge 16 24
ml.g4dn.2xlarge 12 24
bert-base-uncased ml.p3.2xlarge 16 24
ml.g4dn.2xlarge 12 28
camembert-base ml.p3.2xlarge 12 24
ml.g4dn.2xlarge 12 28
distilbert-base-uncased ml.p3.2xlarge 28 48
ml.g4dn.2xlarge 24 52
distilgpt2 ml.p3.2xlarge 6 12
ml.g4dn.2xlarge 6 14
distilroberta-base ml.p3.2xlarge 20 40
ml.g4dn.2xlarge 12 40
EleutherAI/gpt-neo-125M ml.p3.2xlarge 2 10
ml.g4dn.2xlarge 2 8
facebook/bart-base ml.p3.2xlarge 2 6
ml.g4dn.2xlarge 2 6
gpt2 ml.p3.2xlarge 4 8
ml.g4dn.2xlarge 2 8
roberta-base ml.p3.2xlarge 12 20
ml.g4dn.2xlarge 12 20
xlnet-base-cased ml.p3.2xlarge 2 8
ml.g4dn.2xlarge 4 6

通過測試Sequence_Len=512和自動混合精度(AMP)。

單節點單 GPU
模型 執行個體類型 原生批次大小 Training Compiler 的批次大小
albert-base-v2 ml.p3.2xlarge 12 32
bert-base-cased ml.p3.2xlarge 14 24
bert-base-chinese ml.p3.2xlarge 16 24
bert-base-multilingual-cased ml.p3.2xlarge 4 16
bert-base-multilingual-uncased ml.p3.2xlarge 8 16
bert-base-uncased ml.p3.2xlarge 12 24
cl-TO北/-字遮bert-base-japanese-whole片 ml.p3.2xlarge 12 24
CL-東北/bert-base-japanese ml.p3.2xlarge 12 24
distilbert-base-uncased ml.p3.2xlarge 28 32
distilbert-base-uncased-finetuned-SST-2-英語 ml.p3.2xlarge 28 32
distilgpt2 ml.p3.2xlarge 16 32
facebook/bart-base ml.p3.2xlarge 4 8
gpt2 ml.p3.2xlarge 6 20
瑞默氏/M 2-L6-H384-從 R 大蒸餾 iniLMv oBERTa ml.p3.2xlarge 20 32
roberta-base ml.p3.2xlarge 12 20
單節點多 GPU
模型 執行個體類型 原生批次大小 Training Compiler 的批次大小
bert-base-chinese ml.p3.8xlarge 16 26
bert-base-multilingual-cased ml.p3.8xlarge 6 16
bert-base-multilingual-uncased ml.p3.8xlarge 6 16
bert-base-uncased ml.p3.8xlarge 14 24
distilbert-base-uncased ml.p3.8xlarge 14 32
distilgpt2 ml.p3.8xlarge 6 32
facebook/bart-base ml.p3.8xlarge 8 16
gpt2 ml.p3.8xlarge 8 20
roberta-base ml.p3.8xlarge 12 20

通過測試Sequence_Len=128和自動混合精度(AMP)。

模型 執行個體類型 原生架構的批次大小 Training Compiler 的批次大小
albert-base-v2 ml.g4dn.16xlarge 136 208
albert-base-v2 ml.g5.4xlarge 219 312
albert-base-v2 ml.p3.2xlarge 152 208
albert-base-v2 ml.p3.8xlarge 152 192
bert-base-uncased ml.g4dn.16xlarge 120 101
bert-base-uncased ml.g5.4xlarge 184 160
bert-base-uncased ml.p3.2xlarge 128 108
bert-large-uncased ml.g4dn.16xlarge 37 28
bert-large-uncased ml.g5.4xlarge 64 55
bert-large-uncased ml.p3.2xlarge 40 32
camembert-base ml.g4dn.16xlarge 96 100
camembert-base ml.g5.4xlarge 190 160
camembert-base ml.p3.2xlarge 129 108
camembert-base ml.p3.8xlarge 128 104
distilbert-base-uncased ml.g4dn.16xlarge 210 160
distilbert-base-uncased ml.g5.4xlarge 327 288
distilbert-base-uncased ml.p3.2xlarge 224 196
distilbert-base-uncased ml.p3.8xlarge 192 182
谷歌 electra-small-discriminator ml.g4dn.16xlarge 336 288
谷歌 electra-small-discriminator ml.g5.4xlarge 504 384
谷歌 electra-small-discriminator ml.p3.2xlarge 352 323
gpt2 ml.g4dn.16xlarge 89 64
gpt2 ml.g5.4xlarge 140 146
gpt2 ml.p3.2xlarge 94 96
gpt2 ml.p3.8xlarge 96 88
JPLU_ tf-xlm-roberta-base ml.g4dn.16xlarge 52 16
JPLU_ tf-xlm-roberta-base ml.g5.4xlarge 64 44
microsoft_mpnet-base ml.g4dn.16xlarge 120 100
microsoft_mpnet-base ml.g5.4xlarge 192 160
microsoft_mpnet-base ml.p3.2xlarge 128 104
microsoft_mpnet-base ml.p3.8xlarge 130 92
roberta-base ml.g4dn.16xlarge 108 64
roberta-base ml.g5.4xlarge 176 142
roberta-base ml.p3.2xlarge 118 100
roberta-base ml.p3.8xlarge 112 88

通過測試Sequence_Len=128和自動混合精度(AMP)。

單節點單 GPU
模型 執行個體類型 原生批次大小 Training Compiler 的批次大小
albert-base-v2 ml.p3.2xlarge 128 128
bart-base ml.p3.2xlarge 12 64
bart-large ml.p3.2xlarge 4 28
bert-base-cased ml.p3.2xlarge 16 128
bert-base-chinese ml.p3.2xlarge 16 128
bert-base-multilingual-cased ml.p3.2xlarge 12 64
bert-base-multilingual-uncased ml.p3.2xlarge 16 96
bert-base-uncased ml.p3.2xlarge 16 96
bert-large-uncased ml.p3.2xlarge 4 24
CL-東北/bert-base-japanese ml.p3.2xlarge 16 128
cl-TO北/-字遮bert-base-japanese-whole片 ml.p3.2xlarge 16 128
distilbert-base-sst2 ml.p3.2xlarge 32 128
distilbert-base-uncased ml.p3.2xlarge 32 128
distilgpt2 ml.p3.2xlarge 32 128
gpt2 ml.p3.2xlarge 12 64
gpt2-large ml.p3.2xlarge 2 24
插頭/tf-xlm-roberta-base ml.p3.2xlarge 12 32
roberta-base ml.p3.2xlarge 4 64
roberta-large ml.p3.2xlarge 4 64
t5-base ml.p3.2xlarge 64 64
t5-small ml.p3.2xlarge 128 128