支援的架構 AWS 區域、執行個體類型和測試模型

重要

Amazon Web Services（AWS）宣布將不會有新版本或 SageMaker 培訓編譯器版本。您可以透過現有的 AWS Deep Learning Containers (DLCs) 繼續使用 SageMaker 訓練編譯器進行 SageMaker 訓練。請務必注意，儘管現有的DLCs保持可存取，但根據 AWS Deep Learning Containers 架構 Support 政策 AWS，它們將不再從中接收修補程式或更新。

在使用 SageMaker 培訓編譯器之前，請檢查您選擇的框架是否受支持，您的 AWS 帳戶中是否可以使用實例類型，並且您的 AWS 帳戶位於其中一個受支持的框架中 AWS 區域。

注意

SageMaker 訓練編譯器可在 SageMaker Python SDK v2.70.0 或更高版本中使用。

支援的架構

SageMaker 訓練編譯器支援下列深度學習架構，並可透過 AWS Deep Learning Containers 取得。

PyTorch

架構	框架版本	深度學習容器 URI	可針對 Docker 自訂進行擴展
PyTorch	PyTorch V1.13.1	763104351884.dkr.ecr.`<region>`. pytorch-trcomp-training 亞馬遜公司/: 1.12.0-G-皮亞麻 -38-共 118-下垂器	否
PyTorch	PyTorch	763104351884.dkr.ecr.`<region>`. pytorch-trcomp-training 亞馬遜公司/: 1.13.1-克普-皮 39-共 117-下垂器	否
PyTorch 與 Hugging Face 變壓器	轉換器 v4.21.1 PyTorch v1.11.0	763104351884.dkr.ecr.`<region>`. huggingface-pytorch-trcomp-training 亞馬遜公司/: 1.11.1-變壓器 4.21.1-GPU-聚氨酯	否
	轉換器 v4.17.0 PyTorch V1.10.2	763104351884.dkr.ecr.`<region>`. huggingface-pytorch-trcomp-training 亞馬遜公司/: 1.10.2-變壓器 4.17.0-GPU-基於 38-銅	否
	轉換器 v4.11.0 PyTorch	763104351884.dkr.ecr.`<region>`. huggingface-pytorch-training-comp 亞馬遜. COM /: 1.9.0-變壓器 4.11.0-GPU-聚氨酯	否

TensorFlow

架構	框架版本	深度學習容器 URI	可針對 Docker 自訂進行擴展
TensorFlow	TensorFlow v2.11.0	763104351884.dkr.ecr.`<region>`. 亞馬遜/張力流訓練:2.11.0-G-焦糖 -39-共 112-下垂器	是
	TensorFlow v2.10.0	763104351884.dkr.ecr.`<region>`. 亞馬遜/張力流訓練:2.10.0-G-焦糖 -39-共 112-下垂器	是
	TensorFlow v2.9.1	763104351884.dkr.ecr.`<region>`. 亞馬遜/張力流訓練:2.9.1 克-焦糖 -39-共 110-下垂器	是
TensorFlow 與 Hugging Face 變壓器	轉換器 v4.17.0 TensorFlow v2.6.3	763104351884.dkr.ecr.`<region>`. huggingface-tensorflow-trcomp-training 亞馬遜網站 /:2.6.3-變壓器 4.17.0-GPU-聚氨酯	否
TensorFlow 與 Hugging Face 變壓器	轉換器 v4.11.0 TensorFlow v2.5.1	763104351884.dkr.ecr.`<region>`. huggingface-tensorflow-training-comp 亞馬遜網站/: 2.5.1-變壓器 4.11.0-GPU-聚氯乙烯	否

如需詳細資訊，請參閱 AWS Deep Learning Containers GitHub 儲存庫中的可用映像。

AWS 區域

SageMaker 訓練編譯器容器可用於服務中 AWS 區域的 AWS Deep Learning Contain ers (中國區域除外)。

支援的執行個體類型

SageMaker 訓練編譯器會在測試並支援下列 ML 執行個體類型。

P4 執行個體
P3 執行個體
G4dn 執行個體
G5 執行個體

如需執行個體類型的規格，請參閱 Amazon EC2 執行個體類型頁面中的「加速運算」一節。如需執行個體定價的相關資訊，請參閱 Amazon SageMaker 定價。

如果您遇到類似下列內容的錯誤訊息，請遵循要求增加 SageMaker 資源的服務配額中的指示。


ResourceLimitExceeded: An error occurred (ResourceLimitExceeded) when calling
the CreateTrainingJob operation: The account-level service limit 'ml.p3dn.24xlarge
for training job usage' is 0 Instances, with current utilization of 0 Instances
and a request delta of 1 Instances.
Please contact AWS support to request an increase for this limit.

測試模型模型

下表包含已使用 SageMaker 訓練編譯器測試的模型清單。作為參考，能夠放入記憶體的最大批次大小也包含在其他訓練參數中。 SageMaker 訓練編譯器可以變更模型訓練程序的記憶體佔用量；因此，在訓練過程中通常可以使用較大的批次大小，進一步減少總訓練時間。在某些情況下， SageMaker 訓練編譯器會智慧地提升快取，進而導致最大的批次大小減少，可適合. GPU 您必須重新調整模型超參數，找到適合您案例的最佳批次大小。若要節省時間，請利用下列參考資料表來查詢批次大小，作為您使用案例的良好起點。

注意

批次大小是本機批次大小，適合各個執行個體類型GPU中的每個人。在變更批次大小時，您也應調整學習速率。

自然語言處理 (NLP) 模型

下列型號已針對單一或多GPU核心的單節點與多節點組合，以及自動混合精確度 (AMP) 所有組合的訓練工作進行測試，如下所示。

單節點/多節點單/多 GPU GPU
模型	資料集	執行個體類型	精確度	序列長度	原生架構的批次大小	SageMaker 訓練編譯器的 Batch 大小
albert-base-v2	wikitext-2-raw-v1	g4dn.16xlarge	float16	128	80	192
albert-base-v2	wikitext-2-raw-v1	g5.4xlarge	float16	128	128	332
albert-base-v2	wikitext-2-raw-v1	p3.2xlarge	float16	128	80	224
bert-base-uncased	wikitext-2-raw-v1	g5.4xlarge	float16	128	160	288
camembert-base	wikitext-2-raw-v1	g5.4xlarge	float16	128	160	280
distilbert-base-uncased	wikitext-2-raw-v1	g5.4xlarge	float16	128	240	472
distilgpt2	wikitext-2-raw-v1	g4dn.16xlarge	float16	128	77	128
distilgpt2	wikitext-2-raw-v1	g5.4xlarge	float16	128	138	390
distilgpt2	wikitext-2-raw-v1	p3.2xlarge	float16	128	96	256
distilroberta-base	wikitext-2-raw-v1	g4dn.16xlarge	float16	128	96	192
distilroberta-base	wikitext-2-raw-v1	g5.4xlarge	float16	128	171	380
distilroberta-base	wikitext-2-raw-v1	p3.2xlarge	float16	128	112	256
gpt2	wikitext-2-raw-v1	g4dn.16xlarge	float16	128	52	152
gpt2	wikitext-2-raw-v1	g5.4xlarge	float16	128	84	240
gpt2	wikitext-2-raw-v1	p3.2xlarge	float16	128	58	164
microsoft/deberta-base	wikitext-2-raw-v1	g4dn.16xlarge	float16	128	48	128
microsoft/deberta-base	wikitext-2-raw-v1	g5.4xlarge	float16	128	84	207
microsoft/deberta-base	wikitext-2-raw-v1	p3.2xlarge	float16	128	53	133
roberta-base	wikitext-2-raw-v1	g5.4xlarge	float16	128	125	224
xlm-roberta-base	wikitext-2-raw-v1	g4dn.16xlarge	float16	128	16	31
xlm-roberta-base	wikitext-2-raw-v1	p3.2xlarge	float16	128	18	50
xlnet-base-cased	wikitext-2-raw-v1	g5.4xlarge	float16	128	128	240
bert-base-uncased	wikitext-103-v1	g5.48xlarge	float16	512	29	50
distilbert-base-uncased	wikitext-103-v1	g5.48xlarge	float16	512	45	64
gpt2	wikitext-103-v1	g5.48xlarge	float16	512	18	45
roberta-base	wikitext-103-v1	g5.48xlarge	float16	512	23	44
gpt2	wikitext-103-v1	p4d.24xlarge	float16	512	36	64

電腦視覺 (CV) 模型

如圖所示，使用具有自動混合精度（AMP）的TensorFlow模型花園進行測試。

單/多節點單/多節點 GPU
模型	資料集	執行個體類型	精確度	原生架構的批次大小	SageMaker 訓練編譯器的 Batch 大小
ResNet152	food101	g4dn.16xlarge	float16	128	144
ResNet152	food101	g5.4xlarge	float16	128	192
ResNet152	food101	p3.2xlarge	float16	152	156
ViT	food101	g4dn.16xlarge	float16	512	512
ViT	food101	g5.4xlarge	float16	992	768
ViT	food101	p3.2xlarge	float16	848	768

自然語言處理 (NLP) 模型

下列型號已針對單一或多GPU核心的單節點與多節點組合，以及自動混合精確度 (AMP) 所有組合的訓練工作進行測試，如下所示。

單節點/多節點單/多 GPU GPU
模型	資料集	執行個體類型	精確度	序列長度	原生架構的批次大小	SageMaker 訓練編譯器的 Batch 大小
albert-base-v2	wikitext-2-raw-v1	ml.g5.2xlarge	float16	128	128	248
bert-base-uncased	wikitext-2-raw-v1	ml.g5.2xlarge	float16	128	160	288
camembert-base	wikitext-2-raw-v1	ml.g5.2xlarge	float16	128	160	279
camembert-base	wikitext-2-raw-v1	ml.p3.2xlarge	float16	128	105	164
distilgpt2	wikitext-2-raw-v1	ml.g5.2xlarge	float16	128	136	256
distilgpt2	wikitext-2-raw-v1	ml.p3.2xlarge	float16	128	80	118
gpt2	wikitext-2-raw-v1	ml.g5.2xlarge	float16	128	84	240
gpt2	wikitext-2-raw-v1	ml.p3.2xlarge	float16	128	80	119
microsoft/deberta-base	wikitext-2-raw-v1	ml.g5.2xlarge	float16	128	93	197
microsoft/deberta-base	wikitext-2-raw-v1	ml.p3.2xlarge	float16	128	113	130
roberta-base	wikitext-2-raw-v1	ml.g5.2xlarge	float16	128	125	224
roberta-base	wikitext-2-raw-v1	ml.p3.2xlarge	float16	128	78	112
xlnet-base-cased	wikitext-2-raw-v1	ml.g5.2xlarge	float16	128	138	240
bert-base-uncased	wikitext-103-v1	ml.p4d.24xlarge	float16	512		52
distilbert-base-uncased	wikitext-103-v1	ml.p4d.24xlarge	float16	512		160
gpt2	wikitext-103-v1	ml.p4d.24xlarge	float16	512		25
roberta-base	wikitext-103-v1	ml.p4d.24xlarge	float16	512		64

電腦視覺 (CV) 模型

如圖所示，使用具有自動混合精度（AMP）的TensorFlow模型花園進行測試。

單/多節點單/多節點 GPU
模型	資料集	執行個體類型	精確度	原生架構的批次大小	SageMaker 訓練編譯器的 Batch 大小
面膜 RCNN-ResNet 50-FPN	COCO-2017	ml.g5.2xlarge	float16	6	8
面膜 RCNN-ResNet 50-FPN	COCO-2017	ml.p3.2xlarge	float16	4	6
ResNet50	ImageNet	ml.g5.2xlarge	float16	192	256
ResNet50	ImageNet	ml.p3.2xlarge	float16	256	256
ResNet101	ImageNet	ml.g5.2xlarge	float16	128	256
ResNet101	ImageNet	ml.p3.2xlarge	float16	128	128
ResNet152	ImageNet	ml.g5.2xlarge	float16	128	224
ResNet152	ImageNet	ml.p3.2xlarge	float16	128	128
VisionTransformer	ImageNet	ml.g5.2xlarge	float16	112	144
VisionTransformer	ImageNet	ml.p3.2xlarge	float16	96	128

自然語言處理 (NLP) 模型

使用具Sequence_Len=128有「自動混合精度」(AMP) 的變壓器型號測試，如下所示。

單/多節點單/多節點 GPU
模型	資料集	執行個體類型	精確度	原生架構的批次大小	SageMaker 訓練編譯器的 Batch 大小
albert-base-v2	wikitext-2-raw-v1	ml.g5.2xlarge	float16	160	197
albert-base-v2	wikitext-2-raw-v1	ml.p3.2xlarge	float16	95	127
bert-base-uncased	wikitext-2-raw-v1	ml.g5.2xlarge	float16	160	128
bert-base-uncased	wikitext-2-raw-v1	ml.p3.2xlarge	float16	104	111
bert-large-uncased	wikitext-2-raw-v1	ml.g5.2xlarge	float16	65	48
bert-large-uncased	wikitext-2-raw-v1	ml.p3.2xlarge	float16	40	35
camembert-base	wikitext-2-raw-v1	ml.g5.2xlarge	float16	128	162
camembert-base	wikitext-2-raw-v1	ml.p3.2xlarge	float16	105	111
distilbert-base-uncased	wikitext-2-raw-v1	ml.g5.2xlarge	float16	256	264
distilbert-base-uncased	wikitext-2-raw-v1	ml.p3.2xlarge	float16	128	169
gpt2	wikitext-2-raw-v1	ml.g5.2xlarge	float16	128	120
gpt2	wikitext-2-raw-v1	ml.p3.2xlarge	float16	80	83
插頭/tf-xlm-roberta-base	wikitext-2-raw-v1	ml.g5.2xlarge	float16	32	32
插頭/tf-xlm-roberta-base	wikitext-2-raw-v1	ml.p3.2xlarge	float16	32	36
microsoft/mpnet-base	wikitext-2-raw-v1	ml.g5.2xlarge	float16	144	160
microsoft/mpnet-base	wikitext-2-raw-v1	ml.p3.2xlarge	float16	106	110
roberta-base	wikitext-2-raw-v1	ml.g5.2xlarge	float16	128	128
roberta-base	wikitext-2-raw-v1	ml.p3.2xlarge	float16	72	98
albert-base-v2	wikitext-2-raw-v1	ml.g5.48xlarge	float16	128	192
albert-base-v2	wikitext-2-raw-v1	ml.p3.16xlarge	float16	95	96
distilbert-base-uncased	wikitext-2-raw-v1	ml.g5.48xlarge	float16	256	256
distilbert-base-uncased	wikitext-2-raw-v1	ml.p3.16xlarge	float16	140	184
谷歌/electra-small-discriminator	wikitext-2-raw-v1	ml.g5.48xlarge	float16	256	384
谷歌/electra-small-discriminator	wikitext-2-raw-v1	ml.p3.16xlarge	float16	256	268
gpt2	wikitext-2-raw-v1	ml.g5.48xlarge	float16	116	116
gpt2	wikitext-2-raw-v1	ml.p3.16xlarge	float16	85	83
gpt2	wikitext-2-raw-v1	ml.p4d.24xlarge	float16	94	110
microsoft/mpnet-base	wikitext-2-raw-v1	ml.g5.48xlarge	float16	187	164
microsoft/mpnet-base	wikitext-2-raw-v1	ml.p3.16xlarge	float16	106	111

電腦視覺 (CV) 模型

如圖所示，使用具有自動混合精度（AMP）的TensorFlow模型花園進行測試。

單節點單/多-GPU GPU
模型	資料集	執行個體類型	精確度	原生架構的批次大小	SageMaker 訓練編譯器的 Batch 大小
DetectionTransformer-ResNet 50	COCO-2017	ml.g4dn.2xlarge	float32	2	4
DetectionTransformer-ResNet 50	COCO-2017	ml.g5.2xlarge	float32	3	6
DetectionTransformer-ResNet 50	COCO-2017	ml.p3.2xlarge	float32	2	4
面膜 RCNN-ResNet 50-FPN	COCO-2017	ml.g4dn.2xlarge	float16	4	6
面膜系列 RCNN-ResNet 50-FPN	COCO-2017	ml.g5.2xlarge	float16	6	8
面膜系列 RCNN-ResNet 50-FPN	COCO-2017	ml.g5.48xlarge	float16	48	64
面膜系列 RCNN-ResNet 50-FPN	COCO-2017	ml.p3.2xlarge	float16	4	6
ResNet50	ImageNet	ml.g4dn.2xlarge	float16	224	256
ResNet50	ImageNet	ml.g5.2xlarge	float16	192	160
ResNet50	ImageNet	ml.g5.48xlarge	float16	2048	2048
ResNet50	ImageNet	ml.p3.2xlarge	float16	224	160
ResNet101	ImageNet	ml.g4dn.2xlarge	float16	160	128
ResNet101	ImageNet	ml.g5.2xlarge	float16	192	256
ResNet101	ImageNet	ml.g5.48xlarge	float16	2048	2048
ResNet101	ImageNet	ml.p3.2xlarge	float16	160	224
ResNet152	ImageNet	ml.g4dn.2xlarge	float16	128	128
ResNet152	ImageNet	ml.g5.2xlarge	float16	192	224
ResNet152	ImageNet	ml.g5.48xlarge	float16	1536	1792
ResNet152	ImageNet	ml.p3.2xlarge	float16	128	160
VisionTransformer	ImageNet	ml.g4dn.2xlarge	float16	80	128
VisionTransformer	ImageNet	ml.g5.2xlarge	float16	112	144
VisionTransformer	ImageNet	ml.g5.48xlarge	float16	896	1152
VisionTransformer	ImageNet	ml.p3.2xlarge	float16	80	128

自然語言處理 (NLP) 模型

使用具Sequence_Len=128有「自動混合精度」(AMP) 的變壓器型號測試，如下所示。

單節點單/多-GPU GPU
模型	資料集	執行個體類型	精確度	原生架構的批次大小	SageMaker 訓練編譯器的 Batch 大小
albert-base-v2	wikitext-2-raw-v1	g4dn.16xlarge	float16	128	112
albert-base-v2	wikitext-2-raw-v1	p3.2xlarge	float16	128	128
albert-base-v2	wikitext-2-raw-v1	p3.8xlarge	float16	128	135
albert-base-v2	wikitext-2-raw-v1	g5.4xlarge	float16	128	191
bert-base-uncased	wikitext-2-raw-v1	g4dn.16xlarge	float16	64	94
bert-base-uncased	wikitext-2-raw-v1	p3.2xlarge	float16	96	101
bert-base-uncased	wikitext-2-raw-v1	p3.8xlarge	float16	96	96
bert-base-uncased	wikitext-2-raw-v1	g5.4xlarge	float16	128	128
bert-large-uncased	wikitext-2-raw-v1	g4dn.16xlarge	float16	35	21
bert-large-uncased	wikitext-2-raw-v1	p3.2xlarge	float16	39	26
bert-large-uncased	wikitext-2-raw-v1	g5.4xlarge	float16	60	50
camembert-base	wikitext-2-raw-v1	g4dn.16xlarge	float16	96	90
camembert-base	wikitext-2-raw-v1	p3.2xlarge	float16	96	98
camembert-base	wikitext-2-raw-v1	p3.8xlarge	float16	96	96
camembert-base	wikitext-2-raw-v1	g5.4xlarge	float16	128	128
distilbert-base-uncased	wikitext-2-raw-v1	g4dn.16xlarge	float16	256	160
distilbert-base-uncased	wikitext-2-raw-v1	p3.2xlarge	float16	128	176
distilbert-base-uncased	wikitext-2-raw-v1	p3.8xlarge	float16	128	160
distilbert-base-uncased	wikitext-2-raw-v1	g5.4xlarge	float16	256	258
谷歌 electra-small-discriminator	wikitext-2-raw-v1	g4dn.16xlarge	float16	256	216
谷歌 electra-small-discriminator	wikitext-2-raw-v1	p3.2xlarge	float16	256	230
谷歌 electra-small-discriminator	wikitext-2-raw-v1	p3.8xlarge	float16	256	224
谷歌 electra-small-discriminator	wikitext-2-raw-v1	g5.4xlarge	float16	256	320
gpt2	wikitext-2-raw-v1	g4dn.16xlarge	float16	80	64
gpt2	wikitext-2-raw-v1	p3.2xlarge	float16	80	77
gpt2	wikitext-2-raw-v1	p3.8xlarge	float16	80	72
gpt2	wikitext-2-raw-v1	g5.4xlarge	float16	128	120
JPLU_ tf-xlm-roberta-base	wikitext-2-raw-v1	g4dn.16xlarge	float16	28	24
JPLU_ tf-xlm-roberta-base	wikitext-2-raw-v1	p3.2xlarge	float16	32	24
JPLU_ tf-xlm-roberta-base	wikitext-2-raw-v1	p3.8xlarge	float16	32	26
JPLU_ tf-xlm-roberta-base	wikitext-2-raw-v1	g5.4xlarge	float16	66	52
microsoft_mpnet-base	wikitext-2-raw-v1	g4dn.16xlarge	float16	96	92
microsoft_mpnet-base	wikitext-2-raw-v1	p3.2xlarge	float16	96	101
microsoft_mpnet-base	wikitext-2-raw-v1	p3.8xlarge	float16	96	101
microsoft_mpnet-base	wikitext-2-raw-v1	g5.4xlarge	float16	128	152
roberta-base	wikitext-2-raw-v1	g4dn.16xlarge	float16	64	72
roberta-base	wikitext-2-raw-v1	p3.2xlarge	float16	64	84
roberta-base	wikitext-2-raw-v1	p3.8xlarge	float16	64	86
roberta-base	wikitext-2-raw-v1	g5.4xlarge	float16	128	128

使用TensorFlow模型花園進行測試，具有自動混合精度（AMP）。

單節點單/多-GPU GPU
模型	資料集	執行個體類型	原生架構的批次大小	SageMaker 訓練編譯器的 Batch 大小
ResNet50	ImageNet	ml.g4dn.2xlarge	192	256*
ResNet101	ImageNet	ml.g4dn.2xlarge	128	160
		ml.g5.2xlarge	224	256*
		ml.p3.16xlarge	1536	1792
ResNet152	ImageNet	ml.g5.2xlarge	192	224
		ml.p3.2xlarge	160	160
		ml.p3.16xlarge	1024	1280
VisionTransformer	ImageNet	ml.g4dn.2xlarge	80	128*
		ml.g5.2xlarge	112	128*
		ml.p3.2xlarge	56	128*
		ml.p3.16xlarge	640	1024*
DetectionTransformer-ResNet 50	COCO-2017	ml.g4dn.2xlarge	2	2
		ml.g5.2xlarge	3	6
		ml.p3.2xlarge	2	4
		ml.p3.16xlarge	8	32
面膜系列 RCNN-ResNet 50-FPN	COCO-2017	ml.g4dn.2xlarge	4	4
		ml.g5.2xlarge	6	8
		ml.p3.2xlarge	4	6

* 標有星號 (*) 的批次大小表示 SageMaker 訓練編譯器開發人員團隊測試的最大批次大小。對於標記的儲存格，執行個體可能可容納比指示更大的批次大小。

通過測試Sequence_Len=512和自動混合精度（AMP）。

單節點單 GPU
模型	資料集	執行個體類型	執行個體計數	原生架構的批次大小	Training Compiler 的批次大小
albert-base-v2	wikitext-2	ml.g4dn.2xlarge	1	14	28
		ml.g5.2xlarge	1	18	40
		ml.p3.2xlarge	1	14	32
bert-base-cased	wikitext-2	ml.g4dn.2xlarge	1	12	24
		ml.g5.2xlarge	1	28	44
		ml.p3.2xlarge	1	16	20
camembert-base	wikitext-2	ml.g4dn.2xlarge	1	16	28
		ml.g5.2xlarge	1	24	40
		ml.p3.2xlarge	1	16	24
distilbert-base-uncased	wikitext-2	ml.g4dn.2xlarge	1	28	52
		ml.g5.2xlarge	1	40	76
		ml.p3.2xlarge	1	32	48
	wikitext-103-v1	ml.p4d.24xlarge	4	82	160
distilgpt2	wikitext-2	ml.g4dn.2xlarge	1	6	18
		ml.g5.2xlarge	1	12	28
		ml.p3.2xlarge	1	6	16
distilroberta-base	wikitext-2	ml.g4dn.2xlarge	1	20	40
		ml.g5.2xlarge	1	28	56
		ml.p3.2xlarge	1	24	40
EleutherAI/gpt-neo-125M	wikitext-2	ml.g4dn.2xlarge	1	4	8
		ml.g5.2xlarge	1	6	14
		ml.p3.2xlarge	1	4	10
gpt2	wikitext-2	ml.g4dn.2xlarge	1	4	8
		ml.g5.2xlarge	1	6	16
		ml.p3.2xlarge	1	4	10
	wikitext-103-v1	ml.p4d.24xlarge	4	13	25
roberta-base	wikitext-2	ml.g4dn.2xlarge	1	12	20
		ml.g5.2xlarge	1	24	36
		ml.p3.2xlarge	1	12	20
	wikitext-103-v1	ml.p4d.24xlarge	4	36	64
xlnet-base-cased	wikitext-2	ml.g4dn.2xlarge	1	2	6
		ml.g5.2xlarge	1	2	10
		ml.p3.2xlarge	1	2	8
bert-base-uncased	wikitext-103-v1	ml.p4d.24xlarge	2	32	64
			4	32	64
			8	32	64
			16	32	64
roberta-large	wikitext-103-v1	ml.p4d.24xlarge	4	16	24
microsoft/deberta-v3-base	wikitext-103-v1	ml.p4d.24xlarge	16	9	23

通過測試Sequence_Len=512和自動混合精度（AMP）。

單節點單 GPU
模型	執行個體類型	原生架構的批次大小	Training Compiler 的批次大小
albert-base-v2	ml.p3.2xlarge	14	28
albert-base-v2	ml.g4dn.2xlarge	14	24
bert-base-cased	ml.p3.2xlarge	16	24
bert-base-cased	ml.g4dn.2xlarge	12	24
bert-base-uncased	ml.p3.2xlarge	16	24
bert-base-uncased	ml.g4dn.2xlarge	12	28
camembert-base	ml.p3.2xlarge	12	24
camembert-base	ml.g4dn.2xlarge	12	28
distilbert-base-uncased	ml.p3.2xlarge	28	48
distilbert-base-uncased	ml.g4dn.2xlarge	24	52
distilgpt2	ml.p3.2xlarge	6	12
distilgpt2	ml.g4dn.2xlarge	6	14
distilroberta-base	ml.p3.2xlarge	20	40
distilroberta-base	ml.g4dn.2xlarge	12	40
EleutherAI/gpt-neo-125M	ml.p3.2xlarge	2	10
EleutherAI/gpt-neo-125M	ml.g4dn.2xlarge	2	8
facebook/bart-base	ml.p3.2xlarge	2	6
facebook/bart-base	ml.g4dn.2xlarge	2	6
gpt2	ml.p3.2xlarge	4	8
gpt2	ml.g4dn.2xlarge	2	8
roberta-base	ml.p3.2xlarge	12	20
roberta-base	ml.g4dn.2xlarge	12	20
xlnet-base-cased	ml.p3.2xlarge	2	8
xlnet-base-cased	ml.g4dn.2xlarge	4	6

通過測試Sequence_Len=512和自動混合精度（AMP）。

單節點單 GPU
模型	執行個體類型	原生批次大小	Training Compiler 的批次大小
albert-base-v2	ml.p3.2xlarge	12	32
bert-base-cased	ml.p3.2xlarge	14	24
bert-base-chinese	ml.p3.2xlarge	16	24
bert-base-multilingual-cased	ml.p3.2xlarge	4	16
bert-base-multilingual-uncased	ml.p3.2xlarge	8	16
bert-base-uncased	ml.p3.2xlarge	12	24
cl-TO北/-字遮bert-base-japanese-whole片	ml.p3.2xlarge	12	24
CL-東北/bert-base-japanese	ml.p3.2xlarge	12	24
distilbert-base-uncased	ml.p3.2xlarge	28	32
distilbert-base-uncased-finetuned-SST-2-英語	ml.p3.2xlarge	28	32
distilgpt2	ml.p3.2xlarge	16	32
facebook/bart-base	ml.p3.2xlarge	4	8
gpt2	ml.p3.2xlarge	6	20
瑞默氏/M 2-L6-H384-從 R 大蒸餾 iniLMv oBERTa	ml.p3.2xlarge	20	32
roberta-base	ml.p3.2xlarge	12	20

單節點多 GPU
模型	執行個體類型	原生批次大小	Training Compiler 的批次大小
bert-base-chinese	ml.p3.8xlarge	16	26
bert-base-multilingual-cased	ml.p3.8xlarge	6	16
bert-base-multilingual-uncased	ml.p3.8xlarge	6	16
bert-base-uncased	ml.p3.8xlarge	14	24
distilbert-base-uncased	ml.p3.8xlarge	14	32
distilgpt2	ml.p3.8xlarge	6	32
facebook/bart-base	ml.p3.8xlarge	8	16
gpt2	ml.p3.8xlarge	8	20
roberta-base	ml.p3.8xlarge	12	20

通過測試Sequence_Len=128和自動混合精度（AMP）。

模型	執行個體類型	原生架構的批次大小	Training Compiler 的批次大小
albert-base-v2	ml.g4dn.16xlarge	136	208
albert-base-v2	ml.g5.4xlarge	219	312
albert-base-v2	ml.p3.2xlarge	152	208
albert-base-v2	ml.p3.8xlarge	152	192
bert-base-uncased	ml.g4dn.16xlarge	120	101
bert-base-uncased	ml.g5.4xlarge	184	160
bert-base-uncased	ml.p3.2xlarge	128	108
bert-large-uncased	ml.g4dn.16xlarge	37	28
bert-large-uncased	ml.g5.4xlarge	64	55
bert-large-uncased	ml.p3.2xlarge	40	32
camembert-base	ml.g4dn.16xlarge	96	100
camembert-base	ml.g5.4xlarge	190	160
camembert-base	ml.p3.2xlarge	129	108
camembert-base	ml.p3.8xlarge	128	104
distilbert-base-uncased	ml.g4dn.16xlarge	210	160
distilbert-base-uncased	ml.g5.4xlarge	327	288
distilbert-base-uncased	ml.p3.2xlarge	224	196
distilbert-base-uncased	ml.p3.8xlarge	192	182
谷歌 electra-small-discriminator	ml.g4dn.16xlarge	336	288
谷歌 electra-small-discriminator	ml.g5.4xlarge	504	384
谷歌 electra-small-discriminator	ml.p3.2xlarge	352	323
gpt2	ml.g4dn.16xlarge	89	64
gpt2	ml.g5.4xlarge	140	146
gpt2	ml.p3.2xlarge	94	96
gpt2	ml.p3.8xlarge	96	88
JPLU_ tf-xlm-roberta-base	ml.g4dn.16xlarge	52	16
JPLU_ tf-xlm-roberta-base	ml.g5.4xlarge	64	44
microsoft_mpnet-base	ml.g4dn.16xlarge	120	100
microsoft_mpnet-base	ml.g5.4xlarge	192	160
microsoft_mpnet-base	ml.p3.2xlarge	128	104
microsoft_mpnet-base	ml.p3.8xlarge	130	92
roberta-base	ml.g4dn.16xlarge	108	64
roberta-base	ml.g5.4xlarge	176	142
roberta-base	ml.p3.2xlarge	118	100
roberta-base	ml.p3.8xlarge	112	88

通過測試Sequence_Len=128和自動混合精度（AMP）。

單節點單 GPU
模型	執行個體類型	原生批次大小	Training Compiler 的批次大小
albert-base-v2	ml.p3.2xlarge	128	128
bart-base	ml.p3.2xlarge	12	64
bart-large	ml.p3.2xlarge	4	28
bert-base-cased	ml.p3.2xlarge	16	128
bert-base-chinese	ml.p3.2xlarge	16	128
bert-base-multilingual-cased	ml.p3.2xlarge	12	64
bert-base-multilingual-uncased	ml.p3.2xlarge	16	96
bert-base-uncased	ml.p3.2xlarge	16	96
bert-large-uncased	ml.p3.2xlarge	4	24
CL-東北/bert-base-japanese	ml.p3.2xlarge	16	128
cl-TO北/-字遮bert-base-japanese-whole片	ml.p3.2xlarge	16	128
distilbert-base-sst2	ml.p3.2xlarge	32	128
distilbert-base-uncased	ml.p3.2xlarge	32	128
distilgpt2	ml.p3.2xlarge	32	128
gpt2	ml.p3.2xlarge	12	64
gpt2-large	ml.p3.2xlarge	2	24
插頭/tf-xlm-roberta-base	ml.p3.2xlarge	12	32
roberta-base	ml.p3.2xlarge	4	64
roberta-large	ml.p3.2xlarge	4	64
t5-base	ml.p3.2xlarge	64	64
t5-small	ml.p3.2xlarge	128	128

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

文件慣用形式

Training Compiler

使用自有深度學習模型