지원되는 프레임워크, 인스턴스 유형 AWS 리전, 테스트된 모델 - 아마존 SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

지원되는 프레임워크, 인스턴스 유형 AWS 리전, 테스트된 모델

중요

Amazon Web Services (AWS) 는 SageMaker 트레이닝 컴파일러의 새 릴리스나 버전이 없을 것이라고 발표했습니다. 기존 AWS Deep Learning Containers (DLCs) 를 통해 계속해서 SageMaker 트레이닝용 SageMaker 컴파일러를 활용할 수 있습니다. AWS Deep Learning Containers Framework 지원 정책에 따라 기존 버전은 DLCs 계속 액세스할 수 있지만 더 이상 패치나 업데이트를 받을 수 없다는 점에 유의하십시오. AWS

SageMaker Training Compiler를 사용하기 전에 선택한 프레임워크가 지원되는지, 계정에서 인스턴스 유형을 사용할 수 있는지, AWS 계정이 지원되는 AWS 리전프레임워크 중 하나에 속하는지 AWS 확인하세요.

참고

SageMaker 트레이닝 컴파일러는 SageMaker Python SDK v2.70.0 이상에서 사용할 수 있습니다.

지원되는 프레임워크

SageMaker 교육 컴파일러는 다음과 같은 딥 러닝 프레임워크를 지원하며 Deep Learning Containers를 통해 AWS 사용할 수 있습니다.

PyTorch

프레임워크 프레임워크 버전 딥러닝 컨테이너 URI Docker 사용자 지정을 위해 확장 가능
PyTorch PyTorch v1.13.1 763104351884.dkr.ecr.<region>.amazonaws.com/:1.12.0-gpu-py38-cu113-우분투20.04-sagemaker pytorch-trcomp-training 아니요
PyTorch v1.12.0 763104351884.dkr.ecr.<region>.amazonaws.com/:1.13.1-gpu-py39-cu117-우분투20.04-sagemaker pytorch-trcomp-training 아니요
PyTorch Hugging Face 트랜스포머 포함

Transformers v4.21.1

PyTorch v1.11.0

763104351884.dkr.ecr.<region>.amazonaws.com/:1.11.0-transformers4.21.1-gpu-py38-cu113-우분투20.04 huggingface-pytorch-trcomp-training

아니요

Transformers v4.17.0

PyTorch v1.10.2

763104351884.dkr.ecr.<region>.amazonaws.com/:1.10.2-트랜스포머스4.17.0-gpu-py38-cu113-우분투20.04 huggingface-pytorch-trcomp-training

아니요

Transformers v4.11.0

PyTorch v1.9.0

763104351884.dkr.ecr.<region>.amazonaws.com/:1.9.0-transformers4.11.0-gpu-py38-cu111-ubuntu20.04 huggingface-pytorch-training-comp

아니요

TensorFlow

프레임워크 프레임워크 버전 딥 러닝 컨테이너 URI Docker 사용자 지정을 위해 확장 가능
TensorFlow

TensorFlow v2.11.0

763104351884.dkr.ecr.<region>.amazonaws.com/tensorflow-training:2.11.0-gpu-py39-cu112-우분투20.04-세이지메이커

TensorFlow v2.10.0

763104351884.dkr.ecr.<region>.amazonaws.com/tensorflow-training:2.10.0-gpu-py39-cu112-우분투20.04-세이지메이커

TensorFlow v2.9.1

763104351884.dkr.ecr.<region>.amazonaws.com/tensorflow-training:2.9.1-gpu-py39-cu112-우분투20.04-세이지메이커

TensorFlow Hugging Face 트랜스포머 포함

Transformers v4.17.0

TensorFlow v2.6.3

763104351884.dkr.ecr.<region>.amazonaws.com/:2.6.3-트랜스포머스4.17.0-gpu-py38-cu112-우분투20.04 huggingface-tensorflow-trcomp-training

아니요

Transformers v4.11.0

TensorFlow v2.5.1

763104351884.dkr.ecr.<region>.amazonaws.com/:2.5.1-트랜스포머스4.11.0-gpu-py37-cu112-우분투18.04 huggingface-tensorflow-training-comp

아니요

자세한 내용은 AWS Deep Learning Containers GitHub 리포지토리의 사용 가능한 이미지를 참조하십시오.

AWS 리전

SageMaker 교육 컴파일러 컨테이너는 중국 지역을 제외하고 AWS Deep Learning Containers가 서비스되는 AWS 리전 곳에서 사용할 수 있습니다.

지원되는 인스턴스 유형

SageMaker 트레이닝 컴파일러는 다음 ML 인스턴스 유형에서 테스트되었으며 지원합니다.

  • P4 인스턴스

  • P3 인스턴스

  • G4dn 인스턴스

  • G5 인스턴스

인스턴스 유형의 사양은 Amazon EC2 인스턴스 유형 페이지의 가속 컴퓨팅 섹션을 참조하십시오. 인스턴스 요금에 대한 자세한 내용은 Amazon SageMaker 요금을 참조하십시오.

다음과 유사한 오류 메시지가 발생한 경우 SageMaker 리소스에 대한 서비스 할당량 증가 요청의 지침을 따르세요.

ResourceLimitExceeded: An error occurred (ResourceLimitExceeded) when calling the CreateTrainingJob operation: The account-level service limit 'ml.p3dn.24xlarge for training job usage' is 0 Instances, with current utilization of 0 Instances and a request delta of 1 Instances. Please contact AWS support to request an increase for this limit.

테스트 완료 모델

다음 표에는 SageMaker 트레이닝 컴파일러로 테스트한 모델 목록이 나와 있습니다. 참고로 메모리에 담을 수 있는 가장 큰 배치 크기도 다른 학습 파라미터와 함께 포함되어 있습니다. SageMaker Training Compiler는 모델 학습 프로세스의 메모리 사용량을 변경할 수 있습니다. 따라서 학습 프로세스 중에 더 큰 배치 크기를 사용하는 경우가 많아 총 학습 시간을 더욱 줄일 수 있습니다. 경우에 따라 SageMaker Training Compiler는 지능적으로 캐싱을 촉진하여 에 맞출 수 있는 최대 배치 크기를 줄일 수 있습니다. GPU 모델 하이퍼파라미터를 재조정하고 상황에 맞는 최적의 배치 크기를 찾아야 합니다. 시간을 절약하려면 다음 참조 테이블을 확인하여 사용 사례에 적합한 출발점이 될 수 있는 배치 크기를 찾아보세요.

참고

배치 크기는 해당 인스턴스 유형의 각 GPU 개인에 맞는 로컬 배치 크기입니다. 배치 크기를 변경할 때는 학습률도 조정해야 합니다.

자연어 처리 () 모델 NLP

다음 모델은 단일 또는 다중 GPU 코어와 자동 혼합 정밀도 (AMP) 를 사용하는 단일 노드 및 다중 노드의 모든 조합에 대한 교육 작업에 대해 테스트를 거쳤습니다.

단일 노드/다중 노드 단일/다중 - GPU GPU
모델 데이터세트 인스턴스 유형 정밀도 시퀀스 길이 네이티브 프레임워크의 배치 크기 SageMaker 트레이닝 컴파일러의 Batch 크기
albert-base-v2. wikitext-2-raw-v1 g4dn.16xlarge float16 128 80 192
albert-base-v2 wikitext-2-raw-v1 g5.4xlarge float16 128 128 332
albert-base-v2 wikitext-2-raw-v1 p3.2xlarge float16 128 80 224
bert-base-uncased wikitext-2-raw-v1 g5.4xlarge float16 128 160 288
camembert-base wikitext-2-raw-v1 g5.4xlarge float16 128 160 280
distilbert-base-uncased wikitext-2-raw-v1 g5.4xlarge float16 128 240 472
distilgpt2 wikitext-2-raw-v1 g4dn.16xlarge float16 128 77 128
distilgpt2 wikitext-2-raw-v1 g5.4xlarge float16 128 138 390
distilgpt2 wikitext-2-raw-v1 p3.2xlarge float16 128 96 256
distilroberta-base wikitext-2-raw-v1 g4dn.16xlarge float16 128 96 192
distilroberta-base wikitext-2-raw-v1 g5.4xlarge float16 128 171 380
distilroberta-base wikitext-2-raw-v1 p3.2xlarge float16 128 112 256
gpt2 wikitext-2-raw-v1 g4dn.16xlarge float16 128 52 152
gpt2 wikitext-2-raw-v1 g5.4xlarge float16 128 84 240
gpt2 wikitext-2-raw-v1 p3.2xlarge float16 128 58 164
microsoft/deberta-base wikitext-2-raw-v1 g4dn.16xlarge float16 128 48 128
microsoft/deberta-base wikitext-2-raw-v1 g5.4xlarge float16 128 84 207
microsoft/deberta-base wikitext-2-raw-v1 p3.2xlarge float16 128 53 133
roberta-base wikitext-2-raw-v1 g5.4xlarge float16 128 125 224
xlm-roberta-base wikitext-2-raw-v1 g4dn.16xlarge float16 128 16 31
xlm-roberta-base wikitext-2-raw-v1 p3.2xlarge float16 128 18 50
xlnet-base-cased wikitext-2-raw-v1 g5.4xlarge float16 128 128 240
bert-base-uncased wikitext-103-v1 g5.48xlarge float16 512 29 50
distilbert-base-uncased wikitext-103-v1 g5.48xlarge float16 512 45 64
gpt2 wikitext-103-v1 g5.48xlarge float16 512 18 45
roberta-base wikitext-103-v1 g5.48xlarge float16 512 23 44
gpt2 wikitext-103-v1 p4d.24xlarge float16 512 36 64

컴퓨터 비전(CV) 모델

표시된 대로 자동 혼합 정밀도 (AMP) 기능이 있는 TensorFlowModel Garden을 사용하여 테스트했습니다.

싱글/멀티 노드 싱글/멀티 노드 GPU
모델 데이터세트 인스턴스 유형 정밀도 네이티브 프레임워크의 배치 크기 SageMaker 트레이닝 컴파일러의 Batch 크기
ResNet15.2 food101 g4dn.16xlarge float16 128 144
ResNet152 food101 g5.4xlarge float16 128 192
ResNet152 food101 p3.2xlarge float16 152 156
ViT food101 g4dn.16xlarge float16 512 512
ViT food101 g5.4xlarge float16 992 768
ViT food101 p3.2xlarge float16 848 768

자연어 처리 () 모델 NLP

다음 모델은 단일 또는 다중 GPU 코어와 자동 혼합 정밀도 (AMP) 를 사용하는 단일 노드 및 다중 노드의 모든 조합에 대한 교육 작업에 대해 테스트를 거쳤습니다.

단일 노드/다중 노드 단일/다중 - GPU GPU
모델 데이터세트 인스턴스 유형 정밀도 시퀀스 길이 네이티브 프레임워크의 배치 크기 SageMaker 트레이닝 컴파일러의 Batch 크기
albert-base-v2. wikitext-2-raw-v1 ml.g5.2xlarge float16 128 128 248
bert-base-uncased wikitext-2-raw-v1 ml.g5.2xlarge float16 128 160 288
camembert-base wikitext-2-raw-v1 ml.g5.2xlarge float16 128 160 279
camembert-base wikitext-2-raw-v1 ml.p3.2xlarge float16 128 105 164
distilgpt2 wikitext-2-raw-v1 ml.g5.2xlarge float16 128 136 256
distilgpt2 wikitext-2-raw-v1 ml.p3.2xlarge float16 128 80 118
gpt2 wikitext-2-raw-v1 ml.g5.2xlarge float16 128 84 240
gpt2 wikitext-2-raw-v1 ml.p3.2xlarge float16 128 80 119
microsoft/deberta-base wikitext-2-raw-v1 ml.g5.2xlarge float16 128 93 197
microsoft/deberta-base wikitext-2-raw-v1 ml.p3.2xlarge float16 128 113 130
roberta-base wikitext-2-raw-v1 ml.g5.2xlarge float16 128 125 224
roberta-base wikitext-2-raw-v1 ml.p3.2xlarge float16 128 78 112
xlnet-base-cased wikitext-2-raw-v1 ml.g5.2xlarge float16 128 138 240
bert-base-uncased wikitext-103-v1 ml.p4d.24xlarge float16 512 52
distilbert-base-uncased wikitext-103-v1 ml.p4d.24xlarge float16 512 160
gpt2 wikitext-103-v1 ml.p4d.24xlarge float16 512 25
roberta-base wikitext-103-v1 ml.p4d.24xlarge float16 512 64

컴퓨터 비전(CV) 모델

표시된 대로 자동 혼합 정밀도 (AMP) 기능이 있는 TensorFlowModel Garden을 사용하여 테스트했습니다.

싱글/멀티 노드 싱글/멀티 노드 GPU
모델 데이터세트 인스턴스 유형 정밀도 네이티브 프레임워크의 배치 크기 SageMaker 트레이닝 컴파일러의 Batch 크기
마스크 RCNN - ResNet 50- FPN COCO-2017 ml.g5.2xlarge float16 6 8
마스크 RCNN - ResNet 50- FPN COCO-2017 ml.p3.2xlarge float16 4 6
ResNet50 ImageNet ml.g5.2xlarge float16 192 256
ResNet50 ImageNet ml.p3.2xlarge float16 256 256
ResNet101 ImageNet ml.g5.2xlarge float16 128 256
ResNet101 ImageNet ml.p3.2xlarge float16 128 128
ResNet152 ImageNet ml.g5.2xlarge float16 128 224
ResNet152 ImageNet ml.p3.2xlarge float16 128 128
VisionTransformer ImageNet ml.g5.2xlarge float16 112 144
VisionTransformer ImageNet ml.p3.2xlarge float16 96 128

자연어 처리 (NLP) 모델

표시된 대로 자동 혼합 정밀도 (AMP) 가 있는 Sequence_Len=128트랜스포머 모델을 사용하여 테스트했습니다.

싱글/멀티 노드 싱글/멀티 노드 GPU
모델 데이터세트 인스턴스 유형 정밀도 네이티브 프레임워크의 배치 크기 SageMaker 트레이닝 컴파일러의 Batch 크기
albert-base-v2. wikitext-2-raw-v1 ml.g5.2xlarge float16 160 197
albert-base-v2 wikitext-2-raw-v1 ml.p3.2xlarge float16 95 127
bert-base-uncased wikitext-2-raw-v1 ml.g5.2xlarge float16 160 128
bert-base-uncased wikitext-2-raw-v1 ml.p3.2xlarge float16 104 111
bert-large-uncased wikitext-2-raw-v1 ml.g5.2xlarge float16 65 48
bert-large-uncased wikitext-2-raw-v1 ml.p3.2xlarge float16 40 35
camembert-base wikitext-2-raw-v1 ml.g5.2xlarge float16 128 162
camembert-base wikitext-2-raw-v1 ml.p3.2xlarge float16 105 111
distilbert-base-uncased wikitext-2-raw-v1 ml.g5.2xlarge float16 256 264
distilbert-base-uncased wikitext-2-raw-v1 ml.p3.2xlarge float16 128 169
gpt2 wikitext-2-raw-v1 ml.g5.2xlarge float16 128 120
gpt2 wikitext-2-raw-v1 ml.p3.2xlarge float16 80 83
7월/ tf-xlm-roberta-base wikitext-2-raw-v1 ml.g5.2xlarge float16 32 32
7월/ tf-xlm-roberta-base wikitext-2-raw-v1 ml.p3.2xlarge float16 32 36
microsoft/mpnet-base wikitext-2-raw-v1 ml.g5.2xlarge float16 144 160
microsoft/mpnet-base wikitext-2-raw-v1 ml.p3.2xlarge float16 106 110
roberta-base wikitext-2-raw-v1 ml.g5.2xlarge float16 128 128
roberta-base wikitext-2-raw-v1 ml.p3.2xlarge float16 72 98
albert-base-v2 wikitext-2-raw-v1 ml.g5.48xlarge float16 128 192
albert-base-v2 wikitext-2-raw-v1 ml.p3.16xlarge float16 95 96
distilbert-base-uncased wikitext-2-raw-v1 ml.g5.48xlarge float16 256 256
distilbert-base-uncased wikitext-2-raw-v1 ml.p3.16xlarge float16 140 184
구글/ electra-small-discriminator wikitext-2-raw-v1 ml.g5.48xlarge float16 256 384
구글/ electra-small-discriminator wikitext-2-raw-v1 ml.p3.16xlarge float16 256 268
gpt2 wikitext-2-raw-v1 ml.g5.48xlarge float16 116 116
gpt2 wikitext-2-raw-v1 ml.p3.16xlarge float16 85 83
gpt2 wikitext-2-raw-v1 ml.p4d.24xlarge float16 94 110
microsoft/mpnet-base wikitext-2-raw-v1 ml.g5.48xlarge float16 187 164
microsoft/mpnet-base wikitext-2-raw-v1 ml.p3.16xlarge float16 106 111

컴퓨터 비전(CV) 모델

표시된 대로 자동 혼합 정밀도 (AMP) 기능을 갖춘 TensorFlowModel Garden을 사용하여 테스트했습니다.

단일 노드 싱글/멀티 GPU 노드 GPU
모델 데이터세트 인스턴스 유형 정밀도 네이티브 프레임워크의 배치 크기 SageMaker 트레이닝 컴파일러의 Batch 크기
DetectionTransformer- 50 ResNet COCO-2017 ml.g4dn.2xlarge float32 2 4
DetectionTransformer- 50 ResNet COCO-2017 ml.g5.2xlarge float32 3 6
DetectionTransformer- 50 ResNet COCO-2017 ml.p3.2xlarge float32 2 4
마스크 RCNN - ResNet 50- FPN COCO-2017 ml.g4dn.2xlarge float16 4 6
마스크 RCNN - ResNet 50- FPN COCO-2017 ml.g5.2xlarge float16 6 8
마스크 RCNN - ResNet 50- FPN COCO-2017 ml.g5.48xlarge float16 48 64
마스크 RCNN - ResNet 50- FPN COCO-2017 ml.p3.2xlarge float16 4 6
ResNet50 ImageNet ml.g4dn.2xlarge float16 224 256
ResNet50 ImageNet ml.g5.2xlarge float16 192 160
ResNet50 ImageNet ml.g5.48xlarge float16 2048 2048
ResNet50 ImageNet ml.p3.2xlarge float16 224 160
ResNet101 ImageNet ml.g4dn.2xlarge float16 160 128
ResNet101 ImageNet ml.g5.2xlarge float16 192 256
ResNet101 ImageNet ml.g5.48xlarge float16 2048 2048
ResNet101 ImageNet ml.p3.2xlarge float16 160 224
ResNet152 ImageNet ml.g4dn.2xlarge float16 128 128
ResNet152 ImageNet ml.g5.2xlarge float16 192 224
ResNet152 ImageNet ml.g5.48xlarge float16 1536 1792
ResNet152 ImageNet ml.p3.2xlarge float16 128 160
VisionTransformer ImageNet ml.g4dn.2xlarge float16 80 128
VisionTransformer ImageNet ml.g5.2xlarge float16 112 144
VisionTransformer ImageNet ml.g5.48xlarge float16 896 1152
VisionTransformer ImageNet ml.p3.2xlarge float16 80 128

자연어 처리 (NLP) 모델

표시된 대로 자동 혼합 정밀도 (AMP) 가 있는 Sequence_Len=128트랜스포머 모델을 사용하여 테스트했습니다.

단일 노드 싱글/멀티 GPU 노드 GPU
모델 데이터세트 인스턴스 유형 정밀도 네이티브 프레임워크의 배치 크기 SageMaker 트레이닝 컴파일러의 Batch 크기
albert-base-v2. wikitext-2-raw-v1 g4dn.16xlarge float16 128 112
albert-base-v2 wikitext-2-raw-v1 p3.2xlarge float16 128 128
albert-base-v2 wikitext-2-raw-v1 p3.8xlarge float16 128 135
albert-base-v2 wikitext-2-raw-v1 g5.4xlarge float16 128 191
bert-base-uncased wikitext-2-raw-v1 g4dn.16xlarge float16 64 94
bert-base-uncased wikitext-2-raw-v1 p3.2xlarge float16 96 101
bert-base-uncased wikitext-2-raw-v1 p3.8xlarge float16 96 96
bert-base-uncased wikitext-2-raw-v1 g5.4xlarge float16 128 128
bert-large-uncased wikitext-2-raw-v1 g4dn.16xlarge float16 35 21
bert-large-uncased wikitext-2-raw-v1 p3.2xlarge float16 39 26
bert-large-uncased wikitext-2-raw-v1 g5.4xlarge float16 60 50
camembert-base wikitext-2-raw-v1 g4dn.16xlarge float16 96 90
camembert-base wikitext-2-raw-v1 p3.2xlarge float16 96 98
camembert-base wikitext-2-raw-v1 p3.8xlarge float16 96 96
camembert-base wikitext-2-raw-v1 g5.4xlarge float16 128 128
distilbert-base-uncased wikitext-2-raw-v1 g4dn.16xlarge float16 256 160
distilbert-base-uncased wikitext-2-raw-v1 p3.2xlarge float16 128 176
distilbert-base-uncased wikitext-2-raw-v1 p3.8xlarge float16 128 160
distilbert-base-uncased wikitext-2-raw-v1 g5.4xlarge float16 256 258
구글_ electra-small-discriminator wikitext-2-raw-v1 g4dn.16xlarge float16 256 216
구글_ electra-small-discriminator wikitext-2-raw-v1 p3.2xlarge float16 256 230
구글_ electra-small-discriminator wikitext-2-raw-v1 p3.8xlarge float16 256 224
구글_ electra-small-discriminator wikitext-2-raw-v1 g5.4xlarge float16 256 320
gpt2 wikitext-2-raw-v1 g4dn.16xlarge float16 80 64
gpt2 wikitext-2-raw-v1 p3.2xlarge float16 80 77
gpt2 wikitext-2-raw-v1 p3.8xlarge float16 80 72
gpt2 wikitext-2-raw-v1 g5.4xlarge float16 128 120
7월_ tf-xlm-roberta-base wikitext-2-raw-v1 g4dn.16xlarge float16 28 24
jplu_ tf-xlm-roberta-base wikitext-2-raw-v1 p3.2xlarge float16 32 24
jplu_ tf-xlm-roberta-base wikitext-2-raw-v1 p3.8xlarge float16 32 26
jplu_ tf-xlm-roberta-base wikitext-2-raw-v1 g5.4xlarge float16 6 52
microsoft_mpnet-base wikitext-2-raw-v1 g4dn.16xlarge float16 96 92
microsoft_mpnet-base wikitext-2-raw-v1 p3.2xlarge float16 96 101
microsoft_mpnet-base wikitext-2-raw-v1 p3.8xlarge float16 96 101
microsoft_mpnet-base wikitext-2-raw-v1 g5.4xlarge float16 128 152
roberta-base wikitext-2-raw-v1 g4dn.16xlarge float16 64 72
roberta-base wikitext-2-raw-v1 p3.2xlarge float16 64 84
roberta-base wikitext-2-raw-v1 p3.8xlarge float16 64 86
roberta-base wikitext-2-raw-v1 g5.4xlarge float16 128 128

자동 혼합 정밀도 () AMP 기능이 있는 TensorFlow모델 가든을 사용하여 테스트했습니다.

단일 노드 싱글/멀티 GPU 노드 GPU
모델 데이터세트 인스턴스 유형 네이티브 프레임워크의 배치 크기 SageMaker 트레이닝 컴파일러의 Batch 크기
ResNet50 ImageNet ml.g4dn.2xlarge 192 256*
ResNet101 ImageNet ml.g4dn.2xlarge 128 160
ml.g5.2xlarge 224 256*
ml.p3.16xlarge 1536 1792
ResNet152 ImageNet ml.g5.2xlarge 192 224
ml.p3.2xlarge 160 160
ml.p3.16xlarge 1024 1,280
VisionTransformer ImageNet ml.g4dn.2xlarge 80 128*
ml.g5.2xlarge 112 128*
ml.p3.2xlarge 56 128*
ml.p3.16xlarge 640 1024*
DetectionTransformer- ResNet 50 COCO-2017 ml.g4dn.2xlarge 2 2
ml.g5.2xlarge 3 6
ml.p3.2xlarge 2 4
ml.p3.16xlarge 8 32
마스크 RCNN - ResNet 50- FPN COCO-2017 ml.g4dn.2xlarge 4 4
ml.g5.2xlarge 6 8
ml.p3.2xlarge 4 6

* 별표 기호 (*) 로 표시된 배치 크기는 SageMaker 트레이닝 컴파일러 개발자 팀에서 테스트한 최대 배치 크기를 나타냅니다. 표시된 셀의 경우 인스턴스는 표시된 것보다 더 큰 배치 크기에 맞을 수 있습니다.

자동 혼합 Sequence_Len=512 정밀도 () 로 테스트되었습니다. AMP

단일 노드 단일 노드 GPU
모델 데이터세트 인스턴스 유형 인스턴스 수 네이티브 프레임워크의 배치 크기 훈련 컴파일러의 배치 크기
albert-base-v2 wikitext-2 ml.g4dn.2xlarge 1 14 28
ml.g5.2xlarge 1 18 40
ml.p3.2xlarge 1 14 32
bert-base-cased wikitext-2 ml.g4dn.2xlarge 1 12 24
ml.g5.2xlarge 1 28 44
ml.p3.2xlarge 1 16 20
camembert-base wikitext-2 ml.g4dn.2xlarge 1 16 28
ml.g5.2xlarge 1 24 40
ml.p3.2xlarge 1 16 24
distilbert-base-uncased wikitext-2 ml.g4dn.2xlarge 1 28 52
ml.g5.2xlarge 1 40 76
ml.p3.2xlarge 1 32 48
wikitext-103-v1 ml.p4d.24xlarge 4 82 160
distilgpt2 wikitext-2 ml.g4dn.2xlarge 1 6 18
ml.g5.2xlarge 1 12 28
ml.p3.2xlarge 1 6 16
distilroberta-base wikitext-2 ml.g4dn.2xlarge 1 20 40
ml.g5.2xlarge 1 28 56
ml.p3.2xlarge 1 24 40
EleutherAI/gpt-neo-125M wikitext-2 ml.g4dn.2xlarge 1 4 8
ml.g5.2xlarge 1 6 14
ml.p3.2xlarge 1 4 10
gpt2 wikitext-2 ml.g4dn.2xlarge 1 4 8
ml.g5.2xlarge 1 6 16
ml.p3.2xlarge 1 4 10
wikitext-103-v1 ml.p4d.24xlarge 4 13 25
roberta-base wikitext-2 ml.g4dn.2xlarge 1 12 20
ml.g5.2xlarge 1 24 36
ml.p3.2xlarge 1 12 20
wikitext-103-v1 ml.p4d.24xlarge 4 36 64
xlnet-base-cased wikitext-2 ml.g4dn.2xlarge 1 2 6
ml.g5.2xlarge 1 2 10
ml.p3.2xlarge 1 2 8
bert-base-uncased wikitext-103-v1 ml.p4d.24xlarge 2 32 64
4 32 64
8 32 64
16 32 64
roberta-large wikitext-103-v1 ml.p4d.24xlarge 4 16 24
microsoft/deberta-v3-base wikitext-103-v1 ml.p4d.24xlarge 16 9 23

자동 혼합 Sequence_Len=512 정밀도 () 로 테스트되었습니다. AMP

단일 노드 단일 노드 GPU
모델 인스턴스 유형 네이티브 프레임워크의 배치 크기 훈련 컴파일러의 배치 크기
albert-base-v2 ml.p3.2xlarge 14 28
ml.g4dn.2xlarge 14 24
bert-base-cased ml.p3.2xlarge 16 24
ml.g4dn.2xlarge 12 24
bert-base-uncased ml.p3.2xlarge 16 24
ml.g4dn.2xlarge 12 28
camembert-base ml.p3.2xlarge 12 24
ml.g4dn.2xlarge 12 28
distilbert-base-uncased ml.p3.2xlarge 28 48
ml.g4dn.2xlarge 24 52
distilgpt2 ml.p3.2xlarge 6 12
ml.g4dn.2xlarge 6 14
distilroberta-base ml.p3.2xlarge 20 40
ml.g4dn.2xlarge 12 40
EleutherAI/gpt-neo-125M ml.p3.2xlarge 2 10
ml.g4dn.2xlarge 2 8
facebook/bart-base ml.p3.2xlarge 2 6
ml.g4dn.2xlarge 2 6
gpt2 ml.p3.2xlarge 4 8
ml.g4dn.2xlarge 2 8
roberta-base ml.p3.2xlarge 12 20
ml.g4dn.2xlarge 12 20
xlnet-base-cased ml.p3.2xlarge 2 8
ml.g4dn.2xlarge 4 6

자동 혼합 Sequence_Len=512 정밀도 () 로 테스트되었습니다. AMP

단일 노드 단일 노드 GPU
모델 인스턴스 유형 네이티브의 배치 크기 훈련 컴파일러의 배치 크기
albert-base-v2 ml.p3.2xlarge 12 32
bert-base-cased ml.p3.2xlarge 14 24
bert-base-chinese ml.p3.2xlarge 16 24
bert-base-multilingual-cased ml.p3.2xlarge 4 16
bert-base-multilingual-uncased ml.p3.2xlarge 8 16
bert-base-uncased ml.p3.2xlarge 12 24
cl-토호쿠/ -워드 마스킹 bert-base-japanese-whole ml.p3.2xlarge 12 24
cl-토호쿠/ bert-base-japanese ml.p3.2xlarge 12 24
distilbert-base-uncased ml.p3.2xlarge 28 32
distilbert-base-uncased-finetuned-sst-2-영어 ml.p3.2xlarge 28 32
distilgpt2 ml.p3.2xlarge 16 32
facebook/bart-base ml.p3.2xlarge 4 8
gpt2 ml.p3.2xlarge 6 20
iniLMvNreimers/M 2-L6-H384-증류-R에서 증류됨 - 대형 oBERTa ml.p3.2xlarge 20 32
roberta-base ml.p3.2xlarge 12 20
단일 노드 다중 GPU
모델 인스턴스 유형 네이티브의 배치 크기 훈련 컴파일러의 배치 크기
bert-base-chinese ml.p3.8xlarge 16 26
bert-base-multilingual-cased ml.p3.8xlarge 6 16
bert-base-multilingual-uncased ml.p3.8xlarge 6 16
bert-base-uncased ml.p3.8xlarge 14 24
distilbert-base-uncased ml.p3.8xlarge 14 32
distilgpt2 ml.p3.8xlarge 6 32
facebook/bart-base ml.p3.8xlarge 8 16
gpt2 ml.p3.8xlarge 8 20
roberta-base ml.p3.8xlarge 12 20

자동 혼합 Sequence_Len=128 정밀도 () 로 테스트되었습니다. AMP

모델 인스턴스 유형 네이티브 프레임워크의 배치 크기 훈련 컴파일러의 배치 크기
albert-base-v2 ml.g4dn.16xlarge 136 208
albert-base-v2 ml.g5.4xlarge 219 312
albert-base-v2 ml.p3.2xlarge 152 208
albert-base-v2 ml.p3.8xlarge 152 192
bert-base-uncased ml.g4dn.16xlarge 120 101
bert-base-uncased ml.g5.4xlarge 184 160
bert-base-uncased ml.p3.2xlarge 128 108
bert-large-uncased ml.g4dn.16xlarge 37 28
bert-large-uncased ml.g5.4xlarge 64 55
bert-large-uncased ml.p3.2xlarge 40 32
camembert-base ml.g4dn.16xlarge 96 100
camembert-base ml.g5.4xlarge 190 160
camembert-base ml.p3.2xlarge 129 108
camembert-base ml.p3.8xlarge 128 104
distilbert-base-uncased ml.g4dn.16xlarge 210 160
distilbert-base-uncased ml.g5.4xlarge 327 288
distilbert-base-uncased ml.p3.2xlarge 224 196
distilbert-base-uncased ml.p3.8xlarge 192 182
구글_ electra-small-discriminator ml.g4dn.16xlarge 336 288
구글_ electra-small-discriminator ml.g5.4xlarge 504 384
구글_ electra-small-discriminator ml.p3.2xlarge 352 323
gpt2 ml.g4dn.16xlarge 89 64
gpt2 ml.g5.4xlarge 140 146
gpt2 ml.p3.2xlarge 94 96
gpt2 ml.p3.8xlarge 96 88
7월_ tf-xlm-roberta-base ml.g4dn.16xlarge 52 16
jplu_ tf-xlm-roberta-base ml.g5.4xlarge 64 44
microsoft_mpnet-base ml.g4dn.16xlarge 120 100
microsoft_mpnet-base ml.g5.4xlarge 192 160
microsoft_mpnet-base ml.p3.2xlarge 128 104
microsoft_mpnet-base ml.p3.8xlarge 130 92
roberta-base ml.g4dn.16xlarge 108 64
roberta-base ml.g5.4xlarge 176 142
roberta-base ml.p3.2xlarge 118 100
roberta-base ml.p3.8xlarge 112 88

자동 혼합 정밀도 () Sequence_Len=128 로 테스트되었습니다. AMP

단일 노드 단일 노드 GPU
모델 인스턴스 유형 네이티브의 배치 크기 훈련 컴파일러의 배치 크기
albert-base-v2 ml.p3.2xlarge 128 128
bart-base ml.p3.2xlarge 12 64
bart-large ml.p3.2xlarge 4 28
bert-base-cased ml.p3.2xlarge 16 128
bert-base-chinese ml.p3.2xlarge 16 128
bert-base-multilingual-cased ml.p3.2xlarge 12 64
bert-base-multilingual-uncased ml.p3.2xlarge 16 96
bert-base-uncased ml.p3.2xlarge 16 96
bert-large-uncased ml.p3.2xlarge 4 24
cl-토호쿠/ bert-base-japanese ml.p3.2xlarge 16 128
cl-토호쿠/ -워드 마스킹 bert-base-japanese-whole ml.p3.2xlarge 16 128
distilbert-base-sst2 ml.p3.2xlarge 32 128
distilbert-base-uncased ml.p3.2xlarge 32 128
distilgpt2 ml.p3.2xlarge 32 128
gpt2 ml.p3.2xlarge 12 64
gpt2-large ml.p3.2xlarge 2 24
7월/ tf-xlm-roberta-base ml.p3.2xlarge 12 32
roberta-base ml.p3.2xlarge 4 64
roberta-large ml.p3.2xlarge 4 64
t5-base ml.p3.2xlarge 64 64
t5-small ml.p3.2xlarge 128 128