기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
지원되는 프레임워크, 인스턴스 유형 AWS 리전, 테스트된 모델
중요
Amazon Web Services (AWS) 는 SageMaker 트레이닝 컴파일러의 새 릴리스나 버전이 없을 것이라고 발표했습니다. 기존 AWS Deep Learning Containers (DLCs) 를 통해 계속해서 SageMaker 트레이닝용 SageMaker 컴파일러를 활용할 수 있습니다. AWS Deep Learning Containers Framework 지원 정책에 따라 기존 버전은 DLCs 계속 액세스할 수 있지만 더 이상 패치나 업데이트를 받을 수 없다는 점에 유의하십시오. AWS
SageMaker Training Compiler를 사용하기 전에 선택한 프레임워크가 지원되는지, 계정에서 인스턴스 유형을 사용할 수 있는지, AWS 계정이 지원되는 AWS 리전프레임워크 중 하나에 속하는지 AWS 확인하세요.
참고
SageMaker 트레이닝 컴파일러는 SageMaker Python SDK v2.70.0 이상에서 사용할 수 있습니다.
지원되는 프레임워크
SageMaker 교육 컴파일러는 다음과 같은 딥 러닝 프레임워크를 지원하며 Deep Learning Containers를 통해 AWS 사용할 수 있습니다.
PyTorch
프레임워크 | 프레임워크 버전 | 딥러닝 컨테이너 URI | Docker 사용자 지정을 위해 확장 가능 |
---|---|---|---|
PyTorch | PyTorch v1.13.1 | 763104351884.dkr.ecr.<region> .amazonaws.com/:1.12.0-gpu-py38-cu113-우분투20.04-sagemaker pytorch-trcomp-training |
아니요 |
PyTorch v1.12.0 | 763104351884.dkr.ecr.<region> .amazonaws.com/:1.13.1-gpu-py39-cu117-우분투20.04-sagemaker pytorch-trcomp-training |
아니요 | |
PyTorch Hugging Face 트랜스포머 포함 |
Transformers v4.21.1 PyTorch v1.11.0 |
763104351884.dkr.ecr. |
아니요 |
Transformers v4.17.0 PyTorch v1.10.2 |
763104351884.dkr.ecr. |
아니요 | |
Transformers v4.11.0 PyTorch v1.9.0 |
763104351884.dkr.ecr. |
아니요 |
TensorFlow
프레임워크 | 프레임워크 버전 | 딥 러닝 컨테이너 URI | Docker 사용자 지정을 위해 확장 가능 |
---|---|---|---|
TensorFlow |
TensorFlow v2.11.0 |
763104351884.dkr.ecr. |
예 |
TensorFlow v2.10.0 |
763104351884.dkr.ecr. |
예 | |
TensorFlow v2.9.1 |
763104351884.dkr.ecr. |
예 | |
TensorFlow Hugging Face 트랜스포머 포함 |
Transformers v4.17.0 TensorFlow v2.6.3 |
763104351884.dkr.ecr. |
아니요 |
Transformers v4.11.0 TensorFlow v2.5.1 |
763104351884.dkr.ecr. |
아니요 |
자세한 내용은 AWS Deep Learning Containers GitHub 리포지토리의 사용 가능한 이미지를
AWS 리전
SageMaker 교육 컴파일러 컨테이너는
지원되는 인스턴스 유형
SageMaker 트레이닝 컴파일러는 다음 ML 인스턴스 유형에서 테스트되었으며 지원합니다.
-
P4 인스턴스
-
P3 인스턴스
-
G4dn 인스턴스
-
G5 인스턴스
인스턴스 유형의 사양은 Amazon EC2 인스턴스 유형 페이지의
다음과 유사한 오류 메시지가 발생한 경우 SageMaker 리소스에 대한 서비스 할당량 증가 요청의 지침을 따르세요.
ResourceLimitExceeded: An error occurred (ResourceLimitExceeded) when calling the CreateTrainingJob operation: The account-level service limit 'ml.p3dn.24xlarge for training job usage' is 0 Instances, with current utilization of 0 Instances and a request delta of 1 Instances. Please contact AWS support to request an increase for this limit.
테스트 완료 모델
다음 표에는 SageMaker 트레이닝 컴파일러로 테스트한 모델 목록이 나와 있습니다. 참고로 메모리에 담을 수 있는 가장 큰 배치 크기도 다른 학습 파라미터와 함께 포함되어 있습니다. SageMaker Training Compiler는 모델 학습 프로세스의 메모리 사용량을 변경할 수 있습니다. 따라서 학습 프로세스 중에 더 큰 배치 크기를 사용하는 경우가 많아 총 학습 시간을 더욱 줄일 수 있습니다. 경우에 따라 SageMaker Training Compiler는 지능적으로 캐싱을 촉진하여 에 맞출 수 있는 최대 배치 크기를 줄일 수 있습니다. GPU 모델 하이퍼파라미터를 재조정하고 상황에 맞는 최적의 배치 크기를 찾아야 합니다. 시간을 절약하려면 다음 참조 테이블을 확인하여 사용 사례에 적합한 출발점이 될 수 있는 배치 크기를 찾아보세요.
참고
배치 크기는 해당 인스턴스 유형의 각 GPU 개인에 맞는 로컬 배치 크기입니다. 배치 크기를 변경할 때는 학습률도 조정해야 합니다.
자연어 처리 () 모델 NLP
다음 모델은 단일 또는 다중 GPU 코어와 자동 혼합 정밀도 (AMP) 를 사용하는 단일 노드 및 다중 노드의 모든 조합에 대한 교육 작업에 대해 테스트를 거쳤습니다.
단일 노드/다중 노드 단일/다중 - GPU GPU | ||||||
---|---|---|---|---|---|---|
모델 | 데이터세트 | 인스턴스 유형 | 정밀도 | 시퀀스 길이 | 네이티브 프레임워크의 배치 크기 | SageMaker 트레이닝 컴파일러의 Batch 크기 |
albert-base-v2. | wikitext-2-raw-v1 | g4dn.16xlarge | float16 | 128 | 80 | 192 |
albert-base-v2 | wikitext-2-raw-v1 | g5.4xlarge | float16 | 128 | 128 | 332 |
albert-base-v2 | wikitext-2-raw-v1 | p3.2xlarge | float16 | 128 | 80 | 224 |
bert-base-uncased | wikitext-2-raw-v1 | g5.4xlarge | float16 | 128 | 160 | 288 |
camembert-base | wikitext-2-raw-v1 | g5.4xlarge | float16 | 128 | 160 | 280 |
distilbert-base-uncased | wikitext-2-raw-v1 | g5.4xlarge | float16 | 128 | 240 | 472 |
distilgpt2 | wikitext-2-raw-v1 | g4dn.16xlarge | float16 | 128 | 77 | 128 |
distilgpt2 | wikitext-2-raw-v1 | g5.4xlarge | float16 | 128 | 138 | 390 |
distilgpt2 | wikitext-2-raw-v1 | p3.2xlarge | float16 | 128 | 96 | 256 |
distilroberta-base | wikitext-2-raw-v1 | g4dn.16xlarge | float16 | 128 | 96 | 192 |
distilroberta-base | wikitext-2-raw-v1 | g5.4xlarge | float16 | 128 | 171 | 380 |
distilroberta-base | wikitext-2-raw-v1 | p3.2xlarge | float16 | 128 | 112 | 256 |
gpt2 | wikitext-2-raw-v1 | g4dn.16xlarge | float16 | 128 | 52 | 152 |
gpt2 | wikitext-2-raw-v1 | g5.4xlarge | float16 | 128 | 84 | 240 |
gpt2 | wikitext-2-raw-v1 | p3.2xlarge | float16 | 128 | 58 | 164 |
microsoft/deberta-base | wikitext-2-raw-v1 | g4dn.16xlarge | float16 | 128 | 48 | 128 |
microsoft/deberta-base | wikitext-2-raw-v1 | g5.4xlarge | float16 | 128 | 84 | 207 |
microsoft/deberta-base | wikitext-2-raw-v1 | p3.2xlarge | float16 | 128 | 53 | 133 |
roberta-base | wikitext-2-raw-v1 | g5.4xlarge | float16 | 128 | 125 | 224 |
xlm-roberta-base | wikitext-2-raw-v1 | g4dn.16xlarge | float16 | 128 | 16 | 31 |
xlm-roberta-base | wikitext-2-raw-v1 | p3.2xlarge | float16 | 128 | 18 | 50 |
xlnet-base-cased | wikitext-2-raw-v1 | g5.4xlarge | float16 | 128 | 128 | 240 |
bert-base-uncased | wikitext-103-v1 | g5.48xlarge | float16 | 512 | 29 | 50 |
distilbert-base-uncased | wikitext-103-v1 | g5.48xlarge | float16 | 512 | 45 | 64 |
gpt2 | wikitext-103-v1 | g5.48xlarge | float16 | 512 | 18 | 45 |
roberta-base | wikitext-103-v1 | g5.48xlarge | float16 | 512 | 23 | 44 |
gpt2 | wikitext-103-v1 | p4d.24xlarge | float16 | 512 | 36 | 64 |
컴퓨터 비전(CV) 모델
표시된 대로 자동 혼합 정밀도 (AMP) 기능이 있는 TensorFlowModel Garden을
싱글/멀티 노드 싱글/멀티 노드 GPU | |||||
---|---|---|---|---|---|
모델 | 데이터세트 | 인스턴스 유형 | 정밀도 | 네이티브 프레임워크의 배치 크기 | SageMaker 트레이닝 컴파일러의 Batch 크기 |
ResNet15.2 | food101 | g4dn.16xlarge | float16 | 128 | 144 |
ResNet152 | food101 | g5.4xlarge | float16 | 128 | 192 |
ResNet152 | food101 | p3.2xlarge | float16 | 152 | 156 |
ViT | food101 | g4dn.16xlarge | float16 | 512 | 512 |
ViT | food101 | g5.4xlarge | float16 | 992 | 768 |
ViT | food101 | p3.2xlarge | float16 | 848 | 768 |
자연어 처리 () 모델 NLP
다음 모델은 단일 또는 다중 GPU 코어와 자동 혼합 정밀도 (AMP) 를 사용하는 단일 노드 및 다중 노드의 모든 조합에 대한 교육 작업에 대해 테스트를 거쳤습니다.
단일 노드/다중 노드 단일/다중 - GPU GPU | ||||||
---|---|---|---|---|---|---|
모델 | 데이터세트 | 인스턴스 유형 | 정밀도 | 시퀀스 길이 | 네이티브 프레임워크의 배치 크기 | SageMaker 트레이닝 컴파일러의 Batch 크기 |
albert-base-v2. | wikitext-2-raw-v1 | ml.g5.2xlarge | float16 | 128 | 128 | 248 |
bert-base-uncased | wikitext-2-raw-v1 | ml.g5.2xlarge | float16 | 128 | 160 | 288 |
camembert-base | wikitext-2-raw-v1 | ml.g5.2xlarge | float16 | 128 | 160 | 279 |
camembert-base | wikitext-2-raw-v1 | ml.p3.2xlarge | float16 | 128 | 105 | 164 |
distilgpt2 | wikitext-2-raw-v1 | ml.g5.2xlarge | float16 | 128 | 136 | 256 |
distilgpt2 | wikitext-2-raw-v1 | ml.p3.2xlarge | float16 | 128 | 80 | 118 |
gpt2 | wikitext-2-raw-v1 | ml.g5.2xlarge | float16 | 128 | 84 | 240 |
gpt2 | wikitext-2-raw-v1 | ml.p3.2xlarge | float16 | 128 | 80 | 119 |
microsoft/deberta-base | wikitext-2-raw-v1 | ml.g5.2xlarge | float16 | 128 | 93 | 197 |
microsoft/deberta-base | wikitext-2-raw-v1 | ml.p3.2xlarge | float16 | 128 | 113 | 130 |
roberta-base | wikitext-2-raw-v1 | ml.g5.2xlarge | float16 | 128 | 125 | 224 |
roberta-base | wikitext-2-raw-v1 | ml.p3.2xlarge | float16 | 128 | 78 | 112 |
xlnet-base-cased | wikitext-2-raw-v1 | ml.g5.2xlarge | float16 | 128 | 138 | 240 |
bert-base-uncased | wikitext-103-v1 | ml.p4d.24xlarge | float16 | 512 | 52 | |
distilbert-base-uncased | wikitext-103-v1 | ml.p4d.24xlarge | float16 | 512 | 160 | |
gpt2 | wikitext-103-v1 | ml.p4d.24xlarge | float16 | 512 | 25 | |
roberta-base | wikitext-103-v1 | ml.p4d.24xlarge | float16 | 512 | 64 |
컴퓨터 비전(CV) 모델
표시된 대로 자동 혼합 정밀도 (AMP) 기능이 있는 TensorFlowModel Garden을
싱글/멀티 노드 싱글/멀티 노드 GPU | |||||
---|---|---|---|---|---|
모델 | 데이터세트 | 인스턴스 유형 | 정밀도 | 네이티브 프레임워크의 배치 크기 | SageMaker 트레이닝 컴파일러의 Batch 크기 |
마스크 RCNN - ResNet 50- FPN | COCO-2017 | ml.g5.2xlarge | float16 | 6 | 8 |
마스크 RCNN - ResNet 50- FPN | COCO-2017 | ml.p3.2xlarge | float16 | 4 | 6 |
ResNet50 | ImageNet | ml.g5.2xlarge | float16 | 192 | 256 |
ResNet50 | ImageNet | ml.p3.2xlarge | float16 | 256 | 256 |
ResNet101 | ImageNet | ml.g5.2xlarge | float16 | 128 | 256 |
ResNet101 | ImageNet | ml.p3.2xlarge | float16 | 128 | 128 |
ResNet152 | ImageNet | ml.g5.2xlarge | float16 | 128 | 224 |
ResNet152 | ImageNet | ml.p3.2xlarge | float16 | 128 | 128 |
VisionTransformer | ImageNet | ml.g5.2xlarge | float16 | 112 | 144 |
VisionTransformer | ImageNet | ml.p3.2xlarge | float16 | 96 | 128 |
자연어 처리 (NLP) 모델
표시된 대로 자동 혼합 정밀도 (AMP) 가 있는 Sequence_Len=128
트랜스포머 모델을
싱글/멀티 노드 싱글/멀티 노드 GPU | |||||
---|---|---|---|---|---|
모델 | 데이터세트 | 인스턴스 유형 | 정밀도 | 네이티브 프레임워크의 배치 크기 | SageMaker 트레이닝 컴파일러의 Batch 크기 |
albert-base-v2. | wikitext-2-raw-v1 | ml.g5.2xlarge | float16 | 160 | 197 |
albert-base-v2 | wikitext-2-raw-v1 | ml.p3.2xlarge | float16 | 95 | 127 |
bert-base-uncased | wikitext-2-raw-v1 | ml.g5.2xlarge | float16 | 160 | 128 |
bert-base-uncased | wikitext-2-raw-v1 | ml.p3.2xlarge | float16 | 104 | 111 |
bert-large-uncased | wikitext-2-raw-v1 | ml.g5.2xlarge | float16 | 65 | 48 |
bert-large-uncased | wikitext-2-raw-v1 | ml.p3.2xlarge | float16 | 40 | 35 |
camembert-base | wikitext-2-raw-v1 | ml.g5.2xlarge | float16 | 128 | 162 |
camembert-base | wikitext-2-raw-v1 | ml.p3.2xlarge | float16 | 105 | 111 |
distilbert-base-uncased | wikitext-2-raw-v1 | ml.g5.2xlarge | float16 | 256 | 264 |
distilbert-base-uncased | wikitext-2-raw-v1 | ml.p3.2xlarge | float16 | 128 | 169 |
gpt2 | wikitext-2-raw-v1 | ml.g5.2xlarge | float16 | 128 | 120 |
gpt2 | wikitext-2-raw-v1 | ml.p3.2xlarge | float16 | 80 | 83 |
7월/ tf-xlm-roberta-base | wikitext-2-raw-v1 | ml.g5.2xlarge | float16 | 32 | 32 |
7월/ tf-xlm-roberta-base | wikitext-2-raw-v1 | ml.p3.2xlarge | float16 | 32 | 36 |
microsoft/mpnet-base | wikitext-2-raw-v1 | ml.g5.2xlarge | float16 | 144 | 160 |
microsoft/mpnet-base | wikitext-2-raw-v1 | ml.p3.2xlarge | float16 | 106 | 110 |
roberta-base | wikitext-2-raw-v1 | ml.g5.2xlarge | float16 | 128 | 128 |
roberta-base | wikitext-2-raw-v1 | ml.p3.2xlarge | float16 | 72 | 98 |
albert-base-v2 | wikitext-2-raw-v1 | ml.g5.48xlarge | float16 | 128 | 192 |
albert-base-v2 | wikitext-2-raw-v1 | ml.p3.16xlarge | float16 | 95 | 96 |
distilbert-base-uncased | wikitext-2-raw-v1 | ml.g5.48xlarge | float16 | 256 | 256 |
distilbert-base-uncased | wikitext-2-raw-v1 | ml.p3.16xlarge | float16 | 140 | 184 |
구글/ electra-small-discriminator | wikitext-2-raw-v1 | ml.g5.48xlarge | float16 | 256 | 384 |
구글/ electra-small-discriminator | wikitext-2-raw-v1 | ml.p3.16xlarge | float16 | 256 | 268 |
gpt2 | wikitext-2-raw-v1 | ml.g5.48xlarge | float16 | 116 | 116 |
gpt2 | wikitext-2-raw-v1 | ml.p3.16xlarge | float16 | 85 | 83 |
gpt2 | wikitext-2-raw-v1 | ml.p4d.24xlarge | float16 | 94 | 110 |
microsoft/mpnet-base | wikitext-2-raw-v1 | ml.g5.48xlarge | float16 | 187 | 164 |
microsoft/mpnet-base | wikitext-2-raw-v1 | ml.p3.16xlarge | float16 | 106 | 111 |
컴퓨터 비전(CV) 모델
표시된 대로 자동 혼합 정밀도 (AMP) 기능을 갖춘 TensorFlowModel Garden을
단일 노드 싱글/멀티 GPU 노드 GPU | |||||
---|---|---|---|---|---|
모델 | 데이터세트 | 인스턴스 유형 | 정밀도 | 네이티브 프레임워크의 배치 크기 | SageMaker 트레이닝 컴파일러의 Batch 크기 |
DetectionTransformer- 50 ResNet | COCO-2017 | ml.g4dn.2xlarge | float32 | 2 | 4 |
DetectionTransformer- 50 ResNet | COCO-2017 | ml.g5.2xlarge | float32 | 3 | 6 |
DetectionTransformer- 50 ResNet | COCO-2017 | ml.p3.2xlarge | float32 | 2 | 4 |
마스크 RCNN - ResNet 50- FPN | COCO-2017 | ml.g4dn.2xlarge | float16 | 4 | 6 |
마스크 RCNN - ResNet 50- FPN | COCO-2017 | ml.g5.2xlarge | float16 | 6 | 8 |
마스크 RCNN - ResNet 50- FPN | COCO-2017 | ml.g5.48xlarge | float16 | 48 | 64 |
마스크 RCNN - ResNet 50- FPN | COCO-2017 | ml.p3.2xlarge | float16 | 4 | 6 |
ResNet50 | ImageNet | ml.g4dn.2xlarge | float16 | 224 | 256 |
ResNet50 | ImageNet | ml.g5.2xlarge | float16 | 192 | 160 |
ResNet50 | ImageNet | ml.g5.48xlarge | float16 | 2048 | 2048 |
ResNet50 | ImageNet | ml.p3.2xlarge | float16 | 224 | 160 |
ResNet101 | ImageNet | ml.g4dn.2xlarge | float16 | 160 | 128 |
ResNet101 | ImageNet | ml.g5.2xlarge | float16 | 192 | 256 |
ResNet101 | ImageNet | ml.g5.48xlarge | float16 | 2048 | 2048 |
ResNet101 | ImageNet | ml.p3.2xlarge | float16 | 160 | 224 |
ResNet152 | ImageNet | ml.g4dn.2xlarge | float16 | 128 | 128 |
ResNet152 | ImageNet | ml.g5.2xlarge | float16 | 192 | 224 |
ResNet152 | ImageNet | ml.g5.48xlarge | float16 | 1536 | 1792 |
ResNet152 | ImageNet | ml.p3.2xlarge | float16 | 128 | 160 |
VisionTransformer | ImageNet | ml.g4dn.2xlarge | float16 | 80 | 128 |
VisionTransformer | ImageNet | ml.g5.2xlarge | float16 | 112 | 144 |
VisionTransformer | ImageNet | ml.g5.48xlarge | float16 | 896 | 1152 |
VisionTransformer | ImageNet | ml.p3.2xlarge | float16 | 80 | 128 |
자연어 처리 (NLP) 모델
표시된 대로 자동 혼합 정밀도 (AMP) 가 있는 Sequence_Len=128
트랜스포머 모델을
단일 노드 싱글/멀티 GPU 노드 GPU | |||||
---|---|---|---|---|---|
모델 | 데이터세트 | 인스턴스 유형 | 정밀도 | 네이티브 프레임워크의 배치 크기 | SageMaker 트레이닝 컴파일러의 Batch 크기 |
albert-base-v2. | wikitext-2-raw-v1 | g4dn.16xlarge | float16 | 128 | 112 |
albert-base-v2 | wikitext-2-raw-v1 | p3.2xlarge | float16 | 128 | 128 |
albert-base-v2 | wikitext-2-raw-v1 | p3.8xlarge | float16 | 128 | 135 |
albert-base-v2 | wikitext-2-raw-v1 | g5.4xlarge | float16 | 128 | 191 |
bert-base-uncased | wikitext-2-raw-v1 | g4dn.16xlarge | float16 | 64 | 94 |
bert-base-uncased | wikitext-2-raw-v1 | p3.2xlarge | float16 | 96 | 101 |
bert-base-uncased | wikitext-2-raw-v1 | p3.8xlarge | float16 | 96 | 96 |
bert-base-uncased | wikitext-2-raw-v1 | g5.4xlarge | float16 | 128 | 128 |
bert-large-uncased | wikitext-2-raw-v1 | g4dn.16xlarge | float16 | 35 | 21 |
bert-large-uncased | wikitext-2-raw-v1 | p3.2xlarge | float16 | 39 | 26 |
bert-large-uncased | wikitext-2-raw-v1 | g5.4xlarge | float16 | 60 | 50 |
camembert-base | wikitext-2-raw-v1 | g4dn.16xlarge | float16 | 96 | 90 |
camembert-base | wikitext-2-raw-v1 | p3.2xlarge | float16 | 96 | 98 |
camembert-base | wikitext-2-raw-v1 | p3.8xlarge | float16 | 96 | 96 |
camembert-base | wikitext-2-raw-v1 | g5.4xlarge | float16 | 128 | 128 |
distilbert-base-uncased | wikitext-2-raw-v1 | g4dn.16xlarge | float16 | 256 | 160 |
distilbert-base-uncased | wikitext-2-raw-v1 | p3.2xlarge | float16 | 128 | 176 |
distilbert-base-uncased | wikitext-2-raw-v1 | p3.8xlarge | float16 | 128 | 160 |
distilbert-base-uncased | wikitext-2-raw-v1 | g5.4xlarge | float16 | 256 | 258 |
구글_ electra-small-discriminator | wikitext-2-raw-v1 | g4dn.16xlarge | float16 | 256 | 216 |
구글_ electra-small-discriminator | wikitext-2-raw-v1 | p3.2xlarge | float16 | 256 | 230 |
구글_ electra-small-discriminator | wikitext-2-raw-v1 | p3.8xlarge | float16 | 256 | 224 |
구글_ electra-small-discriminator | wikitext-2-raw-v1 | g5.4xlarge | float16 | 256 | 320 |
gpt2 | wikitext-2-raw-v1 | g4dn.16xlarge | float16 | 80 | 64 |
gpt2 | wikitext-2-raw-v1 | p3.2xlarge | float16 | 80 | 77 |
gpt2 | wikitext-2-raw-v1 | p3.8xlarge | float16 | 80 | 72 |
gpt2 | wikitext-2-raw-v1 | g5.4xlarge | float16 | 128 | 120 |
7월_ tf-xlm-roberta-base | wikitext-2-raw-v1 | g4dn.16xlarge | float16 | 28 | 24 |
jplu_ tf-xlm-roberta-base | wikitext-2-raw-v1 | p3.2xlarge | float16 | 32 | 24 |
jplu_ tf-xlm-roberta-base | wikitext-2-raw-v1 | p3.8xlarge | float16 | 32 | 26 |
jplu_ tf-xlm-roberta-base | wikitext-2-raw-v1 | g5.4xlarge | float16 | 6 | 52 |
microsoft_mpnet-base | wikitext-2-raw-v1 | g4dn.16xlarge | float16 | 96 | 92 |
microsoft_mpnet-base | wikitext-2-raw-v1 | p3.2xlarge | float16 | 96 | 101 |
microsoft_mpnet-base | wikitext-2-raw-v1 | p3.8xlarge | float16 | 96 | 101 |
microsoft_mpnet-base | wikitext-2-raw-v1 | g5.4xlarge | float16 | 128 | 152 |
roberta-base | wikitext-2-raw-v1 | g4dn.16xlarge | float16 | 64 | 72 |
roberta-base | wikitext-2-raw-v1 | p3.2xlarge | float16 | 64 | 84 |
roberta-base | wikitext-2-raw-v1 | p3.8xlarge | float16 | 64 | 86 |
roberta-base | wikitext-2-raw-v1 | g5.4xlarge | float16 | 128 | 128 |
자동 혼합 정밀도 () AMP 기능이 있는 TensorFlow모델 가든을
단일 노드 싱글/멀티 GPU 노드 GPU | ||||
---|---|---|---|---|
모델 | 데이터세트 | 인스턴스 유형 | 네이티브 프레임워크의 배치 크기 | SageMaker 트레이닝 컴파일러의 Batch 크기 |
ResNet50 | ImageNet | ml.g4dn.2xlarge | 192 | 256* |
ResNet101 | ImageNet | ml.g4dn.2xlarge | 128 | 160 |
ml.g5.2xlarge | 224 | 256* | ||
ml.p3.16xlarge | 1536 | 1792 | ||
ResNet152 | ImageNet | ml.g5.2xlarge | 192 | 224 |
ml.p3.2xlarge | 160 | 160 | ||
ml.p3.16xlarge | 1024 | 1,280 | ||
VisionTransformer | ImageNet | ml.g4dn.2xlarge | 80 | 128* |
ml.g5.2xlarge | 112 | 128* | ||
ml.p3.2xlarge | 56 | 128* | ||
ml.p3.16xlarge | 640 | 1024* | ||
DetectionTransformer- ResNet 50 | COCO-2017 | ml.g4dn.2xlarge | 2 | 2 |
ml.g5.2xlarge | 3 | 6 | ||
ml.p3.2xlarge | 2 | 4 | ||
ml.p3.16xlarge | 8 | 32 | ||
마스크 RCNN - ResNet 50- FPN | COCO-2017 | ml.g4dn.2xlarge | 4 | 4 |
ml.g5.2xlarge | 6 | 8 | ||
ml.p3.2xlarge | 4 | 6 |
* 별표 기호 (*) 로 표시된 배치 크기는 SageMaker 트레이닝 컴파일러 개발자 팀에서 테스트한 최대 배치 크기를 나타냅니다. 표시된 셀의 경우 인스턴스는 표시된 것보다 더 큰 배치 크기에 맞을 수 있습니다.
자동 혼합 Sequence_Len=512
정밀도 () 로 테스트되었습니다. AMP
단일 노드 단일 노드 GPU | |||||
---|---|---|---|---|---|
모델 | 데이터세트 | 인스턴스 유형 | 인스턴스 수 | 네이티브 프레임워크의 배치 크기 | 훈련 컴파일러의 배치 크기 |
albert-base-v2 | wikitext-2 | ml.g4dn.2xlarge | 1 | 14 | 28 |
ml.g5.2xlarge | 1 | 18 | 40 | ||
ml.p3.2xlarge | 1 | 14 | 32 | ||
bert-base-cased | wikitext-2 | ml.g4dn.2xlarge | 1 | 12 | 24 |
ml.g5.2xlarge | 1 | 28 | 44 | ||
ml.p3.2xlarge | 1 | 16 | 20 | ||
camembert-base | wikitext-2 | ml.g4dn.2xlarge | 1 | 16 | 28 |
ml.g5.2xlarge | 1 | 24 | 40 | ||
ml.p3.2xlarge | 1 | 16 | 24 | ||
distilbert-base-uncased | wikitext-2 | ml.g4dn.2xlarge | 1 | 28 | 52 |
ml.g5.2xlarge | 1 | 40 | 76 | ||
ml.p3.2xlarge | 1 | 32 | 48 | ||
wikitext-103-v1 | ml.p4d.24xlarge | 4 | 82 | 160 | |
distilgpt2 | wikitext-2 | ml.g4dn.2xlarge | 1 | 6 | 18 |
ml.g5.2xlarge | 1 | 12 | 28 | ||
ml.p3.2xlarge | 1 | 6 | 16 | ||
distilroberta-base | wikitext-2 | ml.g4dn.2xlarge | 1 | 20 | 40 |
ml.g5.2xlarge | 1 | 28 | 56 | ||
ml.p3.2xlarge | 1 | 24 | 40 | ||
EleutherAI/gpt-neo-125M | wikitext-2 | ml.g4dn.2xlarge | 1 | 4 | 8 |
ml.g5.2xlarge | 1 | 6 | 14 | ||
ml.p3.2xlarge | 1 | 4 | 10 | ||
gpt2 | wikitext-2 | ml.g4dn.2xlarge | 1 | 4 | 8 |
ml.g5.2xlarge | 1 | 6 | 16 | ||
ml.p3.2xlarge | 1 | 4 | 10 | ||
wikitext-103-v1 | ml.p4d.24xlarge | 4 | 13 | 25 | |
roberta-base | wikitext-2 | ml.g4dn.2xlarge | 1 | 12 | 20 |
ml.g5.2xlarge | 1 | 24 | 36 | ||
ml.p3.2xlarge | 1 | 12 | 20 | ||
wikitext-103-v1 | ml.p4d.24xlarge | 4 | 36 | 64 | |
xlnet-base-cased | wikitext-2 | ml.g4dn.2xlarge | 1 | 2 | 6 |
ml.g5.2xlarge | 1 | 2 | 10 | ||
ml.p3.2xlarge | 1 | 2 | 8 | ||
bert-base-uncased | wikitext-103-v1 | ml.p4d.24xlarge | 2 | 32 | 64 |
4 | 32 | 64 | |||
8 | 32 | 64 | |||
16 | 32 | 64 | |||
roberta-large | wikitext-103-v1 | ml.p4d.24xlarge | 4 | 16 | 24 |
microsoft/deberta-v3-base | wikitext-103-v1 | ml.p4d.24xlarge | 16 | 9 | 23 |
자동 혼합 Sequence_Len=512
정밀도 () 로 테스트되었습니다. AMP
단일 노드 단일 노드 GPU | |||
---|---|---|---|
모델 | 인스턴스 유형 | 네이티브 프레임워크의 배치 크기 | 훈련 컴파일러의 배치 크기 |
albert-base-v2 | ml.p3.2xlarge | 14 | 28 |
ml.g4dn.2xlarge | 14 | 24 | |
bert-base-cased | ml.p3.2xlarge | 16 | 24 |
ml.g4dn.2xlarge | 12 | 24 | |
bert-base-uncased | ml.p3.2xlarge | 16 | 24 |
ml.g4dn.2xlarge | 12 | 28 | |
camembert-base | ml.p3.2xlarge | 12 | 24 |
ml.g4dn.2xlarge | 12 | 28 | |
distilbert-base-uncased | ml.p3.2xlarge | 28 | 48 |
ml.g4dn.2xlarge | 24 | 52 | |
distilgpt2 | ml.p3.2xlarge | 6 | 12 |
ml.g4dn.2xlarge | 6 | 14 | |
distilroberta-base | ml.p3.2xlarge | 20 | 40 |
ml.g4dn.2xlarge | 12 | 40 | |
EleutherAI/gpt-neo-125M | ml.p3.2xlarge | 2 | 10 |
ml.g4dn.2xlarge | 2 | 8 | |
facebook/bart-base | ml.p3.2xlarge | 2 | 6 |
ml.g4dn.2xlarge | 2 | 6 | |
gpt2 | ml.p3.2xlarge | 4 | 8 |
ml.g4dn.2xlarge | 2 | 8 | |
roberta-base | ml.p3.2xlarge | 12 | 20 |
ml.g4dn.2xlarge | 12 | 20 | |
xlnet-base-cased | ml.p3.2xlarge | 2 | 8 |
ml.g4dn.2xlarge | 4 | 6 |
자동 혼합 Sequence_Len=512
정밀도 () 로 테스트되었습니다. AMP
단일 노드 단일 노드 GPU | |||
---|---|---|---|
모델 | 인스턴스 유형 | 네이티브의 배치 크기 | 훈련 컴파일러의 배치 크기 |
albert-base-v2 | ml.p3.2xlarge | 12 | 32 |
bert-base-cased | ml.p3.2xlarge | 14 | 24 |
bert-base-chinese | ml.p3.2xlarge | 16 | 24 |
bert-base-multilingual-cased | ml.p3.2xlarge | 4 | 16 |
bert-base-multilingual-uncased | ml.p3.2xlarge | 8 | 16 |
bert-base-uncased | ml.p3.2xlarge | 12 | 24 |
cl-토호쿠/ -워드 마스킹 bert-base-japanese-whole | ml.p3.2xlarge | 12 | 24 |
cl-토호쿠/ bert-base-japanese | ml.p3.2xlarge | 12 | 24 |
distilbert-base-uncased | ml.p3.2xlarge | 28 | 32 |
distilbert-base-uncased-finetuned-sst-2-영어 | ml.p3.2xlarge | 28 | 32 |
distilgpt2 | ml.p3.2xlarge | 16 | 32 |
facebook/bart-base | ml.p3.2xlarge | 4 | 8 |
gpt2 | ml.p3.2xlarge | 6 | 20 |
iniLMvNreimers/M 2-L6-H384-증류-R에서 증류됨 - 대형 oBERTa | ml.p3.2xlarge | 20 | 32 |
roberta-base | ml.p3.2xlarge | 12 | 20 |
단일 노드 다중 GPU | |||
---|---|---|---|
모델 | 인스턴스 유형 | 네이티브의 배치 크기 | 훈련 컴파일러의 배치 크기 |
bert-base-chinese | ml.p3.8xlarge | 16 | 26 |
bert-base-multilingual-cased | ml.p3.8xlarge | 6 | 16 |
bert-base-multilingual-uncased | ml.p3.8xlarge | 6 | 16 |
bert-base-uncased | ml.p3.8xlarge | 14 | 24 |
distilbert-base-uncased | ml.p3.8xlarge | 14 | 32 |
distilgpt2 | ml.p3.8xlarge | 6 | 32 |
facebook/bart-base | ml.p3.8xlarge | 8 | 16 |
gpt2 | ml.p3.8xlarge | 8 | 20 |
roberta-base | ml.p3.8xlarge | 12 | 20 |
자동 혼합 Sequence_Len=128
정밀도 () 로 테스트되었습니다. AMP
모델 | 인스턴스 유형 | 네이티브 프레임워크의 배치 크기 | 훈련 컴파일러의 배치 크기 |
---|---|---|---|
albert-base-v2 | ml.g4dn.16xlarge | 136 | 208 |
albert-base-v2 | ml.g5.4xlarge | 219 | 312 |
albert-base-v2 | ml.p3.2xlarge | 152 | 208 |
albert-base-v2 | ml.p3.8xlarge | 152 | 192 |
bert-base-uncased | ml.g4dn.16xlarge | 120 | 101 |
bert-base-uncased | ml.g5.4xlarge | 184 | 160 |
bert-base-uncased | ml.p3.2xlarge | 128 | 108 |
bert-large-uncased | ml.g4dn.16xlarge | 37 | 28 |
bert-large-uncased | ml.g5.4xlarge | 64 | 55 |
bert-large-uncased | ml.p3.2xlarge | 40 | 32 |
camembert-base | ml.g4dn.16xlarge | 96 | 100 |
camembert-base | ml.g5.4xlarge | 190 | 160 |
camembert-base | ml.p3.2xlarge | 129 | 108 |
camembert-base | ml.p3.8xlarge | 128 | 104 |
distilbert-base-uncased | ml.g4dn.16xlarge | 210 | 160 |
distilbert-base-uncased | ml.g5.4xlarge | 327 | 288 |
distilbert-base-uncased | ml.p3.2xlarge | 224 | 196 |
distilbert-base-uncased | ml.p3.8xlarge | 192 | 182 |
구글_ electra-small-discriminator | ml.g4dn.16xlarge | 336 | 288 |
구글_ electra-small-discriminator | ml.g5.4xlarge | 504 | 384 |
구글_ electra-small-discriminator | ml.p3.2xlarge | 352 | 323 |
gpt2 | ml.g4dn.16xlarge | 89 | 64 |
gpt2 | ml.g5.4xlarge | 140 | 146 |
gpt2 | ml.p3.2xlarge | 94 | 96 |
gpt2 | ml.p3.8xlarge | 96 | 88 |
7월_ tf-xlm-roberta-base | ml.g4dn.16xlarge | 52 | 16 |
jplu_ tf-xlm-roberta-base | ml.g5.4xlarge | 64 | 44 |
microsoft_mpnet-base | ml.g4dn.16xlarge | 120 | 100 |
microsoft_mpnet-base | ml.g5.4xlarge | 192 | 160 |
microsoft_mpnet-base | ml.p3.2xlarge | 128 | 104 |
microsoft_mpnet-base | ml.p3.8xlarge | 130 | 92 |
roberta-base | ml.g4dn.16xlarge | 108 | 64 |
roberta-base | ml.g5.4xlarge | 176 | 142 |
roberta-base | ml.p3.2xlarge | 118 | 100 |
roberta-base | ml.p3.8xlarge | 112 | 88 |
자동 혼합 정밀도 () Sequence_Len=128
로 테스트되었습니다. AMP
단일 노드 단일 노드 GPU | |||
---|---|---|---|
모델 | 인스턴스 유형 | 네이티브의 배치 크기 | 훈련 컴파일러의 배치 크기 |
albert-base-v2 | ml.p3.2xlarge | 128 | 128 |
bart-base | ml.p3.2xlarge | 12 | 64 |
bart-large | ml.p3.2xlarge | 4 | 28 |
bert-base-cased | ml.p3.2xlarge | 16 | 128 |
bert-base-chinese | ml.p3.2xlarge | 16 | 128 |
bert-base-multilingual-cased | ml.p3.2xlarge | 12 | 64 |
bert-base-multilingual-uncased | ml.p3.2xlarge | 16 | 96 |
bert-base-uncased | ml.p3.2xlarge | 16 | 96 |
bert-large-uncased | ml.p3.2xlarge | 4 | 24 |
cl-토호쿠/ bert-base-japanese | ml.p3.2xlarge | 16 | 128 |
cl-토호쿠/ -워드 마스킹 bert-base-japanese-whole | ml.p3.2xlarge | 16 | 128 |
distilbert-base-sst2 | ml.p3.2xlarge | 32 | 128 |
distilbert-base-uncased | ml.p3.2xlarge | 32 | 128 |
distilgpt2 | ml.p3.2xlarge | 32 | 128 |
gpt2 | ml.p3.2xlarge | 12 | 64 |
gpt2-large | ml.p3.2xlarge | 2 | 24 |
7월/ tf-xlm-roberta-base | ml.p3.2xlarge | 12 | 32 |
roberta-base | ml.p3.2xlarge | 4 | 64 |
roberta-large | ml.p3.2xlarge | 4 | 64 |
t5-base | ml.p3.2xlarge | 64 | 64 |
t5-small | ml.p3.2xlarge | 128 | 128 |