기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
Amazon SageMaker 교육 컴파일러 릴리스 노트
중요
Amazon Web Services (AWS) 는 SageMaker 트레이닝 컴파일러의 새 릴리스나 버전이 없을 것이라고 발표했습니다. 교육용 SageMaker 기존 DLC ( AWS Deep Learning Containers) 를 통해 SageMaker 교육 컴파일러를 계속 활용할 수 있습니다. AWS Deep Learning Containers Framework 지원 정책에 따라 기존 DLC는 계속 액세스할 수 있지만 더 이상 패치나 업데이트를 받을 수 없다는 점에 유의하십시오. AWS
Amazon SageMaker Training Compiler의 최신 업데이트를 추적하려면 다음 릴리스 노트를 참조하십시오.
SageMaker 트레이닝 컴파일러 릴리스 노트: 2023년 2월 13일
통화 업데이트
v1.13.1에 대한 PyTorch 지원이 추가되었습니다
버그 수정
-
비전 트랜스포머(ViT) 모델과 같은 일부 모델에서 NAN 손실을 유발하던 GPU의 경쟁 상태 문제를 수정했습니다.
기타 변경사항
-
SageMaker 트레이닝 컴파일러는 PyTorch /XLA가 옵티마이저 (예: SGD, Adam, AdamW) 에 내장된 옵티마이저 (예:,) 의
torch.optim
동기화가 필요 없는 버전을 자동으로 오버라이드하도록 함으로써 성능을 개선합니다.transformers.optimization
torch_xla.amp.syncfree
torch_xla.amp.syncfree.SGD
torch_xla.amp.syncfree.Adam
torch_xla.amp.syncfree.AdamW
훈련 스크립트에서 옵티마이저를 정의하는 이러한 코드 라인은 변경할 필요가 없습니다.
AWS Deep Learning 컨테이너로의 마이그레이션
이 릴리스는 벤치마크 테스트를 통과했으며 다음 AWS 딥 러닝 컨테이너로 마이그레이션되었습니다.
-
PyTorch v1.13.1
763104351884.dkr.ecr.us-west-2.amazonaws.com/pytorch-trcomp-training:1.13.1-gpu-py39-cu117-ubuntu20.04-sagemaker
Amazon SageMaker Training Compiler를 사용하여 사전 빌드된 컨테이너의 전체 목록을 찾으려면 을 참조하십시오. 지원되는 프레임워크, 인스턴스 유형 AWS 리전, 테스트된 모델
SageMaker 트레이닝 컴파일러 릴리스 노트: 2023년 1월 9일
호환성에 영향을 미치는 변경 사항
-
tf.keras.optimizers.Optimizer
TensorFlow 2.11.0 이상의 새 옵티마이저를 가리킵니다. 이전 옵티마이저는tf.keras.optimizers.legacy
로 이전되었습니다. 다음을 수행하면 호환성에 영향을 미치는 변경 사항으로 인해 작업이 실패할 수 있습니다.-
이전 옵티마이저에서 체크포인트를 로드합니다. 레거시 옵티마이저를 사용하도록 전환하는 것을 권장합니다.
-
v1을 사용하세요. TensorFlow v1을 계속 사용해야 TensorFlow 하는 경우 TensorFlow v2로 마이그레이션하거나 레거시 옵티마이저로 전환하는 것이 좋습니다.
옵티마이저 변경사항의 주요 변경 사항에 대한 자세한 목록은 저장소의 공식 TensorFlow v2.11.0
릴리스 노트를 참조하십시오. TensorFlow GitHub -
AWS Deep Learning 컨테이너로의 마이그레이션
이 릴리스는 벤치마크 테스트를 통과했으며 다음 AWS 딥 러닝 컨테이너로 마이그레이션되었습니다.
-
TensorFlow v2.11.0
763104351884.dkr.ecr.
<region>
.amazonaws.com/tensorflow-training:2.11.0-gpu-py39-cu112-ubuntu20.04-sagemakerAmazon SageMaker Training Compiler를 사용하여 사전 빌드된 컨테이너의 전체 목록을 찾으려면 을 참조하십시오. 지원되는 프레임워크, 인스턴스 유형 AWS 리전, 테스트된 모델
SageMaker 트레이닝 컴파일러 릴리스 노트: 2022년 12월 8일
버그 수정
-
여러 프로세스에서 모델 초기화에 불일치가 없도록 PyTorch v1.12부터 PyTorch 학습 작업의 시드를 수정했습니다. 재현성도 참조하십시오. PyTorch
-
G4dn 및 G5 인스턴스의 PyTorch 분산 교육 작업이 기본적으로 PCIe를 통한 통신을 사용하지 않는 문제를 수정했습니다.
알려진 문제
-
Hugging Face의 비전 트랜스포머에서 PyTorch /XLA API를 잘못 사용하면 컨버전스 문제가 발생할 수 있습니다.
기타 변경사항
-
Hugging Face
Trainer
Transformer 클래스를 사용할 때는 인수를 로optim
설정하여 옵티마이저를 SyncFree 사용해야 합니다.adamw_torch_xla
자세한 정보는 Hugging Face Transformers Trainer 클래스를 사용하는 대형 언어 모델을 참조하세요. Hugging Face Transformer 문서의 옵티마이저도 참고하세요.
AWS Deep Learning 컨테이너로의 마이그레이션
이 릴리스는 벤치마크 테스트를 통과했으며 다음 AWS 딥 러닝 컨테이너로 마이그레이션되었습니다.
-
PyTorch v1.12.0
763104351884.dkr.ecr.
<region>
.amazonaws.com/pytorch-trcomp-training:1.12.0-gpu-py38-cu113-ubuntu20.04-sagemakerAmazon SageMaker Training Compiler를 사용하여 사전 빌드된 컨테이너의 전체 목록을 찾으려면 을 참조하십시오. 지원되는 프레임워크, 인스턴스 유형 AWS 리전, 테스트된 모델
SageMaker 트레이닝 컴파일러 릴리스 노트: 2022년 10월 4일
통화 업데이트
-
TensorFlow v2.10.0에 대한 지원이 추가되었습니다.
기타 변경사항
-
트랜스포머 라이브러리를 TensorFlow 사용하는 Hugging Face NLP 모델을 프레임워크 테스트에 추가했습니다. 테스트된 트랜스포머 모델을 찾으려면 테스트 완료 모델을 참고하세요.
AWS Deep Learning 컨테이너로의 마이그레이션
이 릴리스는 벤치마크 테스트를 통과했으며 다음 AWS 딥 러닝 컨테이너로 마이그레이션되었습니다.
-
TensorFlow v2.10.0
763104351884.dkr.ecr.
<region>
.amazonaws.com/tensorflow-training:2.10.0-gpu-py39-cu112-ubuntu20.04-sagemakerAmazon SageMaker Training Compiler를 사용하여 사전 빌드된 컨테이너의 전체 목록을 찾으려면 을 참조하십시오. 지원되는 프레임워크, 인스턴스 유형 AWS 리전, 테스트된 모델
SageMaker 트레이닝 컴파일러 릴리스 노트: 2022년 9월 1일
통화 업데이트
-
v1.11.0과 함께 Hugging Face 트랜스포머 PyTorch v4.21.1에 대한 지원이 추가되었습니다.
개선 사항
-
Hugging Face Transformer 모델을 위한 SageMaker 트레이닝 컴파일러를 활성화하는 새로운 분산 트레이닝 런처 메커니즘을 구현했습니다. PyTorch 자세한 내용은 분산 학습을 위한 교육 컴파일러를 사용하여 PyTorch SageMaker 훈련 작업 실행을 참조하십시오.
-
분산형 훈련의 집단적 통신을 개선하기 위해 EFA와 통합했습니다.
-
PyTorch 교육 작업을 위한 G5 인스턴스 지원이 추가되었습니다. 자세한 정보는 지원되는 프레임워크, 인스턴스 유형 AWS 리전, 테스트된 모델을 참조하세요.
AWS Deep Learning 컨테이너로의 마이그레이션
이 릴리스는 벤치마크 테스트를 통과했으며 다음 AWS 딥 러닝 컨테이너로 마이그레이션되었습니다.
-
HuggingFace v4.21.1 (v1.11.0 포함) PyTorch
763104351884.dkr.ecr.us-west-2.amazonaws.com/huggingface-pytorch-trcomp-training:1.11.0-transformers4.21.1-gpu-py38-cu113-ubuntu20.04
Amazon SageMaker Training Compiler를 사용하여 사전 빌드된 컨테이너의 전체 목록을 찾으려면 을 참조하십시오. 지원되는 프레임워크, 인스턴스 유형 AWS 리전, 테스트된 모델
SageMaker 트레이닝 컴파일러 릴리스 노트: 2022년 6월 14일
새로운 기능
-
TensorFlow v2.9.1에 대한 지원이 추가되었습니다. SageMaker 트레이닝 컴파일러는 컴파일 TensorFlow 모듈 (
tf.*
) 및 TensorFlow Keras 모듈 () 을 완벽하게 지원합니다.tf.keras.*
-
에 대한 AWS Deep Learning Containers를 확장하여 만든 사용자 지정 컨테이너에 대한 TensorFlow 지원이 추가되었습니다. 자세한 내용은 SageMaker Python SDK를 사용한 SageMaker 훈련 컴파일러 활성화 및 SageMaker 프레임워크 Deep Learning Containers 확장을 참조하십시오.
-
교육 작업을 위한 G5 인스턴스 지원이 추가되었습니다. TensorFlow
AWS Deep Learning 컨테이너로의 마이그레이션
이 릴리스는 벤치마크 테스트를 통과했으며 다음 AWS 딥 러닝 컨테이너로 마이그레이션되었습니다.
-
TensorFlow 2.9.1
763104351884.dkr.ecr.
<region>
.amazonaws.com/tensorflow-training:2.9.1-gpu-py39-cu112-ubuntu20.04-sagemakerAmazon SageMaker Training Compiler를 사용하여 사전 구축된 컨테이너의 전체 목록을 찾으려면 을 참조하십시오. 지원되는 프레임워크, 인스턴스 유형 AWS 리전, 테스트된 모델
SageMaker 트레이닝 컴파일러 릴리스 노트: 2022년 4월 26일
개선 사항
-
중국 지역을 제외하고 AWS Deep Learning Containers가
서비스 중인 모든 지역에 대한 지원이 추가되었습니다. AWS 리전
SageMaker 트레이닝 컴파일러 릴리스 노트: 2022년 4월 12일
통화 업데이트
-
v2.6.3 및 v1.10.2와 함께 Hugging Face 트랜스포머 TensorFlow v4.17.0에 대한 지원이 추가되었습니다. PyTorch
SageMaker 트레이닝 컴파일러 릴리스 노트: 2022년 2월 21일
개선 사항
-
벤치마크 테스트를 완료하고
ml.g4dn
인스턴스 유형에 대한 훈련 속도 향상을 확인했습니다. 테스트된ml
인스턴스의 전체 목록을 찾으려면 지원되는 인스턴스 유형을 참고하세요.
SageMaker 트레이닝 컴파일러 릴리스 노트: 2021년 12월 1일
새로운 기능
AWS re:Invent 2021에서 아마존 SageMaker 트레이닝 컴파일러를 출시했습니다.
AWS Deep Learning 컨테이너로의 마이그레이션
Amazon SageMaker 교육 컴파일러는 벤치마크 테스트를 통과했으며 AWS Deep Learning Containers로 마이그레이션되었습니다. Amazon SageMaker Training Compiler를 사용하여 사전 빌드된 컨테이너의 전체 목록을 찾으려면 을 참조하십시오. 지원되는 프레임워크, 인스턴스 유형 AWS 리전, 테스트된 모델