Amazon에서 모델 학습시키기 SageMaker

Amazon SageMaker Training은 에서 SageMaker 제공하는 완전 관리형 기계 학습 (ML) 서비스로서, 이를 통해 다양한 ML 모델을 대규모로 효율적으로 교육할 수 있습니다. SageMaker 작업의 핵심은 ML 워크로드의 컨테이너화와 컴퓨팅 리소스 관리 AWS 기능입니다. SageMaker 교육 플랫폼은 ML 교육 워크로드를 위한 인프라 설정 및 관리와 관련된 번거로운 작업을 처리합니다. SageMaker 교육을 통해 모델을 개발, 교육 및 미세 조정하는 데 집중할 수 있습니다. 이 페이지에서는 모델 학습을 시작하기 위한 세 가지 권장 방법과 고려할 SageMaker 수 있는 추가 옵션을 소개합니다.

작은 정보

제너레이티브 AI를 위한 기초 모델 교육에 대한 자세한 내용은 Amazon SageMaker Studio의 SageMaker JumpStart 기초 모델 사용을 참조하십시오.

Amazon SageMaker 교육 내에서 기능 선택

ML 모델 교육에는 세 가지 주요 사용 사례가 SageMaker 있습니다. 이 섹션에서는 이러한 사용 사례와 각 사용 사례에 권장되는 SageMaker 기능에 대해 설명합니다.

복잡한 딥 러닝 모델을 트레이닝하든 소규모 머신 러닝 알고리즘을 구현하든 관계없이 SageMaker 트레이닝은 사용 사례의 요구 사항을 충족하는 간소하고 비용 효율적인 솔루션을 제공합니다.

사용 사례

다음은 내에서 SageMaker ML 모델을 학습하는 주요 사용 사례입니다.

사용 사례 1: 로우코드 또는 노코드 환경에서 머신러닝 모델을 개발하세요.
사용 사례 2: 코드를 사용하여 유연성과 제어력이 향상된 기계 학습 모델을 개발하세요.
사용 사례 3: 유연성과 제어를 극대화하여 대규모로 기계 학습 모델을 개발하십시오.

권장 기능

다음 표에는 ML 모델 학습의 세 가지 일반적인 시나리오와 교육을 시작하는 데 필요한 해당 옵션이 설명되어 있습니다. SageMaker

	사용 사례 1	사용 사례 2	사용 사례 3
SageMaker 기능	Amazon SageMaker Canvas를 사용하여 모델을 구축하십시오.	Python SDK를 사용하여 XGBoost 또는 작업별 모델과 같은 SageMaker 내장된 ML 알고리즘 중 하나를 사용하여 모델을 SageMaker JumpStart 학습시킵니다. SageMaker	에서 스크립트 모드 또는 사용자 지정 컨테이너를 활용하여 최대한 유연하게 모델을 대규모로 학습할 수 있습니다. SageMaker
설명	데이터를 가져오세요. SageMaker ML 모델 구축 및 교육 인프라 및 리소스 설정을 관리하는 데 도움이 됩니다.	데이터를 가져와 에서 제공하는 내장된 ML 알고리즘 중 하나를 선택하세요 SageMaker. SageMaker Python SDK를 사용하여 모델 하이퍼파라미터, 출력 지표 및 기본 인프라 설정을 설정합니다. SageMaker 교육 플랫폼은 교육 인프라 및 리소스를 제공하는 데 도움이 됩니다.	자체 ML 코드를 개발하여 스크립트 또는 스크립트 세트로 가져오세요 SageMaker. 자세히 알아보려면 SageMaker 모범 사례를 사용한 분산 컴퓨팅을 참조하십시오. 또한 자체 Docker 컨테이너를 가져올 수도 있습니다. SageMaker 교육 플랫폼을 사용하면 사용자 지정 설정에 따라 교육 인프라 및 리소스를 대규모로 프로비저닝할 수 있습니다.
에 최적화되었습니다.	학습 데이터세트를 사용한 빠른 실험을 통한 로우/노코드 및 UI 기반 모델 개발 사용자 지정 모델을 만들면 데이터를 기반으로 알고리즘이 자동으로 선택됩니다. 알고리즘 선택과 같은 고급 사용자 지정 옵션은 고급 모델 구축 구성을 참조하십시오.	하이퍼파라미터, 인프라 설정에 대한 높은 수준의 사용자 지정, ML 프레임워크 및 진입점 스크립트를 직접 사용하여 유연성을 높여 주는 기능으로 ML 모델을 학습시킵니다. Amazon SageMaker Python SDK를 통해 내장 알고리즘, 사전 학습된 JumpStart 모델, 모델을 사용하여 ML 모델을 개발하십시오. 자세한 내용은 클래스를 사용한 로우 코드 배포를 참조하십시오. JumpStart	대규모 ML 교육 워크로드에는 여러 인스턴스와 최대한의 유연성이 필요합니다. SageMaker 모범 사례가 포함된 분산 컴퓨팅을 참조하십시오. SageMaker Docker 이미지를 사용하여 모든 모델의 교육 및 서비스를 호스팅합니다. 임의 알고리즘 SageMaker 또는 외부 알고리즘을 사용하고 Docker 컨테이너를 사용하여 모델을 빌드할 수 있습니다.
고려 사항	Amazon SageMaker Canvas에서 제공하는 모델을 사용자 지정할 수 있는 최소한의 유연성	SageMaker Python SDK는 저수준 SageMaker Training API에 비해 단순화된 인터페이스와 더 적은 구성 옵션을 제공합니다.	AWS 인프라 및 분산 교육 옵션에 대한 지식이 필요합니다. 교육 툴킷을 사용하여 자체 교육 컨테이너 만들기도 참조하십시오. SageMaker
권장 환경	아마존 SageMaker 캔버스를 사용하세요. 설정 방법을 알아보려면 SageMaker Canvas 사용 시작하기를 참조하십시오.	Amazon SageMaker 스튜디오 SageMaker JupyterLab내에서 사용할 수 있습니다. 설정 방법을 알아보려면 Amazon SageMaker Studio 시작을 참조하십시오.	Amazon SageMaker 스튜디오 SageMaker JupyterLab내에서 사용할 수 있습니다. 설정 방법을 알아보려면 Amazon SageMaker Studio 시작을 참조하십시오.

추가 옵션

SageMaker ML 모델 교육을 위한 다음과 같은 추가 옵션을 제공합니다.

SageMaker 교육 기능을 제공하는 기능

SageMaker JumpStart: 공개적으로 사용 가능한 최신 독점 기반 모델 (FM) 이 포함된 SageMaker 공개 모델 허브에 대한 액세스를 SageMaker JumpStart 제공합니다. Amazon SageMaker Studio 내에서 이러한 모델을 미세 조정, 평가 및 배포할 수 있습니다. SageMaker JumpStart 제너레이티브 AI 사용 사례에 기반 모델을 활용하는 프로세스를 간소화하고, 기반 모델을 사용할 프라이빗 모델 허브를 생성하는 동시에 거버넌스 가드레일을 적용하고 조직이 승인된 모델에만 액세스할 수 있도록 합니다. 시작하려면 기초 모델을 참조하십시오. SageMaker JumpStart SageMaker JumpStart
SageMaker HyperPod: SageMaker HyperPod 는 대규모 기계 학습 (ML) 워크로드와 FM ( state-of-the-art 기반 모델) 개발을 위한 복원력 있는 클러스터가 필요한 사용 사례를 위한 영구 클러스터 서비스입니다. AWS Trainium 또는 NVIDIA A100 및 H100 그래픽 처리 장치 (GPU) 와 같은 수천 개의 가속기로 구동되는 대규모 컴퓨팅 클러스터를 구축하고 유지 관리하는 데 수반되는 차별화되지 않은 번거로운 작업을 제거하여 이러한 모델의 개발을 가속화합니다. Slurm on과 같은 워크로드 관리자 소프트웨어를 사용할 수 있습니다. HyperPod

트레이닝의 추가 기능 SageMaker

하이퍼파라미터 조정: 이 SageMaker 기능은 모델에 대한 하이퍼파라미터 세트를 정의하고 데이터세트에서 많은 훈련 작업을 시작하는 데 도움이 됩니다. 하이퍼파라미터 값에 따라 모델 학습 성능이 달라질 수 있습니다. 이 기능은 검색하도록 설정한 하이퍼파라미터의 지정된 범위 내에서 가장 성능이 좋은 하이퍼파라미터 세트를 제공합니다.
분산 교육: NVIDIA CUDA 및 기타 기반 프레임워크로 PyTorch 구축된 FM을 사전 학습하거나 미세 조정합니다. PyTorch GPU 인스턴스를 효율적으로 활용하려면 집단 통신 작업을 제공하는 SageMaker 분산 교육 라이브러리와 인프라에 최적화된 전문가 병렬 처리 및 공유 데이터 병렬화와 같은 다양한 모델 병렬 처리 기술을 사용하십시오. AWS
관찰 기능: Training의 프로파일링 및 디버깅 기능을 사용하여 모델 SageMaker 교육 워크로드, 모델 성능 및 리소스 활용에 대한 통찰력을 얻을 수 있습니다. 자세히 알아보려면 모델 성능 디버깅 및 개선 및 계산 성능 프로파일링 및 최적화를 참조하십시오.
비용 절감 및 효율적인 인스턴스 옵션 : 인스턴스 프로비저닝 교육을 위한 컴퓨팅 비용 및 효율성을 최적화하려면 이기종 클러스터, 관리형 스팟 인스턴스 또는 관리형 웜 풀을 사용하십시오.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

모델 훈련

알고리즘 유형