기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
SageMaker 스마트 시프팅은 훈련 데이터세트의 효율성을 개선하고 총 훈련 시간과 비용을 줄이는 데 도움이 되는 SageMaker 훈련의 기능입니다.
대규모 언어 모델(LLM) 또는 비전 트랜스포머 모델과 같은 최신 딥 러닝 모델은 허용 가능한 정확도를 달성하기 위해 대규모 데이터세트가 필요한 경우가 많습니다. 예를 들어 LLM 수렴하기 위해 수조 개의 토큰 또는 페타바이트의 데이터를 필요로 하는 경우가 많습니다. 최신 모델의 크기와 함께 훈련 데이터세트의 크기가 커지면 모델 훈련의 컴퓨팅 시간과 비용이 늘어날 수 있습니다.
항상 데이터세트의 샘플은 모델 훈련 중에 학습 프로세스에 동일하게 기여하지 않습니다. 훈련 중에 프로비저닝된 컴퓨팅 리소스의 상당 부분이 모델의 전반적인 정확도에 크게 기여하지 않는 쉬운 샘플을 처리하는 데 사용될 수 있습니다. 이상적으로는 훈련 데이터세트에는 실제로 모델 융합을 개선하는 샘플만 포함됩니다. 덜 유용한 데이터를 필터링하면 훈련 시간과 컴퓨팅 비용을 줄일 수 있습니다. 그러나 덜 유용한 데이터를 식별하는 것은 어렵고 위험할 수 있습니다. 훈련 전에 정보가 부족한 샘플을 식별하는 것은 사실상 어렵고 잘못된 샘플이나 너무 많은 샘플을 제외하면 모델 정확도에 영향을 미칠 수 있습니다.
Amazon SageMaker AI를 사용하여 데이터를 스마트하게 시프팅하면 데이터 효율성을 개선하여 훈련 시간과 비용을 줄일 수 있습니다. SageMaker 스마트 시프팅 알고리즘은 훈련 작업의 데이터 로드 단계에서 각 데이터의 손실 값을 평가하고 모델에 덜 유용한 샘플을 제외합니다. 훈련에 고급 데이터를 사용하면 개선되지 않은 데이터에 대한 불필요한 순방향 및 역방향 패스를 제거하여 모델 훈련의 총 시간과 비용을 줄일 수 있습니다. 따라서 모델의 정확도에 미치는 영향은 미미하거나 없습니다.
SageMaker 스마트 시프팅은 SageMaker 훈련 딥 러닝 컨테이너(DLC)를 통해 사용할 수 있으며 PyTorch DataLoader
를 통한 PyTorch 워크로드를 지원합니다. SageMaker 스마트 시프팅을 구현하려면 몇 줄의 코드 변경만 있으면 되며 기존 훈련 또는 데이터 처리 워크플로를 변경할 필요가 없습니다.