쿠키 기본 설정 선택

당사는 사이트와 서비스를 제공하는 데 필요한 필수 쿠키 및 유사한 도구를 사용합니다. 고객이 사이트를 어떻게 사용하는지 파악하고 개선할 수 있도록 성능 쿠키를 사용해 익명의 통계를 수집합니다. 필수 쿠키는 비활성화할 수 없지만 '사용자 지정' 또는 ‘거부’를 클릭하여 성능 쿠키를 거부할 수 있습니다.

사용자가 동의하는 경우 AWS와 승인된 제3자도 쿠키를 사용하여 유용한 사이트 기능을 제공하고, 사용자의 기본 설정을 기억하고, 관련 광고를 비롯한 관련 콘텐츠를 표시합니다. 필수가 아닌 모든 쿠키를 수락하거나 거부하려면 ‘수락’ 또는 ‘거부’를 클릭하세요. 더 자세한 내용을 선택하려면 ‘사용자 정의’를 클릭하세요.

Amazon SageMaker 스마트 시프팅을 사용한 훈련 중 데이터 정제

포커스 모드
Amazon SageMaker 스마트 시프팅을 사용한 훈련 중 데이터 정제 - Amazon SageMaker AI

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

SageMaker 스마트 시프팅은 훈련 데이터세트의 효율성을 개선하고 총 훈련 시간과 비용을 줄이는 데 도움이 되는 SageMaker 훈련의 기능입니다.

대규모 언어 모델(LLM) 또는 비전 트랜스포머 모델과 같은 최신 딥 러닝 모델은 허용 가능한 정확도를 달성하기 위해 대규모 데이터세트가 필요한 경우가 많습니다. 예를 들어 LLM 수렴하기 위해 수조 개의 토큰 또는 페타바이트의 데이터를 필요로 하는 경우가 많습니다. 최신 모델의 크기와 함께 훈련 데이터세트의 크기가 커지면 모델 훈련의 컴퓨팅 시간과 비용이 늘어날 수 있습니다.

항상 데이터세트의 샘플은 모델 훈련 중에 학습 프로세스에 동일하게 기여하지 않습니다. 훈련 중에 프로비저닝된 컴퓨팅 리소스의 상당 부분이 모델의 전반적인 정확도에 크게 기여하지 않는 쉬운 샘플을 처리하는 데 사용될 수 있습니다. 이상적으로는 훈련 데이터세트에는 실제로 모델 융합을 개선하는 샘플만 포함됩니다. 덜 유용한 데이터를 필터링하면 훈련 시간과 컴퓨팅 비용을 줄일 수 있습니다. 그러나 덜 유용한 데이터를 식별하는 것은 어렵고 위험할 수 있습니다. 훈련 전에 정보가 부족한 샘플을 식별하는 것은 사실상 어렵고 잘못된 샘플이나 너무 많은 샘플을 제외하면 모델 정확도에 영향을 미칠 수 있습니다.

Amazon SageMaker AI를 사용하여 데이터를 스마트하게 시프팅하면 데이터 효율성을 개선하여 훈련 시간과 비용을 줄일 수 있습니다. SageMaker 스마트 시프팅 알고리즘은 훈련 작업의 데이터 로드 단계에서 각 데이터의 손실 값을 평가하고 모델에 덜 유용한 샘플을 제외합니다. 훈련에 고급 데이터를 사용하면 개선되지 않은 데이터에 대한 불필요한 순방향 및 역방향 패스를 제거하여 모델 훈련의 총 시간과 비용을 줄일 수 있습니다. 따라서 모델의 정확도에 미치는 영향은 미미하거나 없습니다.

SageMaker 스마트 시프팅은 SageMaker 훈련 딥 러닝 컨테이너(DLC)를 통해 사용할 수 있으며 PyTorch DataLoader를 통한 PyTorch 워크로드를 지원합니다. SageMaker 스마트 시프팅을 구현하려면 몇 줄의 코드 변경만 있으면 되며 기존 훈련 또는 데이터 처리 워크플로를 변경할 필요가 없습니다.

프라이버시사이트 이용 약관쿠키 기본 설정
© 2025, Amazon Web Services, Inc. 또는 계열사. All rights reserved.