고급 모델 구축 구성 - Amazon SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

고급 모델 구축 구성

Amazon SageMaker Canvas는 모델을 구축할 때 구성할 수 있는 다양한 고급 설정을 지원합니다. 다음 페이지에는 옵션 및 구성에 대한 추가 정보와 함께 모든 고급 설정이 나열되어 있습니다.

참고

다음 고급 설정은 현재 숫자, 범주형 및 시계열 예측 모델 유형에만 지원됩니다.

고급 숫자 및 범주형 예측 모델 설정

Canvas는 숫자 및 범주형 예측 모델 유형에 대해 다음과 같은 고급 설정을 지원합니다.

목표 지표

목표 지표는 Canvas가 모델을 구축하는 동안 최적화할 지표입니다. 지표를 선택하지 않으면 Canvas는 기본적으로 하나를 선택합니다. 사용 가능한 지표에 대한 설명은 섹션을 참조하세요지표 참조.

훈련 방법

Canvas는 데이터 세트 크기에 따라 훈련 방법을 자동으로 선택하거나 수동으로 선택할 수 있습니다. 다음 훈련 방법 중에서 선택할 수 있습니다.

  • 앙상블링 - AutoGluon 라이브러리를 SageMaker 활용하여 여러 기본 모델을 학습합니다. 데이터 세트에 가장 적합한 조합을 찾기 위해 앙상블 모드는 다양한 모델 및 메타 파라미터 설정으로 5~10회 시도를 실행합니다. 그런 다음 이러한 모델을 스태킹 앙상블 메서드를 사용하여 결합하여 최적의 예측 모델을 생성합니다. 테이블 형식 데이터에 대한 앙상블 모드에서 지원하는 알고리즘 목록은 다음 알고리즘 섹션을 참조하세요.

  • 하이퍼파라미터 최적화(HPO) - 데이터 세트에서 훈련 작업을 실행하는 동안 베이지안 최적화 또는 다중 충실도 최적화를 사용하여 하이퍼파라미터를 조정하여 모델의 최적 버전을 SageMaker 찾습니다. HPO 모드는 데이터 세트와 가장 관련성이 높은 알고리즘을 선택하고 모델을 튜닝할 최적의 하이퍼파라미터 범위를 선택합니다. 모델을 조정하기 위해 HPO 모드는 최대 100회 시도(기본값)를 실행하여 선택한 범위 내에서 최적의 하이퍼파라미터 설정을 찾습니다. 데이터 세트 크기가 100MB 미만인 경우 Bayesian 최적화를 SageMaker 사용합니다. 데이터 세트가 100MB보다 큰 경우 다중 충실도 최적화를 SageMaker 선택합니다.

    표 형식 데이터에 대해 HPO 모드에서 지원하는 알고리즘 목록은 다음 알고리즘 섹션을 참조하세요.

  • Auto - 데이터 세트 크기에 따라 앙상블 모드 또는 HPO 모드를 SageMaker 자동으로 선택합니다. 데이터 세트가 100MB보다 큰 경우 HPO 모드를 SageMaker 선택합니다. 그렇지 않으면 앙상블 모드를 선택합니다.

알고리즘

어셈블링 모드에서 Canvas는 다음과 같은 기계 학습 알고리즘을 지원합니다.

  • LightGBM - 그라데이션 부스팅과 함께 트리 기반 알고리즘을 사용하는 최적화된 프레임워크입니다. 이 알고리즘은 깊이가 아닌 폭이 커지고 속도에 고도로 최적화된 트리를 사용합니다.

  • CatBoost - 그라데이션 부스팅과 함께 트리 기반 알고리즘을 사용하는 프레임워크입니다. 범주형 변수를 처리하도록 최적화되었습니다.

  • XGBoost - 폭이 아닌 깊이가 커지는 그라데이션 부스팅과 함께 트리 기반 알고리즘을 사용하는 프레임워크입니다.

  • 랜덤 포레스트 - 대체물이 있는 데이터의 무작위 하위 샘플에 여러 가지 결정 트리를 사용하는 트리 기반 알고리즘입니다. 트리는 각 수준에서 최적의 노드로 분할됩니다. 각 트리의 결정을 함께 평균화하여 과적합을 방지하고 예측을 개선합니다.

  • 추가 트리 - 전체 데이터 세트에서 여러 가지 결정 트리를 사용하는 트리 기반 알고리즘입니다. 트리는 각 수준에서 무작위로 분할됩니다. 각 트리의 결정을 평균화하여 과적합을 방지하고 예측을 개선합니다. 랜덤 포레스트 알고리즘에 비해 추가 트리는 어느 정도의 무작위성을 높입니다.

  • 선형 모델 - 선형 방정식을 사용하여 관측 데이터의 두 변수 간 관계를 모델링하는 프레임워크입니다.

  • 신경망 torch - Pytorch를 사용하여 구현된 신경망 모델입니다.

  • 신경망 fast.ai - fast.ai를 사용하여 구현된 신경망 모델입니다.

HPO 모드에서 Canvas는 다음과 같은 기계 학습 알고리즘을 지원합니다.

  • XGBoost - 더 단순하고 약한 모델 세트의 추정치 앙상블을 결합하여 대상 변수를 정확하게 예측하려고 시도하는 감독 학습 알고리즘입니다.

  • 딥 러닝 알고리즘 - 다중 계층 인식기(MLP) 및 피드포워드 인공 신경망입니다. 이 알고리즘은 선형적으로 분리할 수 없는 데이터를 처리할 수 있습니다.

데이터 분할

훈련 세트(모델 구축에 사용되는 데이터 세트 부분)와 검증 세트(모델 정확도 확인에 사용되는 데이터 세트 부분) 간에 데이터 세트를 분할하는 방법을 지정하는 옵션이 있습니다. 예를 들어, 공통 분할 비율은 80% 훈련 및 20% 검증으로, 여기서 데이터의 80%는 모델을 구축하는 데 사용되고 20%는 모델 성능 측정을 위해 저장됩니다. 사용자 지정 비율을 지정하지 않으면 Canvas는 데이터 세트를 자동으로 분할합니다.

최대 후보 수

참고

이 기능은 HPO 훈련 모드에서만 사용할 수 있습니다.

Canvas가 모델을 구축하는 동안 생성하는 모델 후보의 최대 수를 지정할 수 있습니다. 가장 정확한 모델을 구축하려면 기본 후보 수인 100명을 사용하는 것이 좋습니다. 지정할 수 있는 최대 수는 250입니다. 모델 후보 수를 줄이면 모델의 정확도에 영향을 미칠 수 있습니다.

최대 작업 런타임

최대 작업 런타임 또는 Canvas가 모델을 빌드하는 데 소요하는 최대 시간을 지정할 수 있습니다. 제한 시간이 지나면 Canvas는 빌드를 중지하고 최상의 모델 후보를 선택합니다.

지정할 수 있는 최대 시간은 720시간입니다. Canvas가 모델 후보를 생성하고 모델 구축을 완료하는 데 충분한 시간을 가질 수 있도록 최대 작업 런타임을 30분 이상 유지하는 것이 좋습니다.

고급 시계열 예측 모델 설정

시계열 예측 모델의 경우 Canvas는 이전 섹션에 나열된 목표 지표를 지원합니다.

시계열 예측 모델은 다음과 같은 고급 설정도 지원합니다.

알고리즘 선택

시계열 예측 모델을 구축할 때 Canvas는 통계 및 기계 학습 알고리즘의 앙상블(또는 조합)을 사용하여 매우 정확한 시계열 예측을 제공합니다. 기본적으로 Canvas는 데이터 세트의 시계열을 기반으로 사용 가능한 모든 알고리즘의 최적의 조합을 선택합니다. 하지만 예측 모델에 사용할 알고리즘을 하나 이상 지정할 수 있습니다. 이 경우 Canvas는 선택한 알고리즘만 사용하여 최적의 블렌드를 결정합니다. 모델 훈련을 위해 어떤 알고리즘을 선택해야 할지 확실하지 않은 경우 사용 가능한 모든 알고리즘을 선택하는 것이 좋습니다.

참고

알고리즘 선택은 표준 빌드에서만 지원됩니다. 고급 설정에서 알고리즘을 선택하지 않으면 는 기본적으로 빠른 빌드를 SageMaker 실행하고 단일 트리 기반 학습 알고리즘을 사용하여 모델 후보를 훈련합니다. 빠른 빌드와 표준 빌드의 차이점에 대한 자세한 내용은 섹션을 참조하세요사용자 지정 모델 작동 방식.

Canvas는 다음과 같은 시계열 예측 알고리즘을 지원합니다.

  • Autoregressive 통합 이동 평균(ARIMA) - 통계 분석을 사용하여 데이터를 해석하고 향후 예측하는 간단한 확률 시계열 모델입니다. 이 알고리즘은 시계열이 100개 미만인 단순 데이터 세트에 유용합니다.

  • Convolutional Neural Network - Quantile Regression(CNN-QR) - 대규모 시계열 컬렉션에서 하나의 글로벌 모델을 훈련하고 분위 디코더를 사용하여 예측하는 독점적인 감독 학습 알고리즘입니다. CNN-QR은 수백 개의 시계열이 포함된 대규모 데이터 세트에서 가장 잘 작동합니다.

  • DeepAR + - 모든 시계열에서 단일 모델을 공동으로 훈련하기 위해 반복 신경망(RNNs)을 사용하여 스칼라 시계열을 예측하기 위한 독점적인 감독형 학습 알고리즘입니다. DeepAR+는 수백 개의 특성 시계열을 포함하는 대규모 데이터 세트에서 가장 잘 작동합니다.

  • 비모수적 시계열(NPTS) - 과거 관찰에서 샘플링하여 특정 시계열의 미래 가치 분포를 예측하는 확장 가능하고 확률적인 기준 예측기입니다. NPTS 는 희소 또는 간헐적 시계열로 작업할 때 유용합니다(예: 시계열의 수가 0초 이하인 개별 항목에 대한 수요 예측).

  • 지수 평활화(ETS) - 이전 관측치의 가중치가 지수적으로 감소하는 과거 관측치의 가중 평균인 예측치를 생성하는 예측 방법입니다. 알고리즘은 시계열이 100개 미만인 단순 데이터 세트와 계절성 패턴이 있는 데이터 세트에 유용합니다.

  • Prophet - 계절적 효과가 강하고 여러 계절의 과거 데이터가 있는 시계열에 가장 적합한 추가 회귀 모델입니다. 알고리즘은 한도에 근접하는 비선형 성장 추세가 있는 데이터 세트에 유용합니다.

예측 분위수

시계열 예측을 위해 는 6개의 모델 후보를 대상 시계열로 SageMaker 훈련합니다. 그런 다음 스태킹 앙상블 메서드를 사용하여 이러한 모델을 SageMaker 결합하여 지정된 목표 지표에 대한 최적의 예측 모델을 생성합니다. 각 예측 모델은 P1과 P99 사이의 분위수로 예측을 생성하여 확률적 예측을 생성합니다. 이러한 분위수는 예측 불확실성을 설명하는 데 사용됩니다. 기본적으로 예측은 0.1(p10), 0.5(p50) 및 0.9(p90)에 대해 생성됩니다. 0.01() 이상씩 증분하여 0.01(p1)~0.99(p99)의 자체 분위수를 최대 5개까지 지정하도록 선택할 수 있습니다.