고급 모델 빌드 구성

Amazon SageMaker Canvas는 모델을 빌드할 때 구성할 수 있는 다양한 고급 설정을 지원합니다. 다음 페이지에는 옵션 및 구성에 대한 추가 정보와 함께 모든 고급 설정이 나열되어 있습니다.

참고

다음 고급 설정은 현재 숫자, 범주형 및 시계열 예측 모델 유형에만 지원됩니다.

숫자 및 범주형 예측 모델 고급 설정

Canvas는 숫자 및 범주형 예측 모델 유형에 대해 다음과 같은 고급 설정을 지원합니다.

목표 지표

목표 지표는 모델을 빌드하는 동안 Canvas에서 최적화하려는 지표입니다. 지표를 선택하지 않으면 Canvas는 기본적으로 하나를 선택합니다. 사용 가능한 지표에 대한 자세한 설명은 지표 참조 섹션을 참조하세요.

훈련 방법

Canvas는 데이터세트 크기를 기반으로 훈련 방법을 자동으로 선택하거나 수동으로 선택할 수 있습니다. 다음 훈련 방법 중에서 선택할 수 있습니다.

앙상블링 - SageMaker AI는 AutoGluon 라이브러리를 활용하여 여러 기본 모델을 훈련합니다. 데이터세트에 가장 적합한 조합을 찾기 위해 앙상블 모드에서는 다양한 모델 및 메타 파라미터 설정을 사용하여 5~10회의 시험을 실행합니다. 이러한 모델은 적층 앙상블 방법으로 결합되어 최적의 예측 모델을 만듭니다. 테이블 형식 데이터에 대한 앙상블 모드에서 지원하는 알고리즘 목록은 다음 알고리즘 섹션을 참조하세요.
하이퍼파라미터 최적화(HPO) - SageMaker AI는 데이터 세트에서 훈련 작업을 실행하는 동안 베이지안 최적화 또는 다중 충실도 최적화를 사용하여 하이퍼파라미터를 조정하여 모델의 최적 버전을 찾습니다. HPO 모드는 데이터세트와 가장 관련이 있는 알고리즘을 선택하고 모델을 조정하는 데 가장 적합한 하이퍼파라미터 범위를 선택합니다. 모델을 조정하기 위해 HPO 모드에서는 최대 100회의 시도(기본값)를 실행하여 선택한 범위 내에서 최적의 하이퍼파라미터 설정을 찾습니다. 데이터 세트 크기가 100MB 미만인 경우 SageMaker AI는 베이지안 최적화를 사용합니다. SageMaker AI는 데이터 세트가 100MB보다 큰 경우 다중 충실도 최적화를 선택합니다.

테이블 형식 데이터에 대한 HPO 모드에서 지원하는 알고리즘 목록은 다음 알고리즘 섹션을 참조하세요.
자동 - SageMaker AI는 데이터 세트 크기에 따라 앙상블 모드 또는 HPO 모드를 자동으로 선택합니다. 데이터 세트가 100MB보다 큰 경우 SageMaker AI는 HPO 모드를 선택합니다. 그렇지 않으면 앙상블 모드를 선택합니다.

알고리즘

앙상블링 모드에서 Canvas는 다음과 같은 기계 학습 알고리즘을 지원합니다.

LightGBM - 그라디언트 부스팅과 함께 트리 기반 알고리즘을 사용하는 최적의 프레임워크입니다. 이 알고리즘은 깊이가 아닌 폭이 커지고 속도에 고도로 최적화된 트리를 사용합니다.
CatBoost - 그라디언트 부스팅과 함께 트리 기반 알고리즘을 사용하는 프레임워크입니다. 범주형 변수를 처리하도록 최적화되었습니다.
XGBoost - 폭이 아닌 깊이가 증가하는 그라디언트 부스팅과 함께 트리 기반 알고리즘을 사용하는 프레임워크입니다.
랜덤 포레스트 - 대체물이 있는 데이터의 무작위 하위 샘플에 여러 가지 결정 트리를 사용하는 트리 기반 알고리즘입니다. 트리는 각 수준에서 최적의 노드로 분할됩니다. 각 트리의 결정을 함께 평균화하여 과적합을 방지하고 예측을 개선합니다.
추가 트리 - 전체 데이터세트에서 여러 가지 결정 트리를 사용하는 트리 기반 알고리즘입니다. 트리는 각 수준에서 무작위로 분할됩니다. 각 트리의 결정을 평균화하여 과적합을 방지하고 예측을 개선합니다. 랜덤 포레스트 알고리즘에 비해 추가 트리는 어느 정도의 무작위성을 높입니다.
선형 모델 - 선형 방정식을 사용하여 관측 데이터의 두 변수 간 관계를 모델링하는 프레임워크입니다.
신경망 torch - Pytorch를 사용하여 구현된 신경망 모델입니다.
신경망 fast.ai - fast.ai를 사용하여 구현된 신경망 모델입니다.

HPO 모드에서 Canvas는 다음과 같은 기계 학습 알고리즘을 지원합니다.

XGBoost – 그라디언트 부스팅은 더욱 단순하고 약한 모델 세트의 추정치의 앙상블을 결합하여 대상 변수를 정확하게 예측하려 시도하는 지도 학습 알고리즘입니다.
딥 러닝 알고리즘 - 다중 계층 퍼셉트론(MLP) 및 피드포워드 인공 신경망입니다. 이 알고리즘은 선형적으로 분리할 수 없는 데이터를 처리할 수 있습니다.

데이터 분할

훈련 세트(데이터세트에서 모델 빌드에 사용되는 부분)와 검증 세트(데이터세트에서 모델 정확도 확인에 사용되는 부분) 간에 데이터세트를 분할하는 방법을 지정하는 옵션이 있습니다. 예를 들어, 일반적인 분할 비율은 훈련 80%와 검증 20%로, 데이터의 80%는 모델을 빌드하는 데 사용되고 20%는 모델 성능 측정을 위해 저장됩니다. 사용자 지정 비율을 지정하지 않으면 Canvas는 데이터세트를 자동으로 분할합니다.

최대 후보

참고

이 기능은 HPO 훈련 모드에서만 사용할 수 있습니다.

Canvas가 모델을 빌드하는 동안 생성하는 모델 후보의 최대 개수를 지정할 수 있습니다. 가장 정확한 모델을 빌드하려면 기본 후보 개수인 100개를 사용하는 것이 좋습니다. 지정할 수 있는 개수는 최대 250개입니다. 모델 후보 개수를 줄이면 모델의 정확도에 영향을 미칠 수 있습니다.

최대 작업 런타임

최대 작업 런타임, 즉 Canvas가 모델을 빌드하는 데 소요하는 최대 시간을 지정할 수 있습니다. 제한 시간이 지나면 Canvas는 빌드를 중지하고 최상의 모델 후보를 선택합니다.

지정 가능한 최대 시간은 720시간입니다. Canvas가 모델 후보를 생성하고 모델 빌드를 완료하는 데 충분한 시간을 가질 수 있도록 최대 작업 런타임을 30분 이상으로 유지하는 것이 좋습니다.

고급 시계열 예측 모델 설정

시계열 예측 모델의 경우 Canvas는 이전 섹션에 나열된 목표 지표를 지원합니다.

시계열 예측 모델은 다음과 같은 고급 설정도 지원합니다.

알고리즘 선택

시계열 예측 모델을 빌드할 때 Canvas는 통계 및 기계 학습 알고리즘의 앙상블(즉, 조합)을 사용하여 매우 정확한 시계열 예측을 제공합니다. 기본적으로 Canvas는 데이터세트의 시계열을 기반으로 사용 가능한 모든 알고리즘의 최적의 조합을 선택합니다. 하지만 예측 모델에 사용할 알고리즘을 하나 이상 지정할 수 있습니다. 이 경우 Canvas는 선택한 알고리즘만 사용하여 최적의 혼합을 결정합니다. 모델 훈련을 위해 어떤 알고리즘을 선택해야 할지 확실하지 않은 경우 사용 가능한 모든 알고리즘을 선택하는 것이 좋습니다.

참고

알고리즘 선택은 표준 빌드에서만 지원됩니다. 고급 설정에서 알고리즘을 선택하지 않으면 기본적으로 SageMaker AI는 빠른 빌드를 실행하고 단일 트리 기반 학습 알고리즘을 사용하여 모델 후보를 훈련합니다. 빠른 빌드와 표준 빌드의 차이점에 대한 자세한 내용은 사용자 지정 모델 작동 방식 섹션을 참조하세요.

Canvas는 다음과 같은 시계열 예측 알고리즘을 지원합니다.

Autoregressive Integrated Moving Average(ARIMA) - 통계 분석을 사용하여 데이터를 해석하고 미래를 예측하는 간단한 확률 시계열 모델입니다. 이 알고리즘은 시계열이 100개 미만인 단순 데이터세트에 유용합니다.
Convolutional Neural Network - Quantile Regression(CNN-QR) - 대규모 시계열 컬렉션에서 하나의 글로벌 모델을 훈련하고 분위 디코더를 사용하여 예측하는 독점적인 지도 학습 알고리즘입니다. CNN–QR은 수백 개의 시계열을 포함하는 대규모 데이터세트에서 가장 잘 작동합니다.
DeepAR+ – 전체 시계열에서 단일 모델을 공동으로 훈련하기 위해 순환 신경망(RNN)을 사용하여 스칼라 시계열을 예측하기 위한 독점적인 지도 학습 알고리즘입니다. DeepAR+는 수백 개의 특성 시계열을 포함하는 대규모 데이터세트에서 가장 잘 작동합니다.
Non-Parametric Time Series(NPTS) - 과거 관찰에서 샘플링하여 특정 시계열의 미래 가치 분포를 예측하는 확장 가능하고 확률적인 기준 예측기입니다. NPTS는 희박하거나 간헐적인 시계열로 작업할 때 유용합니다(예: 시계열의 수가 0초 이하인 개별 항목에 대한 수요 예측).
Exponential Smoothing(ETS) - 이전 관찰의 가중치가 기하급수적으로 감소하는 과거 관찰의 가중 평균인 예측을 생성하는 예측 방법입니다. 이 알고리즘은 시계열이 100개 미만인 단순 데이터세트와 계절성 패턴이 있는 데이터세트에 유용합니다.
Prophet - 강력한 계절성 효과와 여러 계절의 과거 데이터가 있는 시계열에 가장 적합한 추가 회귀 모델입니다. 이 알고리즘은 한도에 근접하는 비선형 성장 추세가 있는 데이터세트에 유용합니다.

예측 분위수

시계열 예측을 위해 SageMaker AI는 대상 시계열로 6명의 모델 후보를 훈련합니다. 그런 다음 SageMaker AI는 스택 앙상블 방법을 사용하여 이러한 모델을 결합하여 지정된 목표 지표에 대한 최적의 예측 모델을 생성합니다. 각 예측 모델은 P1과 P99 사이의 분위수로 예측치를 생성하여 확률적 예측을 생성합니다. 이러한 분위수는 예측 불확실성을 설명하는 데 사용됩니다. 기본적으로 0.1(p10), 0.5(p50) 및 0.9(p90)에 대한 예측이 생성됩니다. 0.01(p1)부터 0.99(p99)까지 0.01 이상의 증분으로 최대 5개의 자체 분위수를 지정할 수 있습니다.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

모델 빌드

이미지 데이터세트 편집