AutoGluon- 테이블 하이퍼파라미터 - Amazon SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

AutoGluon- 테이블 하이퍼파라미터

다음 표에는 Amazon SageMaker AutoGluon-Tabular 알고리즘에 필요하거나 가장 일반적으로 사용되는 하이퍼파라미터의 하위 집합이 포함되어 있습니다. 이들은 사용자가 데이터를 통해 모델 파라미터를 쉽게 예측하기 위해 설정하는 파라미터입니다. SageMaker AutoGluon-Tabular 알고리즘은 오픈 소스 -AutoGluonTabular 패키지를 구현한 것입니다.

참고

기본 하이퍼파라미터는 AutoGluon- 테이블 형식 샘플 노트북의 예제 데이터 세트를 기준으로 정해집니다.

기본적으로 SageMaker AutoGluon-Tabular 알고리즘은 분류 문제의 유형에 따라 평가 지표를 자동으로 선택합니다. 이 알고리즘은 데이터의 레이블 수를 기반으로 분류 문제 유형을 탐지합니다. 회귀 문제의 경우 평가 지표는 평균 제곱근 오차입니다. 바이너리 분류 문제의 경우 평가 지표는 수신기 작동 특성 곡선 아래 영역입니다(AUC). 멀티클래스 분류 문제의 경우 평가 지표는 정확도입니다. eval_metric 하이퍼파라미터를 사용하여 기본 평가 지표를 변경할 수 있습니다. 설명, 유효한 값 및 기본값을 포함하여 AutoGluon-Tabular 하이퍼파라미터에 대한 자세한 내용은 다음 표를 참조하세요.

파라미터 이름 설명
eval_metric

검증 데이터에 대한 평가 지표. eval_metric을 디폴트 "auto" 값으로 설정하면 알고리즘이 분류 문제의 유형에 따라 평가 지표를 자동으로 선택합니다.

  • 회귀에 대한 "root_mean_squared_error"

  • 바이너리 분류에 대한 "roc_auc"

  • 멀티클래스 분류에 대한 "accuracy"

유효한 값: 문자열, 유효한 값은 AutoGluon 설명서를 참조하세요.

기본값: "auto".

presets

다양한 인수에 대한 사전 설정 구성 목록은 fit()에서 확인할 수 있습니다.

  • "best_quality": 높은 예측 정확도, 느린 추론 시간, 높은 디스크 사용량

  • "high_quality": 높은 예측 정확도와 빠른 추론

  • "good_quality": 우수한 예측 정확도와 매우 빠른 추론

  • "medium_quality": 중간 수준의 예측 정확도, 매우 빠른 추론 및 훈련 시간

  • "optimize_for_deployment": 사용하지 않는 모델 삭제 및 훈련 아티팩트 제거

  • "interpretable": imodels 패키지의 해석 가능한 규칙 기반 모델에만 적합

자세한 내용은 AutoGluon 예측기 섹션을 참조하세요.

유효한 값: 문자열, 다음 중 하나: ("best_quality", "high_quality", good_quality", "medium_quality", "optimize_for_deployment" 또는 or "interpretable").

기본값: "medium_quality".

auto_stack

AutoGluon 가 예측 정확도를 높이기 위해 배깅 및 다중 계층 스택 앙상블링을 자동으로 활용하는지 여부. 예측 정확도를 극대화하기 위해 더 긴 훈련 시간을 감수할 의향이 있으면 auto_stack"True"로 설정하세요. 이렇게 하면 데이터 세트 속성에 따라 num_bag_foldsnum_stack_levels 인수가 자동으로 설정됩니다.

유효한 값: 문자열: "True" 또는 "False"

기본값: "False".

num_bag_folds

모델 배깅에 사용되는 폴드 수. num_bag_foldsk와 같으면 훈련 시간이 대략 k배 증가합니다. 배깅을 비활성화하려면 num_bag_folds를 0으로 설정합니다. 이 기능은 기본적으로 비활성화되어 있지만 예측 성능을 극대화하려면 5에서 10 사이의 값을 사용하는 것이 좋습니다. num_bag_folds를 증가시키면 치우침은 낮은 모델이 생성되지만 과적합이 발생하기 쉽습니다. 이 파라미터의 값이 1이면 유효하지 않으므로 ValueError가 발생합니다. 값이 10보다 크면 수익이 감소할 수 있으며 과적합으로 인해 전체 결과에 해를 끼칠 수도 있습니다. 예측치를 더 높이려면 num_bag_folds 값을 늘리지 말고 num_bag_sets 값을 높이세요.

유효한 값: 문자열, "0""10"과 그 사이의 모든 정수.

기본값: "0".

num_bag_sets

수행할 kfold 배깅 반복 횟수(값은 1 이상이어야 함) 배깅 중에 훈련된 총 모델 수는 num_bag_folds * num_bag_sets와 같습니다. time_limit이 지정되지 않은 경우 이 파라미터의 기본값은 1입니다. num_bag_folds를 지정하지 않으면 이 파라미터를 사용할 수 없습니다. 값이 1보다 크면 예측 성능이 뛰어나며, 특히 작은 문제에서 스택이 활성화된 경우 더욱 그렇습니다.

유효한 값: 정수, 범위: [1, 20].

기본값: 1.

num_stack_levels

스택 앙상블에서 사용할 스태킹 레벨 수. 모델 훈련 시간을 대략 num_stack_levels+1배 늘립니다. 스택 앙상블을 비활성화하려면 이 파라미터를 0으로 설정합니다. 이 파라미터는 기본적으로 비활성화되지만 예측 성능을 극대화하려면 1에서 3 사이의 값을 사용하는 것이 좋습니다. 과적합과 ValueError를 방지하려면 num_bag_folds는 2보다 크거나 같아야 합니다.

유효한 값: 부동 소수점, 범위: [0, 3].

기본값: 0.

refit_full

정상적인 훈련 절차 후에 모든 데이터(훈련 및 검증)에 대해 모든 모델을 재훈련할지 여부. 자세한 내용은 AutoGluon 예측기 섹션을 참조하세요.

유효한 값: 문자열: "True" 또는 "False"

기본값: "False".

set_best_to_refit_full

예측자가 예측에 사용하는 기본 모델을 변경할지 여부. set_best_to_refit_full"True"로 설정하면 기본 모델이 재구성(refit_full에 의해 활성화) 결과 가장 높은 검증 점수를 보인 모델로 변경됩니다. refit_full이 설정된 경우에만 유효합니다.

유효한 값: 문자열: "True" 또는 "False"

기본값: "False".

save_space

새 데이터 예측에 필요하지 않은 보조 모델 파일을 삭제하여 예측자의 메모리 및 디스크 크기를 줄일지 여부. 이는 추론 정확도에는 영향을 미치지 않습니다. 훈련된 모델을 예측에 사용하는 것이 유일한 목표라면 save_space"True"로 설정하는 것이 좋습니다. save_space"True"로 설정하면 특정 고급 기능을 더 이상 사용하지 못할 수 있습니다. 자세한 내용은 predictor.save_space() 설명서를 참조하세요.

유효한 값: 문자열: "True" 또는 "False"

기본값: "False".

verbosity

인쇄 메시지의 상세 내용. verbosity 레벨의 범위는 0~4까지입니다. 레벨이 높을수록 인쇄 명세서가 더 상세해집니다. 0verbosity는 경고를 표시하지 않습니다.

유효한 값: 정수, 다음 중 하나: (0, 1, 2, 3 또는 4).

기본값: 2.