쿠키 기본 설정 선택

당사는 사이트와 서비스를 제공하는 데 필요한 필수 쿠키 및 유사한 도구를 사용합니다. 고객이 사이트를 어떻게 사용하는지 파악하고 개선할 수 있도록 성능 쿠키를 사용해 익명의 통계를 수집합니다. 필수 쿠키는 비활성화할 수 없지만 '사용자 지정' 또는 ‘거부’를 클릭하여 성능 쿠키를 거부할 수 있습니다.

사용자가 동의하는 경우 AWS와 승인된 제3자도 쿠키를 사용하여 유용한 사이트 기능을 제공하고, 사용자의 기본 설정을 기억하고, 관련 광고를 비롯한 관련 콘텐츠를 표시합니다. 필수가 아닌 모든 쿠키를 수락하거나 거부하려면 ‘수락’ 또는 ‘거부’를 클릭하세요. 더 자세한 내용을 선택하려면 ‘사용자 정의’를 클릭하세요.

Debugger XGBoost 훈련 보고서 안내서

포커스 모드
Debugger XGBoost 훈련 보고서 안내서 - Amazon SageMaker AI

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

이 섹션에서는 Debugger XGBoost 훈련 보고서를 단계별로 안내합니다. 이 보고서는 출력 텐서 정규식에 따라 자동으로 집계되며 훈련 작업의 유형이 바이너리 분류, 멀티클래스 분류, 회귀 중 어디에 해당하는지를 파악합니다.

중요

이 보고서에서 도표 및 권장 사항은 정보 제공 목적으로 제공되며, 확정적이지는 않습니다. 사용자는 이러한 정보를 직접 독립적으로 평가할 책임이 있습니다.

데이터세트의 실제 레이블 분포

이 히스토그램은 원본 데이터세트 내 레이블이 지정된 클래스(분류용) 또는 값(회귀용)의 분포를 보여줍니다. 데이터세트 내 왜곡은 부정확성의 원인이 될 수 있습니다. 이 시각화는 바이너리 분류, 다중 분류, 회귀 등의 모델 유형에 사용할 수 있습니다.

데이터세트의 실제 레이블 분포 그래프에 관한 예제.

손실-단계 비교 그래프

이 꺾은선형 차트는 훈련 단계 전반에 걸친 훈련 데이터 및 검증 데이터의 손실 경과를 보여줍니다. 손실은 목표 함수(예: 평균제곱오차)에서 정의된 값입니다. 이 도표를 통해 모델이 과적합인지, 아니면 과소적합인지 파악할 수 있습니다. 이 섹션에서는 과적합 및 과소적합 문제를 해결하는 방법을 파악하는 데 활용할 수 있는 인사이트도 제시합니다. 이 시각화는 바이너리 분류, 다중 분류, 회귀 등의 모델 유형에 사용할 수 있습니다.

손실-단계 비교 그래프 예제.

기능 중요도

기능 중요도 시각화는 3가지 유형, 즉 가중치, 증가, 적용 범위로 제공됩니다. 이 세 유형의 각각에 대한 정의는 해당 보고서에 나와 있습니다. 기능 중요도 시각화를 사용하면 훈련 데이터세트의 어떤 기능이 예측에 기여했는지를 알 수 있습니다. 기능 중요도 시각화는 바이너리 분류, 다중 분류, 회귀 등의 모델 유형에 사용할 수 있습니다.

기능 중요도 그래프 예제.

혼동 행렬

이 시각화는 바이너리 분류 모델과 멀티클래스 분류 모델에만 적용할 수 있습니다. 정확도 하나만으로는 모델 성능을 평가하기에 부족할 수 있습니다. 의료, 사기 탐지 등 일부 사용 사례에서는 거짓 긍정 비율 및 거짓 부정 비율을 파악하는 것 역시 중요합니다. 혼동 행렬은 모델 성능을 평가하기 위한 추가 차원을 제공합니다.

혼동 행렬 예제.

혼동 행렬 평가

이 섹션에서는 모델의 정밀도, 재현율, F1 점수에 관한 미시적 지표, 거시적 지표, 가중치 지표에 대해 자세한 인사이트를 제공합니다.

혼동 행렬 평가.

각 대각선 요소의 반복 대비 정확도 비율

이 시각화는 바이너리 분류 모델과 멀티클래스 분류 모델에만 적용할 수 있습니다. 이 꺾은선형 차트는 각 클래스의 훈련 단계 전반에 걸친 혼동 행렬의 대각선 값을 나타냅니다. 이 도표는 훈련 단계 전반에 걸쳐 각 클래스의 정확도가 어떻게 발전하는지를 보여줍니다. 이 도표를 통해 성능이 저조한 클래스를 식별할 수 있습니다.

각 대각선 요소의 반복 대비 정확도 비율 그래프에 관한 예제.

수신기 작동 특성 곡선

이 시각화는 바이너리 분류 모델에만 적용할 수 있습니다. 수신기 작동 특성 곡선은 일반적으로 바이너리 분류 모델 성능을 평가하는 데 사용됩니다. 이 곡선의 Y축은 참 긍정 비율(TPR)이고 X축은 거짓 긍정 비율(FPR)입니다. 이 도표에는 곡선하면적(AUC)의 값도 표시됩니다. AUC 값이 높을수록 분류자의 예측 가능성도 높아집니다. ROC 곡선을 사용하여 TPR과 FPR 간의 균형을 이해하고, 사용 사례에 맞는 최적의 분류 임곗값을 식별할 수도 있습니다. 분류 임곗값을 조정하여 모델의 동작을 튜닝하면 한 유형 또는 다른 유형의 오류(FP/FN)를 더 많이 줄일 수 있습니다.

수신기 작동 특성 곡선 그래프 예제.

마지막 저장 단계의 잔차 분포

이 시각화는 Debugger가 캡처한 마지막 단계의 잔차 분포를 보여주는 막대형 차트입니다. 이 시각화에서는 잔차 분포가 중심이 0인 정규 분포에 가까운지 여부를 확인할 수 있습니다. 잔차가 왜곡되어 있으면 기능으로 레이블을 예측하기에 부족할 수 있습니다.

마지막 저장 단계의 잔차 분포 그래프에 관한 예제.

반복 대비 레이블 빈당 절대 검증 오차

이 시각화는 회귀 모델에만 적용할 수 있습니다. 실제 대상 값은 10개 구간으로 분할됩니다. 이 시각화는 훈련 단계 전반에 걸쳐 각 구간의 검증 오차가 어떻게 진행되는지를 선 도표로 보여줍니다. 절대 검증 오차는 검증 과정에서 예측과 실제 사이에 발생하는 차이의 절댓값입니다. 이 시각화를 통해 성능이 저조한 구간을 식별할 수 있습니다.

반복 대비 레이블 빈당 절대 검증 오차 그래프에 관한 예제.
프라이버시사이트 이용 약관쿠키 기본 설정
© 2025, Amazon Web Services, Inc. 또는 계열사. All rights reserved.