디버거 XGBoost 훈련 보고서 연습 - Amazon SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

디버거 XGBoost 훈련 보고서 연습

이 섹션에서는 Debugger XGBoost 훈련 보고서를 안내합니다. 이 보고서는 출력 텐서 정규식에 따라 자동으로 집계되며 훈련 작업의 유형이 바이너리 분류, 멀티클래스 분류, 회귀 중 어디에 해당하는지를 파악합니다.

중요

이 보고서에서 도표 및 권장 사항은 정보 제공 목적으로 제공되며, 확정적이지는 않습니다. 사용자는 이러한 정보를 직접 독립적으로 평가할 책임이 있습니다.

데이터 세트의 실제 레이블 배포

이 히스토그램은 원본 데이터 세트 내 레이블이 지정된 클래스(분류용) 또는 값(회귀용)의 분포를 보여줍니다. 데이터 세트 내 왜곡은 부정확성의 원인이 될 수 있습니다. 이 시각화는 바이너리 분류, 다중 분류, 회귀 등의 모델 유형에 사용할 수 있습니다.

데이터 세트의 실제 레이블 분포 그래프에 관한 예제.

손실 대 단계 그래프

이 꺾은선형 차트는 훈련 단계 전반에 걸친 훈련 데이터 및 검증 데이터의 손실 경과를 보여줍니다. 손실은 목표 함수(예: 평균제곱오차)에서 정의된 값입니다. 이 도표를 통해 모델이 과적합인지, 아니면 과소적합인지 파악할 수 있습니다. 이 섹션에서는 과적합 및 과소적합 문제를 해결하는 방법을 파악하는 데 활용할 수 있는 인사이트도 제시합니다. 이 시각화는 바이너리 분류, 다중 분류, 회귀 등의 모델 유형에 사용할 수 있습니다.

손실-단계 비교 그래프 예제.

특성 중요도

기능 중요도 시각화는 3가지 유형, 즉 가중치, 증가, 적용 범위로 제공됩니다. 이 세 유형의 각각에 대한 정의는 해당 보고서에 나와 있습니다. 기능 중요도 시각화를 사용하면 훈련 데이터 세트의 어떤 기능이 예측에 기여했는지를 알 수 있습니다. 기능 중요도 시각화는 바이너리 분류, 다중 분류, 회귀 등의 모델 유형에 사용할 수 있습니다.

기능 중요도 그래프 예제.

혼동 행렬

이 시각화는 바이너리 분류 모델과 멀티클래스 분류 모델에만 적용할 수 있습니다. 정확도 하나만으로는 모델 성능을 평가하기에 부족할 수 있습니다. 의료, 사기 탐지 등 일부 사용 사례에서는 거짓 긍정 비율 및 거짓 부정 비율을 파악하는 것 역시 중요합니다. 혼동 행렬은 모델 성능을 평가하기 위한 추가 차원을 제공합니다.

혼동 행렬 예제.

혼동 행렬 평가

이 섹션에서는 모델의 정밀도, 재현율, F1 점수에 관한 미시적 지표, 거시적 지표, 가중치 지표에 대해 자세한 인사이트를 제공합니다.

혼동 행렬 평가.

반복 시 각 대각선 요소의 정확도

이 시각화는 바이너리 분류 모델과 멀티클래스 분류 모델에만 적용할 수 있습니다. 이 꺾은선형 차트는 각 클래스의 훈련 단계 전반에 걸친 혼동 행렬의 대각선 값을 나타냅니다. 이 도표는 훈련 단계 전반에 걸쳐 각 클래스의 정확도가 어떻게 발전하는지를 보여줍니다. 이 도표를 통해 성능이 저조한 클래스를 식별할 수 있습니다.

각 대각선 요소의 반복 대비 정확도 비율 그래프에 관한 예제.

수신기 작동 특성 곡선

이 시각화는 바이너리 분류 모델에만 적용할 수 있습니다. 수신기 작동 특성 곡선은 일반적으로 바이너리 분류 모델 성능을 평가하는 데 사용됩니다. 곡선의 y축은 True Positive Rate(TPF)이고 x축은 false positive rate()입니다FPR. 플롯에는 곡선 아래 영역의 값도 표시됩니다(AUC). AUC 값이 높을수록 분류자를 더 예측할 수 있습니다. 또한 ROC곡선을 사용하여 TPR FPR와 간의 균형을 이해하고 사용 사례에 대한 최적의 분류 임계값을 식별할 수 있습니다. 분류 임곗값을 조정하여 모델의 동작을 튜닝하면 한 유형 또는 다른 유형의 오류(FP/FN)를 더 많이 줄일 수 있습니다.

수신기 작동 특성 곡선 그래프 예제.

마지막으로 저장된 단계의 잔차 분포

이 시각화는 Debugger가 캡처한 마지막 단계의 잔차 분포를 보여주는 막대형 차트입니다. 이 시각화에서는 잔차 분포가 중심이 0인 정규 분포에 가까운지 여부를 확인할 수 있습니다. 잔차가 왜곡되어 있으면 기능으로 레이블을 예측하기에 부족할 수 있습니다.

마지막 저장 단계의 잔차 분포 그래프에 관한 예제.

반복을 통한 레이블 bin당 절대 검증 오류

이 시각화는 회귀 모델에만 적용할 수 있습니다. 실제 대상 값은 10개 구간으로 분할됩니다. 이 시각화는 훈련 단계 전반에 걸쳐 각 구간의 검증 오차가 어떻게 진행되는지를 선 도표로 보여줍니다. 절대 검증 오차는 검증 과정에서 예측과 실제 사이에 발생하는 차이의 절댓값입니다. 이 시각화를 통해 성능이 저조한 구간을 식별할 수 있습니다.

반복 대비 레이블 빈당 절대 검증 오차 그래프에 관한 예제.