기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
이 섹션에서는 Debugger XGBoost 훈련 보고서를 단계별로 안내합니다. 이 보고서는 출력 텐서 정규식에 따라 자동으로 집계되며 훈련 작업의 유형이 바이너리 분류, 멀티클래스 분류, 회귀 중 어디에 해당하는지를 파악합니다.
중요
이 보고서에서 도표 및 권장 사항은 정보 제공 목적으로 제공되며, 확정적이지는 않습니다. 사용자는 이러한 정보를 직접 독립적으로 평가할 책임이 있습니다.
주제
데이터세트의 실제 레이블 분포
이 히스토그램은 원본 데이터세트 내 레이블이 지정된 클래스(분류용) 또는 값(회귀용)의 분포를 보여줍니다. 데이터세트 내 왜곡은 부정확성의 원인이 될 수 있습니다. 이 시각화는 바이너리 분류, 다중 분류, 회귀 등의 모델 유형에 사용할 수 있습니다.

손실-단계 비교 그래프
이 꺾은선형 차트는 훈련 단계 전반에 걸친 훈련 데이터 및 검증 데이터의 손실 경과를 보여줍니다. 손실은 목표 함수(예: 평균제곱오차)에서 정의된 값입니다. 이 도표를 통해 모델이 과적합인지, 아니면 과소적합인지 파악할 수 있습니다. 이 섹션에서는 과적합 및 과소적합 문제를 해결하는 방법을 파악하는 데 활용할 수 있는 인사이트도 제시합니다. 이 시각화는 바이너리 분류, 다중 분류, 회귀 등의 모델 유형에 사용할 수 있습니다.

기능 중요도
기능 중요도 시각화는 3가지 유형, 즉 가중치, 증가, 적용 범위로 제공됩니다. 이 세 유형의 각각에 대한 정의는 해당 보고서에 나와 있습니다. 기능 중요도 시각화를 사용하면 훈련 데이터세트의 어떤 기능이 예측에 기여했는지를 알 수 있습니다. 기능 중요도 시각화는 바이너리 분류, 다중 분류, 회귀 등의 모델 유형에 사용할 수 있습니다.

혼동 행렬
이 시각화는 바이너리 분류 모델과 멀티클래스 분류 모델에만 적용할 수 있습니다. 정확도 하나만으로는 모델 성능을 평가하기에 부족할 수 있습니다. 의료, 사기 탐지 등 일부 사용 사례에서는 거짓 긍정 비율 및 거짓 부정 비율을 파악하는 것 역시 중요합니다. 혼동 행렬은 모델 성능을 평가하기 위한 추가 차원을 제공합니다.

혼동 행렬 평가
이 섹션에서는 모델의 정밀도, 재현율, F1 점수에 관한 미시적 지표, 거시적 지표, 가중치 지표에 대해 자세한 인사이트를 제공합니다.

각 대각선 요소의 반복 대비 정확도 비율
이 시각화는 바이너리 분류 모델과 멀티클래스 분류 모델에만 적용할 수 있습니다. 이 꺾은선형 차트는 각 클래스의 훈련 단계 전반에 걸친 혼동 행렬의 대각선 값을 나타냅니다. 이 도표는 훈련 단계 전반에 걸쳐 각 클래스의 정확도가 어떻게 발전하는지를 보여줍니다. 이 도표를 통해 성능이 저조한 클래스를 식별할 수 있습니다.

수신기 작동 특성 곡선
이 시각화는 바이너리 분류 모델에만 적용할 수 있습니다. 수신기 작동 특성 곡선은 일반적으로 바이너리 분류 모델 성능을 평가하는 데 사용됩니다. 이 곡선의 Y축은 참 긍정 비율(TPR)이고 X축은 거짓 긍정 비율(FPR)입니다. 이 도표에는 곡선하면적(AUC)의 값도 표시됩니다. AUC 값이 높을수록 분류자의 예측 가능성도 높아집니다. ROC 곡선을 사용하여 TPR과 FPR 간의 균형을 이해하고, 사용 사례에 맞는 최적의 분류 임곗값을 식별할 수도 있습니다. 분류 임곗값을 조정하여 모델의 동작을 튜닝하면 한 유형 또는 다른 유형의 오류(FP/FN)를 더 많이 줄일 수 있습니다.

마지막 저장 단계의 잔차 분포
이 시각화는 Debugger가 캡처한 마지막 단계의 잔차 분포를 보여주는 막대형 차트입니다. 이 시각화에서는 잔차 분포가 중심이 0인 정규 분포에 가까운지 여부를 확인할 수 있습니다. 잔차가 왜곡되어 있으면 기능으로 레이블을 예측하기에 부족할 수 있습니다.

반복 대비 레이블 빈당 절대 검증 오차
이 시각화는 회귀 모델에만 적용할 수 있습니다. 실제 대상 값은 10개 구간으로 분할됩니다. 이 시각화는 훈련 단계 전반에 걸쳐 각 구간의 검증 오차가 어떻게 진행되는지를 선 도표로 보여줍니다. 절대 검증 오차는 검증 과정에서 예측과 실제 사이에 발생하는 차이의 절댓값입니다. 이 시각화를 통해 성능이 저조한 구간을 식별할 수 있습니다.
