기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
Autopilot 모델 성능 보고서 보기
Amazon SageMaker 모델 품질 보고서(성과 보고서라고도 함)는 AutoML 작업에서 생성된 최상의 모델 후보에 대한 인사이트와 품질 정보를 제공합니다. 여기에는 작업 세부 정보, 모델 문제 유형, 목표 함수 및 문제 유형과 관련된 정보 및 기타 정보가 포함됩니다. 이 가이드는 Amazon SageMaker Autopilot 성능 지표를 그래픽으로 보거나 지표를 JSON 파일의 원시 데이터로 보는 방법을 보여줍니다.
예를 들어, 분류 문제의 모델 품질 보고서에는 다음이 포함됩니다.
-
혼동 행렬
-
수신기 작동 특성 곡선 아래 영역(AUC)
-
False Positive와 False Negative를 이해하기 위한 정보
-
True Positive와 False Positive의 절충
-
정밀도와 재현율의 절충
또한 Autopilot은 모든 후보 모델에 대한 성능 지표를 제공합니다. 이러한 지표는 모든 훈련 데이터를 사용하여 계산되며 모델 성능을 추정하는 데 사용됩니다. 주요 작업 영역에는 기본적으로 이러한 지표가 포함됩니다. 지표 유형은 해결해야 하는 문제 유형에 따라 결정됩니다.
Autopilot에서 지원하는 사용 가능한 지표 목록은 Amazon SageMaker API 참조 설명서를 참조하세요.
관련 지표를 기준으로 모델 후보를 정렬하면 비즈니스 요구 사항에 맞는 모델을 선택하고 배포하는 데 도움이 됩니다. 이러한 지표에 대한 정의는 Autopilot 후보 지표 주제를 참조하세요.
Autopilot 작업의 성능 보고서를 보려면 다음 단계를 따르세요.
-
왼쪽 탐색 창에서 홈 아이콘( )을 선택하여 최상위 Amazon SageMaker Studio Classic 탐색 메뉴를 봅니다.
-
기본 작업 영역에서 AutoML 카드를 선택합니다. 그러면 새 Autopilot 탭이 열립니다.
-
이름 섹션에서 검사하려는 세부 정보가 있는 Autopilot 작업을 선택합니다. 그러면 새 Autopilot 작업 탭이 열립니다.
-
Autopilot 작업 패널에는 모델 이름 아래에 각 모델의 목표 지표를 포함한 지표 값이 나열됩니다. 최적 모델은 모델 이름 아래 목록 상단에 나열되며 모델 탭에 강조 표시됩니다.
-
모델 세부 정보를 검토하려면 관심 있는 모델을 선택하고 모델 세부 정보 보기를 선택합니다. 그러면 새 모델 세부 정보 탭이 열립니다.
-
-
설명 가능성과 아티팩트 탭 사이에 있는 성능 탭을 선택합니다.
-
탭의 상단 오른쪽에 있는 성능 보고서 다운로드 버튼의 아래쪽 화살표를 선택합니다.
-
아래쪽 화살표는 Autopilot 성능 지표를 볼 수 있는 두 가지 옵션을 제공합니다.
-
성능 보고서의 PDF를 다운로드하여 지표를 그래픽으로 볼 수 있습니다.
-
지표를 원시 데이터로 보고 JSON 파일로 다운로드할 수 있습니다.
-
-
SageMaker Studio Classic에서 AutoML 작업을 생성하고 실행하는 방법에 대한 지침은 섹션을 참조하세요AutoML을 사용하여 테이블 형식 데이터에 대한 회귀 또는 분류 작업 생성 API.
성능 보고서에는 다음 두 섹션이 있습니다. 첫 번째에는 모델을 생성한 Autopilot 작업에 대한 세부 정보가 포함되어 있습니다. 두 번째 섹션에는 모델 품질 보고서가 포함되어 있습니다.
Autopilot 작업 세부 정보
보고서의 첫 번째 섹션에서는 모델을 생성한 Autopilot 작업에 대한 몇 가지 일반적인 정보를 제공합니다. 이러한 작업 세부 정보에는 다음 정보가 포함되어 있습니다.
-
Autopilot 후보 이름
-
Autopilot 작업 이름
-
문제 유형
-
목표 지표
-
최적화 방향
모델 품질 보고서
모델 품질 정보는 Autopilot 모델 인사이트를 통해 생성됩니다. 생성되는 보고서 내용은 보고서에서 다루는 문제 유형(회귀, 바이너리 분류 또는 멀티클래스 분류)에 따라 달라집니다. 보고서는 평가 데이터 세트에 포함된 행 수와 평가가 발생한 시간을 지정합니다.
지표 테이블
모델 품질 보고서의 첫 번째 부분에는 지표 테이블이 포함되어 있습니다. 이는 모델이 해결한 문제 유형에 적합합니다.
다음 이미지는 회귀 문제에 대해 Autopilot으로 생성한 지표 테이블의 예제입니다. 지표 이름, 값 및 표준 편차를 보여줍니다.
다음 이미지는 멀티클래스 분류 문제에 대해 Autopilot으로 생성한 지표 테이블의 예제입니다. 지표 이름, 값 및 표준 편차를 보여줍니다.
그래픽 모델 성능 정보
모델 품질 보고서의 두 번째 부분에는 모델 성능을 평가하는 데 도움이 되는 그래픽 정보가 포함되어 있습니다. 이 섹션의 내용은 모델링에 사용된 문제 유형에 따라 달라집니다.
수신기 작동 특성 곡선 아래 영역
수신기 작동 특성 곡선 아래 영역은 True Positive와 False Positive 비율 간의 균형을 나타냅니다. 이는 바이너리 분류 모델에 사용되는 업계 표준 정확도 지표입니다. AUC (곡선 아래 영역)는 부정적인 예와 비교하여 긍정적인 예에 대해 더 높은 점수를 예측하는 능력을 측정합니다. AUC 지표는 가능한 모든 분류 임계값에서 모델 성능의 집계된 측정값을 제공합니다.
지표는 AUC 0~1의 십진수 값을 반환합니다. AUC 1에 가까운 값은 기계 학습 모델이 매우 정확함을 나타냅니다. 값이 0.5에 가까우면 모델 성능이 무작위로 추측하는 것보다 낫지 않다는 것을 나타냅니다. AUC 0에 가까운 값은 모델이 올바른 패턴을 학습했지만 가능한 한 부정확한 예측을 하고 있음을 나타냅니다. 값이 0에 가까우면 데이터에 문제가 있음을 알 수 있습니다. AUC 지표에 대한 자세한 내용은 Wikipedia의 수신기 작동 특성
다음은 바이너리 분류 모델로 예측한 결과를 평가하기 위한 수신기 작동 특성 곡선 그래프 아래 영역의 예제입니다. 점선은 no-better-than-random 추측을 분류하는 모델이 0.5AUC점으로 점수를 매길 수 있는 수신기 작동 특성 곡선 아래의 영역을 나타냅니다. 더 정확한 분류 모델의 곡선은 True Positive 비율이 False positive 비율을 초과하는 이 무작위 기준 위에 위치합니다. 바이너리 분류 모델의 성능을 나타내는 수신기 작동 특성 곡선 아래 영역은 두꺼운 실선으로 표시됩니다.
위양성률(FPR) 및 참양성률(TPR)의 그래프 구성 요소에 대한 요약은 다음과 같이 정의됩니다.
-
올바른 예측
-
참 양수(TP): 예측 값은 1이고 참 값은 1입니다.
-
참 음수(TN): 예측 값은 0이고 참 값은 0입니다.
-
-
잘못된 예측
-
False positive(FP): 예측 값은 1이지만 true 값은 0입니다.
-
거짓 음수(FN): 예측 값은 0이지만 참 값은 1입니다.
-
위양성률(FPR)은 FP와 TN의 합계에 대해 양수(FP)로 잘못 예측된 참 음성(TN)의 비율을 측정합니다. 범위는 0~1입니다. 값이 작을수록 예측 정확도가 더 높습니다.
-
FPR = FP/(FP+TN)
참 긍정률(TPR)은 TP와 거짓 음수(FN)의 합계에 대해 긍정(TP)으로 올바르게 예측된 분획 참 긍정을 측정합니다. 범위는 0~1입니다. 값이 클수록 예측 정확도가 더 높습니다.
-
TPR = TP/(TP+FN)
혼동 행렬
혼동 행렬은 다양한 문제에 대한 바이너리 및 멀티클래스 분류에 대한 모델의 예측 정확도를 시각화하는 방법을 제공합니다. 모델 품질 보고서의 혼동 행렬에는 다음이 포함됩니다.
-
실제 레이블에 대한 정확한 예측과 잘못된 예측의 수와 백분율
-
왼쪽 상단에서 오른쪽 아래 모서리까지의 대각선 상의 정확한 예측 수 및 백분율
-
상단 오른쪽에서 왼쪽 아래 모서리까지의 대각선 상의 부정확한 예측의 수와 백분율
혼동 행렬의 부정확한 예측은 혼동 값입니다.
다음 다이어그램은 바이너리 분류 문제에 대한 혼동 행렬의 예를 보여줍니다. 여기에는 다음 정보가 포함됩니다.
-
세로축은 참 및 거짓 실제 레이블을 포함하는 두 행으로 구분됩니다.
-
가로 축은 모델에서 예측한 참 및 거짓 레이블을 포함하는 두 개의 열로 나뉩니다.
-
색상 막대는 많은 수의 샘플에 어두운 색조를 할당하여 각 범주에서 분류된 값의 수를 시각적으로 나타냅니다.
이 예제에서 모델은 실제 2817개의 잘못된 값을 정확하게 예측하고 353개의 실제 참값을 정확하게 예측했습니다. 이 모델은 130개의 실제 참값을 거짓으로, 33개의 실제 거짓값을 참으로 잘못 예측했습니다. 색조 차이는 데이터 세트가 균형을 이루지 못했다는 것을 나타냅니다. 불균형은 실제 참 레이블보다 실제 거짓 레이블이 더 많기 때문입니다.
다음 다이어그램은 멀티클래스 분류 문제에 대한 혼동 행렬의 예를 보여줍니다. 모델 품질 보고서의 혼동 행렬에는 다음이 포함됩니다.
-
세로축은 서로 다른 세 개의 실제 레이블을 포함하는 세 개의 행으로 나뉩니다.
-
가로 축은 모델에서 예측한 레이블을 포함하는 세 개의 열로 나뉩니다.
-
색상 막대는 많은 수의 샘플에 어두운 색조를 할당하여 각 범주에서 분류된 값의 수를 시각적으로 나타냅니다.
아래 예제에서 모델은 레이블 f의 실제값 354, 레이블 i의 실제값 1094, 레이블 m의 실제값 852를 정확하게 예측했습니다. 색조의 차이는 f 또는 m 값에 대한 것보다 i 값에 대한 레이블이 많기 때문에 데이터 세트의 균형이 맞지 않는다는 것을 나타냅니다.
제공된 모델 품질 보고서의 혼동 행렬은 멀티클래스 분류 문제 유형에 대해 최대 15개의 레이블을 수용할 수 있습니다. 레이블에 해당하는 행에 Nan
값이 표시되면, 모델 예측을 확인하는 데 사용되는 검증 데이터 세트에 해당 레이블의 데이터가 포함되어 있지 않다는 의미입니다.
이득 곡선
바이너리 분류에서 이득 곡선은 데이터 세트의 백분율을 사용하여 양수 레이블을 찾을 때의 누적 이익을 예측합니다. 이 이득 값은 훈련 중에 각 십분위수에서 양수 관측치의 누적 수를 데이터에 있는 양수 관측치의 총 수로 나누어 계산합니다. 훈련 중에 만든 분류 모델이 보이지 않는 데이터를 대표하는 경우 이득 곡선을 사용하여 양수 레이블의 백분율을 얻기 위해 목표로 삼아야 하는 데이터의 백분율을 예측할 수 있습니다. 사용된 데이터 세트의 비율이 높을수록 양수 레이블이 발견된 비율도 높아집니다.
다음 예제 그래프에서 이득 곡선은 기울기가 변하는 선입니다. 직선은 데이터 세트에서 무작위로 일정 비율의 데이터를 선택하여 찾은 양수 레이블의 백분율입니다. 데이터 세트의 20%를 대상으로 지정하면 40% 이상의 양수 레이블이 발견될 것으로 예상됩니다. 예를 들어, 이득 곡선을 사용하여 마케팅 캠페인 성과를 결정하는 것을 고려해 볼 수 있습니다. 이득 곡선 예제를 사용하면 동네 주민 중 83%가 쿠키를 구매한다고 가정했을 때 해당 지역의 약 60%에게 광고를 보내는 셈이 됩니다.
리프트 곡선
바이너리 분류에서 리프트 곡선은 훈련된 모델을 사용하여 양수 레이블을 찾을 확률을 무작위 추측과 비교해서 예측하는 향상을 보여줍니다. 리프트 값은 훈련 중에 각 십분위수의 양수 레이블 비율에 대한 백분율 이득 비율을 사용하여 계산됩니다. 훈련 중에 만든 모델이 보이지 않는 데이터를 나타내는 경우 리프트 곡선을 사용하여 무작위 추측보다 모델 사용에 이점이 있다는 것을 예측하세요.
다음 예제 그래프에서 리프트 곡선은 기울기가 변하는 선입니다. 직선은 데이터 세트에서 해당 백분율을 임의로 선택하는 것과 관련된 리프트 곡선입니다. 모델의 분류 레이블로 데이터 세트의 40%를 대상으로 지정하면 보이지 않는 데이터의 40%를 랜덤하게 선택하여 찾은 양수 레이블 수보다 약 1.7배를 찾을 수 있을 것으로 예상됩니다.
정밀도-재현율 곡선
정밀도-재현율 곡선은 바이너리 분류 문제에 대한 정밀도와 재현율 간의 절충을 나타냅니다.
정밀도는 모든 긍정적 예측(TP 및 False Positive) 중에서 양수로 예측되는 실제 양수(TP)의 비율을 측정합니다. 범위는 0~1입니다. 값이 클수록 예측된 값의 정확도가 더 높습니다.
-
정밀도 = TP/(TP+FP)
회상은 모든 실제 긍정 예측(TP 및 위음성) 중에서 긍정(TP)으로 예측되는 실제 긍정의 비율을 측정합니다. 이를 민감도 또는 참 양수율이라고도 합니다. 범위는 0~1입니다. 값이 클수록 표본에서 양수 값을 더 잘 감지할 수 있습니다.
-
재현율 = TP/(TP+FN)
분류 문제의 목적은 가능한 한 많은 요소에 올바르게 레이블을 지정하는 것입니다. 재현율은 높지만 정밀도가 낮은 시스템은 높은 비율의 False positive를 반환합니다.
다음 그림은 모든 이메일을 스팸으로 표시하는 스팸 필터를 보여줍니다. 재현율은 False positive를 측정하지 않기 때문에 이 경우 재현율이 높지만 정밀도는 낮습니다.
문제의 False positive 값에 대한 페널티는 낮지만, True Positive 결과를 놓쳤을 때 페널티가 높은 경우 정밀도보다 재현율에 더 많은 가중치를 부여하세요. 자율 주행 차량에서 임박한 충돌을 감지하는 경우를 예로 들 수 있습니다.
고정밀도 저재현율 시스템은 높은 비율의 False Negative 결과를 반환합니다. 모든 이메일을 권장(스팸 아님)으로 표시하는 스팸 필터는 정밀도가 높지만 재현율은 낮습니다. 정확도가 False Negative를 측정하지 않기 때문입니다.
False Negative 값에 대한 페널티는 낮지만, True Negative 결과를 놓쳤을 때 페널티가 높은 문제의 경우 재현율보다 정밀도에 더 많은 비중을 두세요. 세무 감사를 위해 의심스러운 필터에 플래그를 지정하는 경우를 예로 들 수 있습니다.
다음 그림은 정밀도가 False Negative를 측정하지 않기 때문에 정밀도가 높지만 재현율은 낮은 스팸 필터를 보여줍니다.
높은 정밀도와 높은 재현율을 모두 갖춘 예측을 수행하는 모델은 올바르게 레이블이 지정된 결과를 많이 생성합니다. 자세한 내용은 Wikipedia의 정밀도 및 재현율
정밀도-리콜 곡선하 면적(AUPRC)
이진 분류 문제의 경우 Amazon SageMaker Autopilot에는 정밀도 회상 곡선() 아래 영역의 그래프가 포함되어 있습니다AUPRC. AUPRC 지표는 가능한 모든 분류 임계값에 걸쳐 모델 성능의 집계된 측정치를 제공하고 정밀도와 리콜을 모두 사용합니다. AUPRC 는 실제 음수 수를 고려하지 않습니다. 따라서 데이터에 True Negative 수가 많은 경우 모델 성능을 평가할 때 유용할 수 있습니다. 희귀 돌연변이를 포함하는 유전자를 모델링하는 경우를 예로 들 수 있습니다.
다음 그래픽은 AUPRC 그래프의 예입니다. 최고값에서의 정밀도는 1이고 재현율은 0입니다. 그래프의 오른쪽 하단에서 재현율은 가장 높은 값 1이고 정밀도는 0입니다. 이 두 점 사이의 AUPRC 곡선은 서로 다른 임계값에서 정밀도와 리콜 간의 균형을 보여줍니다.
실제 도표와 예측 도표 비교
실제 대 예측 도표는 실제 모델 값과 예측 모델 값 간의 차이를 보여줍니다. 다음 예제 그래프에서 실선은 선형 최적 적합선입니다. 모델의 정확도가 100%인 경우 각 예측점은 해당하는 실제 지점과 같고 이 최적 적합선 위에 놓이게 됩니다. 최적 적합선으로부터의 거리는 모델 오류를 시각적으로 나타냅니다. 최적 적합선에서 멀어질수록 모델 오차가 커집니다.
표준화 잔차 도표
표준화 잔차 도표에는 다음과 같은 통계 용어가 포함됩니다.
residual
-
(원시) 잔차는 모델에서 예측한 실제값과 예측값 간의 차이를 보여줍니다. 차이가 클수록 잔차 값도 커집니다.
standard deviation
-
표준 편차는 값이 평균 값과 어떻게 다른지를 측정한 것입니다. 표준 편차가 높으면 많은 값이 평균 값과 크게 다르다는 것을 나타냅니다. 표준 편차가 낮으면 많은 값이 평균 값에 가깝다는 것을 나타냅니다.
standardized residual
-
표준화 잔차는 원시 잔차를 표준 편차로 나눕니다. 표준화 잔차는 표준 편차 단위를 가지며 원시 잔차의 규모 차이에 관계없이 데이터의 이상치를 식별하는 데 유용합니다. 표준화 잔차가 다른 표준화 잔차보다 훨씬 작거나 크면 모델이 이러한 관측치에 잘 맞지 않는다는 뜻입니다.
표준화 잔차 도표는 관측값과 예상 값 간의 차이 강도를 측정합니다. 실제 예측값은 x축에 표시됩니다. 일반적으로 값이 절대값 3보다 큰 점을 이상치로 간주합니다.
다음 예제 그래프는 수평 축에서 0을 중심으로 많은 수의 표준화 잔차가 모여 있음을 보여줍니다. 값이 0에 가까울수록 모델이 이러한 점에 잘 맞음을 나타냅니다. 도표의 위쪽과 아래쪽으로 향하는 점은 모델이 잘 예측하지 못합니다.
잔차 히스토그램
잔차 히스토그램에는 다음과 같은 통계 용어가 포함됩니다.
residual
-
(원시) 잔차는 모델에서 예측한 실제값과 예측값 간의 차이를 보여줍니다. 차이가 클수록 잔차 값도 커집니다.
standard deviation
-
표준 편차는 값이 평균 값과 얼마나 다른지를 측정한 것입니다. 표준 편차가 높으면 많은 값이 평균 값과 크게 다르다는 것을 나타냅니다. 표준 편차가 낮으면 많은 값이 평균 값에 가깝다는 것을 나타냅니다.
standardized residual
-
표준화 잔차는 원시 잔차를 표준 편차로 나눕니다. 표준화 잔차의 단위는 표준 편차 단위입니다. 원시 잔차의 규모 차이에 관계없이 데이터의 이상치를 식별하는 데 유용합니다. 표준화 잔차가 다른 표준화 잔차보다 훨씬 작거나 크면 모델이 이러한 관측치에 잘 맞지 않는다는 뜻일 수 있습니다.
histogram
-
히스토그램은 값이 얼마나 자주 발생했는지를 보여주는 그래프입니다.
잔차 히스토그램은 표준화 잔차 값의 분포를 보여줍니다. 종 모양으로 분포되고 0에 중심을 둔 히스토그램은 모델이 대상 값의 특정 범위를 체계적으로 과대 예측하거나 과소 예측하지 않음을 나타냅니다.
다음 그림에서 표준화 잔차 값은 모델이 데이터를 잘 적합시키고 있음을 나타냅니다. 그래프에 중심값에서 멀리 떨어진 값이 표시되면 해당 값이 모델에 잘 맞지 않는다는 의미입니다.