기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
Autopilot 데이터 탐색 보고서
Amazon SageMaker Autopilot은 데이터 세트를 자동으로 정리하고 사전 처리합니다. 고품질 데이터는 기계 학습 효율성을 개선하고 더 정확한 예측을 가능하게 하는 모델을 생성합니다.
고객이 제공한 데이터 세트에는 일부 도메인 지식이 없으면 자동으로 수정할 수 없는 문제가 있습니다. 예를 들어, 회귀 문제의 대상 열에 특이치 값이 크면 특이치가 아닌 값에 대한 예측이 최적이 아닐 수 있습니다. 모델링 목표에 따라 특이치를 제거해야 할 수도 있습니다. 실수로 대상 열이 입력 특징 중 하나로 포함된 경우 최종 모델은 잘 검증되지만 향후 예측에는 거의 가치가 없습니다.
Autopilot은 고객이 이러한 종류의 문제를 발견할 수 있도록 데이터의 잠재적 문제에 대한 인사이트가 포함된 데이터 탐색 보고서를 제공합니다. 보고서는 또한 문제 해결 방법을 제안합니다.
모든 Autopilot 작업에 대해 보고서가 포함된 데이터 탐색 노트북이 생성됩니다. 보고서는 Amazon S3 버킷에 저장되며 출력 경로에서 액세스할 수 있습니다. 데이터 탐색 보고서의 경로는 일반적으로 다음 패턴을 따릅니다.
[s3 output path]/[name of the automl job]/sagemaker-automl-candidates/[name of processing job used for data analysis]/notebooks/SageMakerAutopilotDataExplorationNotebook.ipynb
데이터 탐색 노트북의 위치는 에 저장된 DescribeAutoMLJob
작업 응답을 API 사용하여 Autopilot에서 얻을 수 있습니다DataExplorationNotebookLocation.
SageMaker Studio Classic에서 Autopilot을 실행할 때 다음 단계를 사용하여 데이터 탐색 보고서를 열 수 있습니다.
-
왼쪽 탐색 창에서 홈 아이콘을 선택하여 최상위 Amazon SageMaker Studio Classic 탐색 메뉴를 봅니다.
-
기본 작업 영역에서 AutoML 카드를 선택합니다. 그러면 새 Autopilot 탭이 열립니다.
-
Name(이름) 섹션에서 검사하려는 데이터 탐색 노트북이 있는 Autopilot 작업을 선택합니다. 그러면 새 Autopilot job(Autopilot 작업) 탭이 열립니다.
-
Autopilot job(Autopilot 작업) 탭의 오른쪽 상단에서 Open data exploration notebook(데이터 탐색 노트북 열기)를 선택합니다.
데이터 탐색 보고서는 훈련 프로세스가 시작되기 전에 데이터에서 생성됩니다. 이렇게 하면 의미 없는 결과를 초래할 수 있는 Autopilot 작업을 중지할 수 있습니다. 마찬가지로, Autopilot을 다시 실행하기 전에 데이터 세트와 관련된 문제나 개선 사항을 해결할 수 있습니다. 이렇게 하면 더 잘 선별된 데이터 세트를 기반으로 모델을 학습시키기 전에 해당 분야의 전문 지식을 활용하여 수동으로 데이터 품질을 개선할 수 있습니다.
데이터 보고서에는 정적 마크다운만 포함되며 모든 Jupyter 환경에서 열 수 있습니다. 보고서가 포함된 노트북은 PDF 또는 와 같은 다른 형식으로 변환할 수 있습니다HTML. 변환에 대한 자세한 내용은 nbconvert 스크립트를 사용하여 Jupyter notebook을 다른 형식으로 변환
데이터 세트 요약
이 Dataset Summary(데이터 세트 요약)는 행, 열 수, 중복된 행 비율, 누락된 목표 값 등 데이터 세트를 특징짓는 주요 통계를 제공합니다. Amazon SageMaker Autopilot에서 감지한 데이터 세트에 문제가 있고 개입이 필요할 수 있는 경우 빠른 알림을 제공하기 위한 것입니다. 인사이트는 심각도가 '높음' 또는 '낮음'으로 분류된 경고로 표시됩니다. 분류는 문제가 모델 성능에 부정적인 영향을 미칠 것이라는 신뢰 수준에 따라 달라집니다.
심각도가 높거나 낮은 인사이트는 요약에 팝업으로 표시됩니다. 대부분의 인사이트에는 주의가 필요한 데이터 세트에 문제가 있는지 확인하는 방법에 대한 권장 사항이 제공됩니다. 문제 해결 방법에 대한 제안도 있습니다.
Autopilot은 데이터 세트에서 누락되거나 유효하지 않은 목표값에 대한 추가 통계를 제공하여 심각도가 높은 인사이트로는 포착할 수 없는 다른 문제를 찾아내는 데 도움이 됩니다. 특정 유형의 열이 예기치 않은 숫자이면 사용하려는 일부 열이 데이터 세트에서 누락되었을 수 있습니다. 또한 데이터를 준비하거나 저장하는 방식에 문제가 있었음을 의미할 수도 있습니다. Autopilot이 관심을 불러일으킨 이러한 데이터 문제를 해결하면 데이터를 기반으로 훈련된 기계 학습 모델의 성능을 개선할 수 있습니다.
심각도가 높은 인사이트는 요약 섹션 및 보고서의 기타 관련 섹션에 표시됩니다. 일반적으로 데이터 보고서의 섹션에 따라 심각도가 높은 인사이트와 낮은 심각도 인사이트의 예가 제공됩니다.
대상 분석
이 섹션에는 대상 열의 값 분포와 관련하여 심각도가 높거나 낮은 다양한 인사이트를 보여줍니다. 대상 열에 올바른 값이 포함되어 있는지 확인하세요. 대상 열의 값이 올바르지 않으면 기계 학습 모델이 의도한 비즈니스 목적에 부합하지 않을 수 있습니다. 이 섹션에는 심각도가 높고 낮은 여러 데이터 인사이트가 나와 있습니다. 다음은 몇 가지 예제입니다.
-
특이치 대상 값 - 편향되거나 비정상적 회귀 대상 분포 (예: 꼬리 부분에 집중된 대상 값).
-
대상 카디널리티가 높거나 낮음 - 클래스 레이블 수가 드물거나 분류를 위한 고유한 클래스 수가 많습니다.
회귀 및 분류 문제 유형 모두에서 무한대 숫자, NaN
또는 빈 대상 열 등 유효하지 않은 값이 표시됩니다. 문제 유형에 따라 다양한 데이터 세트 통계가 제공됩니다. 회귀 문제의 대상 열 값 분포를 통해 분포가 예상과 일치하는지 확인할 수 있습니다.
다음 스크린샷은 데이터 세트의 평균, 중앙값, 최소값, 최대값, 이상치 백분율 등의 통계가 포함된 Autopilot 데이터 보고서를 보여줍니다. 스크린샷에는 대상 열의 레이블 분포를 보여주는 히스토그램도 포함되어 있습니다. 히스토그램에서는 가로축에 Target Column Values(대상 열 값)을 세로축에 Count(갯수)를 보여줍니다. 상자는 스크린샷의 Outliers Percentage(이상치 백분율) 섹션을 강조 표시하여 이 통계가 나타나는 위치를 보여줍니다.
대상 값 및 분포와 관련된 여러 통계가 표시됩니다. 이상치, 유효하지 않은 값 또는 누락된 백분율이 0보다 크면 해당 값이 표시되므로 데이터에 사용할 수 없는 대상 값이 포함된 이유를 조사할 수 있습니다. 사용할 수 없는 일부 대상 값은 심각도가 낮은 인사이트 경고로 강조 표시됩니다.
다음 스크린샷에서는 대상 열에 실수로 ` 기호가 추가되어 대상 숫자 값이 파싱되지 않았습니다. 심각도가 낮은 인사이트: “잘못된 대상 값” 경고가 나타납니다. 이 예제의 경고 메시지는 “대상 열의 레이블 중 0.14%를 숫자 값으로 변환할 수 없습니다”라고 표시합니다. 숫자가 아닌 가장 일반적인 값은 ["-3.8e-05","-9-05","-4.7e-05","-1.4999999999999999e-05","-4.3e-05"]입니다. 이는 일반적으로 데이터 수집 또는 처리에 문제가 있음을 나타냅니다. Amazon SageMaker Autopilot은 유효하지 않은 대상 레이블이 있는 모든 관찰을 무시합니다.”
또한 Autopilot은 분류를 위한 레이블 분포를 보여주는 히스토그램을 제공합니다.
다음 스크린샷은 클래스 수, 누락된 값 또는 유효하지 않은 값을 포함하는 대상 열에 대해 제공된 통계의 예를 보여줍니다. 가로 축에 대상 레이블이 있고 세로 축에 빈도가 표시된 히스토그램은 각 레이블 범주의 분포를 보여줍니다.
참고
이 섹션과 다른 섹션에 제시된 모든 용어의 정의는 보고서 노트 하단의 정의 섹션에서 찾을 수 있습니다.
데이터 샘플
Autopilot은 데이터의 실제 샘플을 제시하여 데이터 세트와 관련된 문제를 찾아내는 데 도움을 줍니다. 샘플 테이블은 가로로 스크롤됩니다. 샘플 데이터를 검사하여 데이터 세트에 필요한 모든 열이 있는지 확인합니다.
또한 Autopilot은 예측력 측정값을 계산하여 특징과 대상 변수 간의 선형 또는 비선형 관계를 식별하는 데 사용할 수 있습니다. 0
의 값은 대상 변수를 예측할 때 특징에 대한 예측 값이 없음을 나타냅니다. 1
의 값은 대상 변수에 대한 예측력이 가장 높음을 나타냅니다. 예측력에 대한 자세한 내용은 정의 섹션을 참조하세요.
참고
특징 중요도 대신 예측력을 사용하는 것은 권장되지 않습니다. 예측력이 사용 사례에 적합한 측정값이라고 확신하는 경우에만 사용하세요.
다음 스크린샷은 데이터 샘플의 예를 보여줍니다. 맨 위 행에는 데이터 세트에 있는 각 열의 예측력이 포함됩니다. 두 번째 행에는 열 데이터 유형이 포함됩니다. 다음 행에는 레이블이 포함됩니다. 열에는 대상 열과 각 특징 열이 차례로 포함됩니다. 각 특징 열에는 이 스크린샷에서 강조 표시된 관련 예측력이 상자와 함께 표시됩니다. 이 예제에서는 특징 x51
을 포함하는 열이 대상 변수 y
에 대해 0.68
의 예측력을 가지고 있습니다. 특징 x55
은 예측력이 0.59
로서 예측 가능성이 약간 떨어집니다.
중복된 행
데이터 세트에 중복 행이 있는 경우 Amazon SageMaker Autopilot은 해당 행의 샘플을 표시합니다.
참고
Autopilot에 제공하기 전에 업샘플링을 통해 데이터 세트를 밸런싱하는 것은 권장되지 않습니다. 이로 인해 Autopilot으로 훈련한 모델의 검증 점수가 부정확해질 수 있으며 생산된 모델을 사용할 수 없게 될 수 있습니다.
열 간 상관 관계
Autopilot은 두 특징 간의 선형 상관 관계를 측정한 Pearson 상관 계수를 사용하여 상관 행렬을 채웁니다. 상관 행렬에서는 가로축과 세로축 모두에 숫자형 특징이 그려지고, 교차점에 피어슨 상관 계수가 그려집니다. 두 특징 간의 상관 관계가 높을수록 계수가 높아지며 최대값은 |1|
입니다.
-
값이
-1
이면 특징들이 완전히 음의 상관관계가 있음을 나타냅니다. -
특징이 그 자체와 상관관계가 있을 때 나타나는 값인
1
은 완전한 양의 상관관계를 나타냅니다.
상관 행렬의 정보를 사용하여 상관 관계가 높은 특징을 제거할 수 있습니다. 특징의 수가 적을수록 모델이 과적합될 가능성이 줄어들고 두 가지 측면에서 생산 비용을 줄일 수 있습니다. 필요한 Autopilot 런타임이 줄어들고, 일부 애플리케이션의 경우 데이터 수집 절차가 더 저렴해질 수 있습니다.
다음 스크린샷은 7
특징 간 상관 행렬의 예를 보여줍니다. 각 특징은 가로축과 세로축 모두에 매트릭스로 표시됩니다. Pearson의 상관 계수는 두 특징 사이의 교차점에 표시됩니다. 각 특징 교차점에는 관련된 색조가 있습니다. 상관 관계가 높을수록 색조가 어두워집니다. 가장 어두운 색조는 행렬의 대각선을 차지하며, 여기서 각 특징은 그 자체와 상관 관계가 있어 완벽한 상관 관계를 나타냅니다.
변칙적 행
Amazon SageMaker Autopilot은 데이터 세트의 어떤 행이 변칙적일 수 있는지 감지합니다. 그런 다음 각 행에 예외 항목 점수를 지정합니다. 변칙 점수가 음수인 행은 변칙 행으로 간주됩니다.
다음 스크린샷은 예외가 포함된 행에 대한 Autopilot 분석 결과를 보여줍니다. 각 행의 데이터 세트 열 옆에 예외 점수가 포함된 열이 나타납니다.
누락된 값, 카디널리티, 설명 통계
Amazon SageMaker Autopilot은 데이터 세트의 개별 열 속성을 검사하고 보고합니다. 이 분석을 제공하는 데이터 보고서의 각 섹션에는 내용이 순서대로 정렬되어 있습니다. 이렇게 하면 가장 “의심스러운” 값을 먼저 확인할 수 있습니다. 이 통계를 사용하면 개별 열의 내용을 개선하고 Autopilot으로 생성된 모델의 품질을 개선할 수 있습니다.
Autopilot은 범주형 값이 포함된 열의 범주형 값에 대한 여러 통계를 계산합니다. 여기에는 고유한 항목 수와 텍스트의 경우 고유한 단어 수가 포함됩니다.
Autopilot은 열에 포함된 수치 값에 대한 몇 가지 표준 통계를 계산합니다. 다음 이미지는 평균, 중앙값, 최소값 및 최대값, 수치 유형 및 이상값의 백분율을 포함한 이러한 통계를 보여줍니다.