기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
탐색적 데이터 분석 수행(EDA)
Data Wrangler에는 몇 번의 클릭으로 시각화 및 데이터 분석을 생성하는 데 도움이 되는 내장 분석이 포함되어 있습니다. 자체 코드를 사용하여 사용자 지정 분석을 만들 수도 있습니다.
데이터 흐름에서 단계를 선택한 다음 분석 추가를 선택하여 데이터프레임에 분석을 추가할 수 있습니다. 생성한 분석에 액세스하려면 분석이 포함된 단계를 선택하고 분석을 선택합니다.
분석은 데이터 세트의 최대 200,000개 행의 샘플을 사용하여 생성되며 샘플 크기를 구성할 수 있습니다. 데이터 흐름의 샘플 크기 변경에 대한 자세한 내용은 섹션을 참조하세요데이터 흐름 샘플링 구성 편집.
참고
분석은 열이 1,000개 이하인 데이터에 최적화되어 있습니다. 추가 열이 있는 데이터에 대한 분석을 생성할 때 약간의 지연 시간이 발생할 수 있습니다.
데이터 프레임에 다음 분석을 추가할 수 있습니다.
-
히스토그램 및 산점도를 포함한 데이터 시각화.
-
항목 수, 최소값 및 최대값 (숫자 데이터용), 빈도가 가장 높은 범주와 가장 빈도가 낮은 범주(범주형 데이터용)를 포함하는 데이터 세트의 간략한 요약.
-
각 특징에 대한 중요도 점수를 생성하는 데 사용할 수 있는 데이터 세트의 빠른 모델.
-
대상 누출 보고서. 이는 하나 이상의 특징이 대상 특징과 강한 상관관계가 있는지 확인하는 데 사용할 수 있습니다.
-
자체 코드를 사용한 사용자 지정 시각화.
다음 섹션을 통해 이런 옵션에 대해 자세히 알아보세요.
데이터 및 데이터 품질에 대한 인사이트 얻기
데이터 품질 및 인사이트 보고서를 사용하여 Data Wrangler로 가져온 데이터를 분석할 수 있습니다. 데이터 세트를 가져온 후 보고서를 생성하는 것이 좋습니다. 보고서를 사용하여 데이터를 정리하고 처리할 수 있습니다. 이는 누락된 값의 갯수, 이상치 갯수 등의 정보를 제공합니다. 대상 누출 또는 불균형과 같은 데이터 관련 문제가 있는 경우 인사이트 보고서를 통해 이러한 문제를 파악할 수 있습니다.
다음 절차에 따라 데이터 품질 및 인사이트 보고서를 생성합니다. 여기서는 데이터 세트를 Data Wrangler 흐름으로 이미 가져온 것으로 가정합니다.
데이터 품질 및 인사이트 보고서를 생성하려면
-
Data Wrangler 흐름의 노드 옆에 있는 줄임표 아이콘을 선택합니다.
-
Get data insights(데이터 인사이트 가져오기)를 선택합니다.
-
분석 유형 에서 데이터 품질 및 인사이트 보고서 를 선택합니다.
-
Analysis name(분석 이름)에 인사이트 보고서의 이름을 지정합니다.
-
Problem type(문제 유형)에는 Regression(회귀) 또는 Classification(분류)를 지정합니다.
-
대상 열 에서 대상 열을 지정합니다.
-
Data size(데이터 크기)로 다음 중 하나를 지정합니다.
-
샘플링된 데이터 세트 - 데이터 흐름의 대화형 샘플을 사용하며 데이터 세트의 최대 200,000개의 행을 포함할 수 있습니다. 샘플 크기를 편집하는 방법에 대한 자세한 내용은 섹션을 참조하세요데이터 흐름 샘플링 구성 편집.
-
전체 데이터 세트 - 데이터 소스의 전체 데이터 세트를 사용하여 보고서를 생성합니다.
참고
전체 데이터 세트에 대한 데이터 품질 및 인사이트 보고서를 생성하려면 Amazon SageMaker 처리 작업을 사용합니다. SageMaker 처리 작업은 모든 데이터에 대한 인사이트를 얻는 데 필요한 추가 컴퓨팅 리소스를 프로비저닝합니다. 작업 SageMaker 처리에 대한 자세한 내용은 섹션을 참조하세요 SageMaker 프로세싱을 통한 데이터 변환 워크로드.
-
-
생성(Create)을 선택합니다.
다음 주제는 보고서의 섹션을 보여줍니다.
보고서를 다운로드하거나 온라인으로 볼 수 있습니다. 보고서를 다운로드하려면 화면 오른쪽 위 모서리에 있는 다운로드 버튼을 선택합니다.
요약
인사이트 보고서에는 누락된 값, 유효하지 않은 값, 변수 유형, 이상치 갯수 등과 같은 일반 정보가 포함된 간략한 데이터 요약이 있습니다. 또한 데이터에 발생할 수 있는 문제를 가리키는 심각도가 높은 경고도 포함될 수 있습니다. 경고를 조사하는 것이 좋습니다.
대상 열
데이터 품질 및 인사이트 보고서를 생성할 때 Data Wrangler는 대상 열을 선택할 수 있는 옵션을 제공합니다. 대상 열은 예측하려는 열입니다. 대상 열을 선택하면 Data Wrangler가 자동으로 대상 열 분석을 생성합니다. 또한 예측력 순서대로 변수의 순위를 매깁니다. 대상 열을 선택할 때는 회귀 문제를 해결할지 분류 문제를 해결할지 지정해야 합니다.
분류의 경우 Data Wrangler는 가장 일반적인 클래스의 표와 히스토그램을 보여줍니다. 클래스는 범주입니다. 또한 누락되거나 유효하지 않은 대상 값이 있는 관측치 또는 행을 표시합니다.
회귀의 경우 Data Wrangler는 대상 열에 있는 모든 값의 히스토그램을 보여줍니다. 또한 누락되거나, 유효하지 않은, 또는 이상치 대상 값이 있는 관측치 또는 행을 표시합니다.
빠른 모델
Quick Model(빠른 모델)은 데이터를 기반으로 훈련한 모델의 기대되는 예상 품질 추정치를 제공합니다.
Data Wrangler는 데이터를 훈련 폴드와 검증 폴드로 분할합니다. 샘플의 80%를 훈련에 사용하고 값의 20%를 검증에 사용합니다. 분류의 경우 표본을 계층화 분할합니다. 계층화 분할의 경우 각 데이터 파티션의 레이블 비율이 동일합니다. 분류 문제의 경우 훈련 폴드와 분류 폴드의 레이블 비율을 동일하게 유지하는 것이 중요합니다. Data Wrangler는 기본 하이퍼파라미터로 XGBoost 모델을 훈련합니다. 검증 데이터에 조기 중지를 적용하고 변수 사전 처리를 최소화합니다.
분류 모델의 경우 Data Wrangler는 모델 요약과 혼동 행렬을 모두 반환합니다.
분류 모델 요약이 반환하는 정보에 대한 자세한 내용은 섹션을 참조하세요정의.
혼동 행렬은 다음 정보를 제공합니다.
-
예측 레이블이 실제 레이블과 일치하는 횟수.
-
예측 레이블이 실제 레이블과 일치하지 않는 횟수.
실제 레이블은 데이터의 실제 관측치를 나타냅니다. 예를 들어, 사기 거래를 탐지하기 위해 모델을 사용하는 경우 실제 레이블은 실제로 사기 또는 사기가 아닌 거래를 나타냅니다. 예측 레이블은 모델이 데이터에 할당하는 레이블을 나타냅니다.
혼동 행렬을 사용하여 모델이 조건의 유무를 얼마나 잘 예측하는지 확인할 수 있습니다. 부정 거래를 예측하는 경우, 혼동 행렬을 사용하여 모델의 민감도와 특이도를 모두 파악할 수 있습니다. 민감도는 사기 거래를 탐지하는 모델의 능력을 나타냅니다. 특이도란 모델이 사기가 아닌 거래를 사기로 탐지하는 것을 피하는 능력을 말합니다.
변수 요약
대상 열을 지정하면 Data Wrangler는 예측력에 따라 변수를 정렬합니다. 예측력은 80% 훈련 및 20% 검증 폴드로 분할된 후 데이터에 대해 측정됩니다. Data Wrangler는 훈련 폴드에서 각 변수에 대한 모델을 개별적으로 피팅합니다. 변수 전처리를 최소화하고 검증 데이터에 대한 예측 성능을 측정합니다.
점수를 [0,1] 범위로 정규화합니다. 예측 점수가 높을수록 열 자체가 대상을 예측하는 데 더 유용하다는 뜻입니다. 점수가 낮을수록 열이 대상 열을 예측할 수 없음을 보여줍니다.
예측 가능하지 않은 열을 다른 열과 함께 사용한다고 예측 가능한 열이 되는 경우는 드뭅니다. 예측 점수를 사용하여 데이터 세트의 변수가 예측 가능한지 여부를 확실하게 판단할 수 있습니다.
일반적으로 점수가 낮으면 변수가 중복되었음을 나타냅니다. 1점은 완벽한 예측 능력을 나타내며, 이는 종종 대상 누출을 나타냅니다. 대상 누출은 일반적으로 예측 시점에 사용할 수 없는 열이 데이터 세트에 포함되어 있을 때 발생합니다. 예를 들어 대상 열과 중복된 열일 수 있습니다.
샘플
Data Wrangler는 표본이 비정상적인지 또는 데이터 세트에 중복이 있는지 여부에 대한 정보를 제공합니다.
Data Wrangler는 격리 포리스트 알고리즘(isolation forest algorithm)을 사용하여 비정상적인 샘플을 탐지합니다. 격리 포리스트는 비정상 점수를 데이터 세트의 각 샘플 (행)과 연결합니다. 비정상 점수가 낮으면 변칙 샘플이 있음을 나타냅니다. 높은 점수는 비정상이 아닌 샘플과 관련이 있습니다. 일반적으로 비정상 점수가 음수인 샘플은 변칙으로 간주되고 변칙 점수가 양수인 샘플은 비정상이 아닌 것으로 간주됩니다.
비정상일 수 있는 표본을 볼 때는 특이한 값에 주의를 기울이는 것이 좋습니다. 예를 들어, 데이터 수집 및 처리 중 오류로 인한 비정상적인 값이 발생할 수 있습니다. 다음은 Data Wrangler의 격리 포리스트 알고리즘 구현에 따른 가장 비정적인 샘플의 예입니다. 비정상적인 샘플을 검사할 때는 도메인 지식과 비즈니스 로직을 사용하는 것이 좋습니다.
Data Wrangler는 중복된 행을 탐지하고 데이터에서 중복된 행의 비율을 계산합니다. 일부 데이터 소스에는 유효한 중복이 포함될 수 있습니다. 다른 데이터 소스에는 데이터 수집 문제를 나타내는 중복이 있을 수 있습니다. 잘못된 데이터 수집으로 인해 샘플이 중복되면 데이터를 독립적인 훈련 및 검증 폴드로 분할하는 데 의존하는 기계 학습 프로세스에 방해가 될 수 있습니다.
중복된 샘플로 인해 영향을 받을 수 있는 인사이트 보고서의 요소는 다음과 같습니다.
-
빠른 모델
-
예측력 추정
-
자동 하이퍼파라미터 튜닝
Manage rows(행 관리)에서 Drop duplicates(중복 삭제) 변환을 사용하여 데이터 세트에서 중복 샘플을 제거할 수 있습니다. Data Wrangler는 가장 자주 중복되는 행을 보여줍니다.
정의
다음은 데이터 인사이트 보고서에 사용되는 기술 용어에 대한 정의입니다.
편향 리포트
SageMaker Canvas는 데이터에서 잠재적 편향을 발견하는 데 도움이 되도록 Data Wrangler에서 편향 보고서를 제공합니다. 편향 보고서는 대상 열(라벨)과 편향(패싯 변수)이 포함될 수 있다고 생각되는 열 간의 관계를 분석합니다. 예를 들어 고객 전환을 예측하려는 경우 패싯 변수는 고객의 연령일 수 있습니다. 편향 보고서는 데이터가 특정 연령 그룹에 편향되는지 여부를 결정하는 데 도움이 될 수 있습니다.
Canvas에서 바이어스 보고서를 생성하려면 다음을 수행합니다.
Data Wrangler의 데이터 흐름에서 흐름의 노드 옆에 있는 추가 옵션 아이콘( )을 선택합니다.
컨텍스트 메뉴에서 데이터 인사이트 가져오기를 선택합니다.
분석 생성 측면 패널이 열립니다. 분석 유형 드롭다운 메뉴에서 편향 보고서 를 선택합니다.
분석 이름 필드에 편향 보고서의 이름을 입력합니다.
모델이 예측하는 열 선택(대상) 드롭다운 메뉴에서 대상 열을 선택합니다.
예측 열이 값 또는 임계값입니까?에서 대상 열에 범주형 값이 있는 경우 값을 선택하고 숫자 값이 있는 경우 임계값을 선택합니다.
예측 값(또는 이전 단계의 선택에 따라 예측 임계값)에 목표 열 값 또는 양수 결과에 해당하는 값을 입력합니다. 예를 들어 고객 전환을 예측하는 경우 값은 고객이 변환되었음을 나타내는
yes
것일 수 있습니다.편향에 대해 분석할 열 선택 드롭다운 메뉴에서 패싯 변수라고도 하는 편향이 포함될 수 있다고 생각되는 열을 선택합니다.
열이 값 또는 임계값입니까?에서 패싯 변수에 범주형 값이 있는 경우 값을 선택하고 숫자 값이 있는 경우 임계값을 선택합니다.
열 값(들)에서 바이어스를 분석하려면(또는 이전 단계에서 선택한 항목에 따라 바이어스를 분석하려면 열 임계값) 잠재적 바이어스를 분석하려는 값 또는 값을 입력합니다. 예를 들어 특정 연령 이상의 고객에 대한 편향을 확인하는 경우 해당 연령 범위의 시작을 임계값으로 사용합니다.
편향 지표 선택 에서 편향 보고서에 포함할 편향 지표를 선택합니다. 각 지표에 대한 자세한 내용을 알아보려면 정보 아이콘 위에 마우스를 올려놓으세요.
(선택 사항) 추가 지표를 분석하시겠습니까? 옵션과 함께 메시지가 표시되면 예를 선택하여 더 많은 편향 지표를 보고 포함합니다.
편향 보고서를 생성할 준비가 되면 추가를 선택합니다.
생성된 보고서는 선택한 편향 지표에 대한 개요를 제공합니다. 데이터 흐름의 분석 탭에서 언제든지 편향 보고서를 볼 수 있습니다.
히스토그램(Histogram)
히스토그램을 사용하면 각 특징의 특징 값 수를 확인할 수 있습니다. 사용자는 색상 기준 옵션을 사용하여 기능 간의 관계를 검사할 수 있습니다.
사용자는 패싯 기능을 사용하여 다른 열의 각 값에 대해 한 열의 히스토그램을 생성할 수 있습니다.
산점도
산점도 기능을 사용하여 특징 간의 관계를 검사할 수 있습니다. 산점도를 만들려면 X축과 Y축에 플롯할 기능을 선택합니다. 이 두 열 모두 숫자 형식의 열이어야 합니다.
추가 열을 기준으로 산점도에 색을 지정할 수 있습니다.
또한 특징별로 산점도를 패싯할 수 있습니다.
테이블 요약
표 요약 분석을 사용하면 데이터를 빠르게 요약할 수 있습니다.
로그 및 부동 데이터를 비롯한 수치 데이터가 있는 열의 경우 표 요약에 각 열의 항목 수(개수), 최소값(최소), 최대값(최대), 평균, 표준편차(stddev)가 표시됩니다.
문자열, 부울 또는 날짜/시간 데이터가 있는 열을 포함하는 숫자가 아닌 데이터가 있는 열의 경우 표 요약에는 항목 수(개수), 가장 빈도가 낮은 값(최소), 가장 빈도가 높은 값(최대)이 보고됩니다.
빠른 모델
빠른 모델 시각화를 사용하여 데이터를 빠르게 평가하고 각 특징에 대한 중요도 점수를 산출할 수 있습니다. 기능 중요도 점수
빠른 모형 차트를 만들 때는 평가할 데이터 세트와 기능 중요도를 비교할 대상 레이블을 선택합니다. Data Wrangler는 다음을 수행합니다.
-
선택한 데이터 세트의 대상 레이블 및 각 특징에 대한 데이터 형식을 유추합니다.
-
문제 유형을 결정합니다. Data Wrangler는 레이블 열에 있는 고유 값의 수를 기반으로 이것이 회귀 문제 유형인지 분류 문제인지 판단합니다. Data Wrangler는 범주형 임곗값을 100으로 설정합니다. 레이블 열에 100개가 넘는 고유 값이 있는 경우 Data Wrangler는 이를 회귀 문제로 분류하고 그렇지 않으면 분류 문제로 분류합니다.
-
훈련을 위해 특징 및 레이블 데이터를 사전 처리합니다. 알고리즘을 사용하려면 특징을 vector 유형으로 인코딩하고 레이블을 double 유형으로 인코딩해야 합니다.
-
데이터의 70%를 사용하여 랜덤 포레스트(random forest) 알고리즘을 훈련시킵니다. SparkRandomForestRegressor
는 회귀 문제에 대해 모델을 훈련하는 데 사용됩니다. RandomForestClassifier 는 분류 문제에 대해 모델을 훈련하는 데 사용됩니다. -
나머지 30% 의 데이터로 랜덤 포레스트 모델을 평가합니다. Data Wrangler는 F1 점수를 사용하여 분류 모델을 평가하고 MSE 점수를 사용하여 회귀 모델을 평가합니다.
-
Gini(지니) 중요도 방법을 사용하여 각 기능의 기능 중요도를 계산합니다.
대상 누출
대상 누출은 기계 학습 훈련 데이터 세트에 대상 레이블과 강한 상관 관계가 있지만 실제 데이터에서는 사용할 수 없는 데이터가 있을 때 발생합니다. 예를 들어 모델을 사용하여 예측하려는 열의 프록시 역할을 하는 열이 데이터 세트에 있을 수 있습니다.
대상 누출 분석을 사용할 때는 다음을 지정합니다.
-
대상: ML 모델이 예측을 하려는 특징입니다.
-
문제 유형: 작업 중인 ML 문제 유형입니다. 문제 유형은 분류 또는 회귀일 수 있습니다.
-
(선택 사항) 최대 기능: 시각화에 표시할 수 있는 최대 특징 수로, 특징을 대상 누출 위험을 기준으로 순위를 매겨 보여줍니다.
분류를 위해 대상 누출 분석은 수신기 작동 특성 아래의 영역 또는 각 열에 대한 AUC - ROC 곡선을 최대 기능까지 사용합니다. 회귀 분석의 경우, 이는 결정 계수 또는 R2 지표를 사용합니다.
AUC - ROC 곡선은 최대 약 1,000개 행의 샘플에 대해 교차 검증을 사용하여 각 열에 대해 개별적으로 계산된 예측 지표를 제공합니다. 1점은 완벽한 예측 능력을 나타내며, 이는 종종 대상 누출을 나타냅니다. 점수가 0.5점 이하이면 열의 정보 자체로는 대상 예측에 유용한 정보를 제공하지 못함을 나타냅니다. 열 자체로는 정보를 제공하지 않지만 다른 기능과 함께 사용할 경우 대상을 예측하는 데 유용할 수 있지만 점수가 낮으면 기능이 중복되었음을 의미할 수 있습니다.
다중 공선성
다중 공선성(Multicollinearity)은 두 개 이상의 예측 변수가 서로 관련되어 있는 상황입니다. 예측 변수는 대상 변수를 예측하는 데 사용하는 데이터 세트의 특징입니다. 다중 공선성이 있는 경우 예측 변수는 대상 변수를 예측할 뿐만 아니라 서로를 예측할 수도 있습니다.
Variance Inflation Factor(VIF), Principal Component Analysis(PCA) 또는 Lasso 기능 선택을 데이터의 다중 선형성에 대한 측정값으로 사용할 수 있습니다. 추가 정보는 다음을 참조하세요.
시계열 데이터의 이상 탐지
이상 탐지 시각화를 사용하여 시계열 데이터의 이상치를 확인할 수 있습니다. 이상을 결정하는 요인을 이해하려면 시계열을 예측 항과 오차 항으로 분해한다는 점을 이해해야 합니다. 시계열의 계절성과 추세를 예측 항으로 취급합니다. 잔차(residual)를 오차항으로 취급합니다.
오차 항의 경우 임곗값을 표준 편차의 배수로 지정하면, 잔차가 평균에서 멀어질 때 이상으로 간주될 수 있습니다. 예를 들어, 임곗값을 표준편차의 3배로 지정할 수 있습니다. 평균에서 표준 편차의 3배보다 더 큰 잔차는 이상입니다.
다음 절차를 사용하여 이상 탐지 분석을 수행할 수 있습니다.
-
Data Wrangler 데이터 흐름을 엽니다.
-
데이터 흐름의 데이터 형식에서 +를 선택하고 분석 추가를 선택합니다.
-
분석 유형에서 시계열을 선택합니다.
-
시각화에서는 이상 탐지를 선택합니다.
-
이상 임곗값에서 예외로 간주하는 임곗값을 선택합니다.
-
미리 보기를 선택하여 분석 미리 보기를 생성합니다.
-
추가를 선택하여 Data Wrangler 데이터 흐름에 변환을 추가합니다.
시계열 데이터의 계절 추세 분해
Seasonal Trend Decomposition(계절적 추세 분해) 시각화를 사용하여 시계열 데이터에 계절성이 있는지 여부를 확인할 수 있습니다. STL (를 사용한 계절별 추세 분해LOESS) 메서드를 사용하여 분해를 수행합니다. 시계열은 계절 요소, 추세 요소, 잔차 요소로 분해됩니다. 추세 요소는 시리즈의 장기적 진행 상황을 반영합니다. 계절 요소는 일정 기간 동안 반복되는 신호입니다. 시계열에서 추세와 계절 요소를 제거하면 잔차가 남습니다.
다음 절차를 사용하여 계절-추세 분해 분석을 수행할 수 있습니다.
-
Data Wrangler 데이터 흐름을 엽니다.
-
데이터 흐름의 데이터 형식에서 +를 선택하고 분석 추가를 선택합니다.
-
분석 유형에서 시계열을 선택합니다.
-
시각화에서는 계절-추세 분해를 선택합니다.
-
이상 임곗값에서 예외로 간주하는 임곗값을 선택합니다.
-
미리 보기를 선택하여 분석 미리 보기를 생성합니다.
-
추가를 선택하여 Data Wrangler 데이터 흐름에 변환을 추가합니다.
사용자 지정 시각화 생성
Data Wrangler 흐름에 분석을 추가하여 사용자 지정 시각화를 만들 수 있습니다. 적용한 모든 변환이 포함된 데이터 세트는 Pandas DataFramedf
변수를 사용하여 데이터프레임을 저장합니다. 변수를 호출하여 데이터프레임에 액세스할 수 있습니다.
Altairchart
저장하려면 출력 변수 를 제공해야 합니다. 예를 들어, 다음 코드 블록을 사용하여 타이타닉 데이터 세트에 대한 사용자 지정 히스토그램을 만들 수 있습니다.
import altair as alt df = df.iloc[:30] df = df.rename(columns={"Age": "value"}) df = df.assign(count=df.groupby('value').value.transform('count')) df = df[["value", "count"]] base = alt.Chart(df) bar = base.mark_bar().encode(x=alt.X('value', bin=True, axis=None), y=alt.Y('count')) rule = base.mark_rule(color='red').encode( x='mean(value):Q', size=alt.value(5)) chart = bar + rule
사용자 지정 시각화를 만들려면:
-
시각화하려는 변환이 포함된 노드 옆의 +를 선택합니다.
-
분석 추가를 선택합니다.
-
분석 유형에서 사용자 지정 시각화를 선택합니다.
-
분석 이름에서 이름을 지정합니다.
-
코드 상자에 코드를 입력합니다.
-
미리보기를 선택하여 시각화를 미리 볼 수 있습니다.
-
저장을 선택하여 시각화를 추가합니다.
Python의 Altair 시각화 패키지 사용법을 모르는 경우, 사용자 지정 코드 조각을 사용하면 시작 시 도움이 됩니다.
Data Wrangler에는 검색 가능한 시각화 코드 조각 모음이 있습니다. 시각화 코드 조각을 사용하려면, 예제 조각 검색을 선택하고 검색 창에서 쿼리를 지정합니다.
다음 예제에서는 Binned 산점도 코드 조각을 사용합니다. 2차원에 대한 히스토그램을 플롯합니다.
코드 조각에는 코드를 변경할 때 필요한 사항을 파악하는 데 도움이 되는 주석이 있습니다. 일반적으로 코드에 데이터 세트의 열 이름을 지정해야 합니다.
import altair as alt # Specify the number of top rows for plotting rows_number = 1000 df = df.head(rows_number) # You can also choose bottom rows or randomly sampled rows # df = df.tail(rows_number) # df = df.sample(rows_number) chart = ( alt.Chart(df) .mark_circle() .encode( # Specify the column names for binning and number of bins for X and Y axis x=alt.X("col1:Q", bin=alt.Bin(maxbins=20)), y=alt.Y("col2:Q", bin=alt.Bin(maxbins=20)), size="count()", ) ) # :Q specifies that label column has quantitative type. # For more details on Altair typing refer to # https://altair-viz.github.io/user_guide/encoding.html#encoding-data-types