분석을 사용하여 데이터 탐색 - Amazon SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

분석을 사용하여 데이터 탐색

참고

SageMaker Canvas 분석은 테이블 형식 데이터 세트에 구축된 모델에만 사용할 수 있습니다. 다중 카테고리 텍스트 예측 모델도 제외됩니다.

Amazon SageMaker Canvas의 분석을 사용하면 모델을 구축하기 전에 데이터 세트를 탐색하고 모든 변수에 대한 인사이트를 얻을 수 있습니다. 상관 행렬을 사용하여 데이터 세트의 기능 간 관계를 확인할 수 있습니다. 이 기법을 사용하여 데이터 세트를 두 개 이상의 값 간의 상관 관계를 보여주는 행렬로 요약할 수 있습니다. 이를 통해 특정 데이터 세트의 패턴을 식별하고 시각화하여 고급 데이터 분석을 수행할 수 있습니다.

행렬은 각 기능 간의 상관 관계를 양수, 음수 또는 중립으로 보여줍니다. 모델을 구축할 때 서로 상관관계가 높은 기능을 포함하는 것이 좋습니다. 상관 관계가 거의 또는 전혀 없는 기능은 모델과 관련이 없을 수 있으므로 모델을 만들 때 이러한 기능을 삭제할 수 있습니다.

SageMaker Canvas에서 상관 관계 매트릭스를 시작하려면 다음 섹션을 참조하세요.

상관 행렬 생성

SageMaker Canvas 애플리케이션의 빌드 탭에서 모델 빌드를 준비할 때 상관 행렬을 생성할 수 있습니다.

모델 생성 시작 방법에 대한 지침은 모델 빌드을 참조하세요.

SageMaker Canvas 애플리케이션에서 모델 준비를 시작한 후 다음을 수행합니다.

  1. 빌드 탭에서 데이터 시각화 도우미를 선택합니다.

  2. 그런 다음 분석을 선택합니다.

  3. 상관 행렬을 선택합니다.

상관 행렬로 구성된 최대 15개의 데이터 세트 열을 보여주는 다음 스크린샷과 유사한 시각화가 표시됩니다.

Canvas 애플리케이션의 상관 행렬 스크린샷입니다.

상관 행렬을 만든 후 다음을 수행하여 이를 사용자 지정할 수 있습니다.

1. 열 선택

의 경우 행렬에 포함시키고자 하는 열을 선택할 수 있습니다. 데이터 세트에서 최대 15개의 열을 비교할 수 있습니다.

참고

상관 행렬에는 숫자형, 범주형 또는 바이너리 열 유형을 사용할 수 있습니다. 상관 행렬은 날짜/시간 또는 텍스트 데이터 열 유형을 지원하지 않습니다.

상관 행렬에서 열을 추가하거나 제거하려면 패널에서 열을 선택하고 선택 취소하세요. 패널의 열을 행렬로 직접 끌어서 놓을 수도 있습니다. 데이터 세트에 열이 많은 경우 열 검색 표시줄에서 원하는 열을 검색할 수 있습니다.

데이터 유형별로 열을 필터링하려면 드롭다운 목록을 선택하고 모두 , 숫자 또는 범주형 을 선택합니다. 모두를 선택하면 데이터 세트의 모든 열이 표시되는 반면, 숫자형범주형 필터는 데이터 세트의 숫자형 또는 범주형 열만 표시됩니다. 바이너리 열 유형은 숫자 또는 범주형 필터에 포함됩니다.

최상의 데이터 통찰력을 얻으려면 상관 행렬에 대상 열을 포함시키세요. 상관 행렬에 대상 열을 포함하면 대상 기호와 함께 행렬의 마지막 기능으로 나타납니다.

2. 상관 유형 선택

SageMaker Canvas는 다양한 상관 유형 또는 열 간의 상관 관계를 계산하는 방법을 지원합니다.

상관 관계 유형을 변경하려면 이전 섹션에서 언급한 필터를 사용하여 원하는 열 유형 및 열을 필터링하세요. 사이드 패널에 상관 관계 유형이 표시되어야 합니다. 수치로 비교하려면 Pearson 또는 Spearman을 선택할 수 있습니다. 범주형 비교의 경우 상관 관계 유형은 MI로 설정됩니다. 범주형 비교와 혼합 비교의 경우 상관 관계 유형은 Spearman 및 MI로 설정됩니다.

숫자형 열만 비교하는 행렬의 경우 상관 관계 유형은 Pearson 또는 Spearman입니다. Pearson 측정값은 두 연속형 변수 사이의 선형 관계를 평가합니다. Spearman 측정값은 두 변수 간의 단조 관계를 평가합니다. Pearson과 Spearman의 상관 척도 범위는 -1에서 1 사이이며, 상관 척도의 양쪽 끝은 완전한 상관(직접적인 1:1 관계)을 나타내고 0은 상관이 없음을 나타냅니다. 산점도 시각화를 통해 알 수 있듯이 데이터에 더 많은 선형 관계가 있는 경우 Pearson을 선택할 수 있습니다. 데이터가 선형이 아니거나 선형 관계와 단조 관계가 혼합되어 있는 경우에는 Spearman을 선택하는 것이 좋습니다.

범주형 열만 비교하는 행렬의 경우 상관관계 유형은 상호 정보 분류(MI)로 설정됩니다. MI 값은 두 무작위 변수 간의 상호 의존성을 측정한 값입니다. MI 측정값은 0에서 1까지의 척도로, 0은 상관관계가 없음을 나타내고 1은 완벽한 상관관계를 나타냅니다.

숫자 열과 범주형 열의 혼합을 비교하는 행렬의 경우 상관관계 유형인 Spearman 및 MI는 Spearman과 MI 상관관계 유형의 조합입니다. 두 숫자 열 간의 상관관계에 대한 행렬은 Spearman 값을 나타냅니다. 숫자 열과 범주형 열 또는 두 범주형 열 간의 상관관계에 대해 행렬에는 MI 값이 표시됩니다.

마지막으로, 상관관계가 반드시 인과관계를 나타내는 것은 아니라는 점을 기억하세요. 상관관계 값이 크다는 것은 두 변수 사이에 관계가 있다는 것을 의미할 뿐, 변수에는 인과 관계가 없을 수도 있습니다. 모델을 구축할 때 편향이 생기지 않도록 관심 있는 열을 주의 깊게 검토하세요.

3. 상관 관계 필터링

사이드 패널에서 상관관계 필터 기능을 사용하여 행렬에 포함하려는 상관관계 값의 범위를 필터링할 수 있습니다. 예를 들어 양의 상관관계 또는 중립 상관관계만 있는 기능을 필터링하려는 경우 최소값을 0으로, 최대값을 1로 설정할 수 있습니다(유효한 값은 -1~1).

Spearman과 Pearson 비교의 경우 필터 상관관계 범위를 -1에서 1 사이로 설정할 수 있습니다.여기서 0은 상관 관계가 없음을 의미합니다.-1과 1은 각각 변수에 강한 음의 상관관계 또는 양의 상관관계가 있음을 의미합니다.

MI 비교의 경우 상관관계 범위는 0에서 1까지만 적용되며, 0은 상관관계가 없음을 의미하고 1은 변수에 양수 또는 음의 강한 상관관계가 있음을 의미합니다.

각 기능은 자체적으로 완벽한 상관관계 (1) 를 갖습니다. 따라서 상관관계 행렬의 맨 위 행은 항상 1이라는 것을 알 수 있습니다. 이러한 값을 제외하려는 경우 필터를 사용하여 최대값을 1보다 작게 설정할 수 있습니다.

행렬에서 숫자 열과 범주형 열의 혼합을 비교하고 Spearman 및 MI 상관관계 유형을 사용하는 경우, 범주형 x 숫자형범주형 x 범주형 상관관계(MI 측정값 사용)는 0에서 1의 척도인 반면, 숫자형 x 숫자형 상관관계(Spearman 측정값 사용)는 -1에서 1의 척도라는 점을 기억하세요. 관심 있는 상관관계를 주의 깊게 검토하여 각 값을 계산하는 데 사용되는 상관관계 유형을 알고 있는지 확인하세요.

4. 시각화 메서드 선택

사이드 패널에서 시각화 기준을 사용하여 행렬의 시각화 방법을 변경할 수 있습니다. 숫자 시각화 방법을 선택하여 상관 관계(Pearson, Spearman 또는 MI) 값을 표시하거나 크기 시각화 방법을 선택하여 크기와 색상이 다른 점으로 상관 관계를 시각화합니다. 크기를 선택할 경우 행렬의 특정 점을 마우스로 가리키면 실제 상관관계 값을 볼 수 있습니다.

5. 색상표 선택

사이드 패널에서 색상 선택을 사용하여 행렬의 음의 상관관계를 양의 상관관계로로 스케일링하는 데 사용되는 색상표를 변경할 수 있습니다. 매트릭스에 사용되는 색상을 변경하려면 대체 색상표 중 하나를 선택하세요.