시각화 기법을 사용하여 데이터 탐색 - Amazon SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

시각화 기법을 사용하여 데이터 탐색

참고

SageMaker Canvas 시각화는 테이블 형식의 데이터 세트에 구축된 모델에만 사용할 수 있습니다. 다중 카테고리 텍스트 예측 모델도 제외됩니다.

Amazon SageMaker Canvas를 사용하면 ML 모델을 구축하기 전에 데이터를 탐색하고 시각화하여 데이터에 대한 고급 인사이트를 얻을 수 있습니다. 산점도, 막대 차트, 상자 그림을 사용하여 시각화할 수 있으며, 이는 데이터를 이해하고 모델 정확도에 영향을 줄 수 있는 기능 간의 관계를 찾는 데 도움이 됩니다.

SageMaker Canvas 애플리케이션의 빌드 탭에서 데이터 시각화를 선택하여 시각화 생성을 시작합니다.

시각화 샘플 크기를 변경하여 데이터 세트에서 가져온 추출한 무작위 샘플의 크기를 조정할 수 있습니다. 샘플 크기가 너무 크면 데이터 시각화 성능에 영향을 미칠 수 있으므로 적절한 샘플 크기를 선택하는 것이 좋습니다. 샘플 크기를 변경하려면 다음 절차를 따르세요.

  1. 시각화 샘플을 선택합니다.

  2. 슬라이더를 사용하여 원하는 샘플 크기를 선택합니다.

  3. 업데이트를 선택하여 샘플 크기 변경을 확인합니다.

참고

특정 시각화 기법에는 특정 데이터 유형의 열이 필요합니다. 예를 들어 산점도의 x축과 y축에는 숫자 열만 사용할 수 있습니다.

산점도

데이터 세트로 산점도를 만들려면 시각화 패널에서 산점도를 선택합니다. 섹션에서 x 및 y축에 표시할 기능을 선택합니다. 열을 축으로 끌어다 놓거나, 축이 삭제되면 지원되는 열 목록에서 열을 선택할 수 있습니다.

색상 기준을 사용하여 세 번째 기능으로 플롯의 데이터 포인트에 색상을 지정할 수 있습니다. 그룹화 기준을 사용하여 네 번째 기능을 기반으로 데이터를 별도의 플롯으로 그룹화할 수도 있습니다.

다음 이미지는 색상 기준그룹화 기준을 사용하는 산점도를 보여줍니다. 이 예제에서 각 데이터 포인트는 MaritalStatus특징 별로 색상이 지정되어 있으며.Department특징 별로 그룹화하면 각 부서의 데이터 포인트에 대한 산점도가 생성됩니다.

Canvas 애플리케이션의 데이터 시각화 도우미 뷰에 있는 산점도 스크린샷입니다.

막대 차트

데이터 세트로 막대 차트를 만들려면 시각화 패널에서 막대 차트를 선택합니다. 섹션에서 x 및 y축에 표시할 기능을 선택합니다. 열을 축으로 끌어다 놓거나, 축이 삭제되면 지원되는 열 목록에서 열을 선택할 수 있습니다.

그룹화 기준을 사용하여 막대 차트를 세 번째 기능으로 그룹화할 수 있습니다. 누적 기준을 사용하여 네 번째 기능의 고유한 값을 기반으로 각 막대를 수직으로 음영 처리할 수 있습니다.

다음 이미지는 그룹화 기준과 누적 기준을 사용하는 막대 차트를 보여줍니다. 이 예제에서 막대 차트는 MaritalStatus기능 별로 그룹화되고 JobLevel기능 별로 누적됩니다. x축의 각 JobRole에는 MaritalStatus특성의 고유 범주에 대한 별도의 막대가 있으며, 모든 막대는 JobLevel특성에 의해 수직으로 누적됩니다.

Canvas 애플리케이션의 데이터 시각화 도우미 보기에 있는 막대 차트의 스크린샷입니다.

상자 그림

데이터 세트로 상자 그림을 만들려면 시각화 패널에서 상자 그림을 선택합니다. 섹션에서 x 및 y축에 표시할 기능을 선택합니다. 열을 축으로 끌어다 놓거나, 축이 삭제되면 지원되는 열 목록에서 열을 선택할 수 있습니다.

그룹화 기준을 사용하여 상자 그림을 세 번째 기능으로 그룹화할 수 있습니다.

다음 이미지는 그룹화 기준을 사용하는 상자 그림을 보여줍니다. 이 예제에서는 x축과 y축이 각각 JobLevelJobSatisfaction을 나타내며, 색상이 지정된 상자 그림은 Department기능별로 그룹화되어 있습니다.

Canvas 애플리케이션의 데이터 시각화 도우미 보기에 있는 상자 그림의 스크린샷입니다.