히스토그램 사용하기
Amazon QuickSight의 히스토그램 차트를 사용하여 데이터에 있는 연속적인 수치 값의 분포를 표시할 수 있습니다. Amazon QuickSight는 각 빈에 있는 데이터 포인트 또는 이벤트의 절대 수를 사용하는 비정규화된 히스토그램을 사용합니다.
히스토그램을 만들려면 하나의 치수를 사용합니다. 새 히스토그램은 처음에 X축에 걸쳐 10개의 빈(버킷이라고도 함)을 표시합니다. 이는 차트에 막대로 나타납니다. 데이터 세트에 맞게 빈을 사용자 지정할 수 있습니다. Y축에는 각 빈에 있는 값의 절대 개수가 표시됩니다.
명확하게 식별할 수 있는 모양을 갖도록 형식 설정을 조정해야 합니다. 데이터에 특이값이 포함되어 있는 경우, X축 측에서 벗어난 하나 이상의 값을 발견하면 명확해집니다. Amazon QuickSight에서 표시 제한을 벗어나는 데이터가 처리되는 방식에 대한 내용은 표시 제한을(를) 참조하십시오.
히스토그램의 기능
히스토그램에서 지원하는 기능에 대해 알아보려면 다음 표를 참조하십시오.
기능 | 지원? | 설명 | 자세한 정보 |
---|---|---|---|
범례 표시 변경 | 아니요 | QuickSight의 시각적 객체 유형에 대한 레이블 | |
제목 표시 변경 | 예 | QuickSight의 QuickSight에 있는 시각적 객체 유형에 대한 제목 및 부제목 | |
축 범위 변경 | 아니요 | 그러나 빈 개수 또는 빈 간격 너비(배포 범위)를 변경할 수 있습니다. | |
축선, 격자선, 축 레이블, 축 정렬 아이콘 표시하기 또는 숨기기 | 예 | QuickSight의 시각적 객체 유형에 대한 축 및 격자선 | |
시각적 객체 색상 변경 | 예 | QuickSight의 시각적 객체 유형에 있는 색상 | |
요소 강조 또는 제외 | 아니요 | ||
정렬 | 아니요 | ||
필드 집계 수행 | 아니요 | 히스토그램은 개수 집계만 사용합니다. | |
드릴다운 추가 | 아니요 |
히스토그램 생성하기
히스토그램을 생성하려면 다음 절차에 따르십시오.
히스토그램을 만들려면
-
분석 페이지의 도구 모음에서 [Visualize]를 선택합니다.
-
애플리케이션 표시줄에서 [Add]를 선택한 다음 [Add visual]을 선택합니다.
-
시각적 객체 유형 창에서 히스토그램 아이콘을 선택합니다.
-
필드 목록 창에서 값 필드 웰에 사용할 필드를 선택합니다. 개수 집계가 자동으로 값에 적용됩니다.
결과 히스토그램은 다음을 보여줍니다.
-
X축에는 기본적으로 10개의 빈이 표시되어, 선택한 측정값의 간격을 나타냅니다. 다음 단계에서 빈을 사용자 지정할 수 있습니다.
-
Y축에는 각 빈에 있는 개별 값의 절대 개수가 표시됩니다.
-
-
(선택 사항) 시각적 제어에서 형식을 선택하여 히스토그램 형식을 변경합니다. 빈의 형식을 개수 또는 너비로 지정할 수 있으며 둘 다 함께 지정할 수는 없습니다. 개수 설정은 표시되는 빈의 수를 변경합니다. 너비 설정은 각 빈에 포함된 간격의 너비나 길이를 변경합니다.
히스토그램 형식 지정하기
히스토그램의 형식을 지정하려면 다음 절차를 따르십시오.
히스토그램의 형식을 지정하려면
-
작업할 히스토그램 차트를 선택합니다. 강조 표시된 선택 항목이어야 합니다. 시각적 제어는 히스토그램의 오른쪽 위에 표시됩니다.
-
시각적 제어 메뉴에서 톱니바퀴 아이콘을 선택하여 시각적 객체 형식 지정 옵션을 봅니다.
-
속성 창에서 다음 옵션을 설정하여 히스토그램 표시를 제어합니다.
-
히스토그램 설정. 다음 설정 중 하나를 선택합니다.
-
빈 개수(옵션 1): X축에 표시되는 빈 개수입니다.
-
빈 너비(옵션 1): 각 간격의 너비(또는 길이)입니다. 이 설정은 각 빈에 포함할 항목 또는 이벤트 개수를 제어합니다. 예를 들어 데이터가 분 단위로 표시되는 경우 이 값을 10으로 설정하여 10분 간격을 표시할 수 있습니다.
-
-
다음 설정을 사용하여 데이터 세트의 히스토그램 형식을 지정하는 가장 좋은 방법을 탐색할 수 있습니다. 예를 들어, 경우에 따라 하나의 빈에 높은 피크가 있는 반면, 대부분의 다른 빈은 드물게 보일 수 있습니다. 이것은 유용한 보기가 아닙니다. 다음 설정을 개별적으로 또는 함께 사용할 수 있습니다.
-
X축 설정에서 표시되는 데이터 포인트 수을(를) 변경합니다.
Amazon QuickSight에서는 기본적으로 최대 100개의 빈(버킷)을 표시합니다. 더 많이 표시하려면(최대 1,000개) 표시되는 데이터 포인트 수에 대한 X축 설정을 변경합니다.
-
Y축 설정에서 로그 스케일을 사용 설정합니다.
경우에 따라 데이터가 원하는 모양에 맞지 않아 잘못된 결과를 제공할 수 있습니다. 예를 들어 셰이프가 오른쪽으로 왜곡되어 제대로 읽을 수 없는 경우 로그 눈금을 적용할 수 있습니다. 이렇게 하면 데이터를 정규화하지 않지만 스큐를 줄입니다.
-
데이터 레이블을 표시합니다.
차트의 절대 값을 보기 위해 데이터 레이블의 표시를 활성화할 수 있습니다. 대부분의 경우 이러한 항목을 표시하지 않으려는 경우에도 분석을 개발하는 동안 활성화할 수 있습니다. 레이블은 너무 작아서 눈에 띄지 않는 빈의 개수를 표시하므로 형식 및 필터링 옵션을 결정하는 데 도움이 됩니다.
모든 데이터 레이블이 겹치는 경우에도 표시하려면 레이블 중첩 허용을 선택합니다.
-
-
-
(선택 사항) 다른 시각적 설정을 변경합니다. 자세한 내용은 Amazon QuickSight에서 형식 지정 단원을 참조하십시오.
히스토그램 이해하기
히스토그램은 막대 차트와 비슷해 보이지만 매우 다릅니다. 사실, 유일한 유사점은 막대를 사용하는 모양입니다. 히스토그램에서 각 막대를 빈 또는 버킷이라고 합니다.
각 빈에는 간격이라는 값의 범위가 포함되어 있습니다. 빈 중 하나에서 일시 중지하면 간격에 대한 세부 정보가 문자 모양으로 둘러싸인 두 숫자를 표시하는 도구 설명에 나타납니다. 둘러싸는 문자 모양의 유형은 다음과 같이 그 안에 있는 숫자가 선택한 빈 안에 있는 간격의 일부인지 여부를 나타냅니다.
-
숫자 옆에 대괄호가 있으면 숫자가 포함되어 있음을 의미합니다.
-
숫자 옆의 괄호는 해당 숫자가 제외됨을 의미합니다.
예를 들어, 히스토그램의 첫 번째 막대가 다음 표기법을 표시한다고 가정 해 봅시다.
[1, 10)
대괄호는 숫자 1이 첫 번째 간격에 포함됨을 의미합니다. 괄호는 숫자 10이 제외됨을 의미합니다.
동일한 히스토그램에서 두 번째 막대는 다음 표기법을 표시합니다.
[10, 20)
이 경우 두 번째 간격에 10이 포함되고 20은 제외됩니다. 숫자 10은 두 간격 모두에 존재할 수 없으므로, 표기법은 어떤 것이 이를 포함하는지 보여줍니다.
참고
히스토그램의 간격을 표시하는 데 사용되는 패턴은 표준 수학 표기법에서 비롯됩니다. 다음 예제에서는 10, 20과 그 사이의 모든 숫자를 포함하는 숫자 집합을 사용하여 가능한 패턴을 보여줍니다.
-
[10, 20] - 닫힌 세트입니다. 양쪽 끝에 하드 경계가 있습니다.
-
[10, 21) - 반만 열린 세트입니다. 왼쪽에 하드 경계가 있고 오른쪽에 소프트 경계가 있습니다.
-
(9, 20] - 반만 열린 세트입니다. 왼쪽에 소프트 경계가 있고 오른쪽에 하드 경계가 있습니다.
-
(9, 21) - 열린 세트입니다. 양쪽 끝에 소프트 경계가 있습니다.
히스토그램은 정성적 데이터가 아닌 정량적 데이터(숫자)를 사용하기 때문에 데이터 분포에 논리적 순서가 있습니다. 이를 셰이프라고 합니다. 셰이프는 종종 각 빈의 개수를 기준으로 셰이프가 소유하는 품질을 설명합니다. 더 많은 수의 값이 포함된 빈은 피크를 형성합니다. 값 개수가 더 적은 빈이 차트 엣지에 테일을 형성하고, 피크 사이에 밸리를 형성합니다. 대부분의 히스토그램은 다음 셰이프 중 하나로 나뉩니다.
-
비대칭 또는 왜도 분포는 X축의 하단이나 상단 왼쪽 또는 오른쪽 근처에 클러스터를 형성하는 값을 갖습니다. 왜도의 방향은 피크의 위치가 아니라 데이터의 긴 테일이 있는 위치에 의해 정의됩니다. 이 방향은 평균의 위치도 설명하기 때문에 이런 식으로 정의됩니다. 왜곡된 분포에서 평균과 중위수는 서로 다른 두 숫자입니다. 왜곡된 분포의 다양한 유형은 다음과 같습니다.
-
음의 왜도 또는 좌편향 왜도 - 평균이 정점 왼쪽에 있는 차트입니다. 왼쪽에 더 긴 테일이 있고 오른쪽에 피크가 있으며 때로는 짧은 테일이 뒤따릅니다. 다음 히스토그램은 왼쪽으로 왜곡된 분포를 표시합니다.
-
양의 왜도 또는 우편향 왜도 - 평균이 정점 오른쪽에 있는 차트입니다. 오른쪽에 더 긴 테일이 있고 왼쪽에 피크가 있으며 때로는 짧은 테일이 앞에 있습니다. 다음 히스토그램은 오른쪽으로 왜곡된 분포를 표시합니다.
-
-
대칭 또는 정규 분포는 중심점의 각 측면에 미러링된 셰이프를 갖습니다(예: 종형 곡선). 정규 분포에서 평균과 중위수는 같은 값입니다. 정규 분포의 다양한 유형은 다음과 같습니다.
-
정규 분포, 일명 단봉 - 가장 일반적인 값을 나타내는 하나의 중앙 정점이 있는 차트입니다. 이를 일반적으로 종형 곡선 또는 가우스 분포라고 합니다. 다음 히스토그램은 정규 분포를 표시합니다.
-
쌍봉 - 가장 일반적인 값을 나타내는 두 개의 정점이 있는 차트입니다. 다음 히스토그램은 이중 모달 분포를 표시합니다.
-
다봉 - 가장 일반적인 값을 나타내는 세 개 이상의 정점이 있는 차트입니다. 다음 히스토그램은 다중 모달 분포를 표시합니다.
-
균등 - 데이터 분포가 상대적으로 동일하고 정점이나 굴곡이 없는 차트입니다. 다음 히스토그램은 균일 분포를 표시합니다.
-
다음 표는 막대 차트와 히스토그램이 어떻게 다른지 보여줍니다.
히스토그램(Histogram) | 막대 차트 |
---|---|
히스토그램은 한 필드에 값의 분포를 표시합니다. | 막대 차트는 차원별로 그룹화된 한 필드의 값을 비교합니다. |
히스토그램은 값 범위를 나타내는 빈으로 값을 정렬합니다(예: 1~10, 10~20 등). | 막대 차트는 범주로 그룹화된 값을 표시합니다. |
모든 빈의 합은 필터링된 데이터에 있는 값의 정확히 100%와 같습니다. | 막대 차트가 사용 가능한 모든 데이터를 표시하는 데 필요한 것은 아닙니다. 시각적 수준에서 표시 설정을 변경할 수 있습니다. 예를 들어 막대 차트에는 상위 10개 데이터 범주만 표시될 수 있습니다. |
막대를 다시 정렬하면 차트의 의미가 전체적으로 손상됩니다. | 막대는 차트의 의미를 전체적으로 변경하지 않고 임의의 순서로 표시될 수 있습니다. |
막대 사이에는 공백이 없으므로 연속 데이터라는 사실을 나타냅니다. | 막대 사이에는 공백이 있으므로 범주형 데이터라는 사실을 나타냅니다. |
히스토그램에 선이 포함되어 있으면 데이터의 일반적인 셰이프를 나타냅니다. | 막대 차트에 선이 포함된 경우 콤보 차트라고 하며 이 선은 막대와 다른 측정값을 나타냅니다. |