ヒストグラムの使用 - Amazon QuickSight

ヒストグラムの使用

Amazon QuickSight でヒストグラムチャートを使用して、データ内の連続した数値の分布を表示します。Amazon QuickSight は、正規化されていないヒストグラムを使用します。ここでは、各ビン内のデータポイントまたはイベントの絶対数が使用されます。

ヒストグラムを作成するには、1 つの測定を使用します。新しいヒストグラムでは、最初に X 軸全体に 10 個のビン (バケット) が表示されます。これらは、グラム上に棒として表示されます。ビンは、データセットに合わせてカスタマイズできます。Y 軸には、各ビン内の値の絶対数が表示されます。

Histogram showing distribution of Twitter mentions, with highest frequency in the 0-1 range.

明確に識別できる図形になるように、書式設定を調整してください。データに外れ値が含まれている場合、X 軸の辺から出た値が 1 つ以上ある場合に明らかになります。Amazon QuickSight が表示制限外のデータをどう扱うかについての詳細は、「表示制限」を参照してください。

ヒストグラムの機能

以下の表を使用して、ヒストグラムでサポートされている機能を確認してください。

機能 サポート対象? コメント 詳細情報
凡例表示の変更 No QuickSight のビジュアルタイプの凡例
タイトル表示の変更 Yes QuickSight のビジュアルタイプに関するタイトルとサブタイトル
軸範囲の変更 No ただし、ビン数またはビン間隔幅 (分布範囲) は変更できます。
軸線、グリッド線、軸ラベル、軸ソートアイコンの表示/非表示 Yes QuickSight のビジュアルタイプの軸とグリッドライン
ビジュアル色の変更 Yes QuickSight のビジュアルタイプの色
要素への注目または要素の除外 No
ソート No
フィールド集計の実行 No ヒストグラムは、カウント集計のみを使用します。
ドリルダウンの追加 No

ヒストグラムの作成

以下の手順に従って、ヒストグラムを作成します。

ヒストグラムを作成するには
  1. 分析ページで、ツールバーの [Visualize (視覚化する)] を選択します。

  2. アプリケーションバーの [Add (追加)] を選択してから、[Add visual (ビジュアルを追加)] を選択します。

  3. [Visual types (ビジュアルタイプ)] ペインで、ヒストグラムのアイコンを選択します。

    Histogram chart showing data distribution with bars of varying heights.
  4. [Fields list (フィールドリスト)] ペインで、[Value (値)] フィールドウェルで使用するフィールドを選択します。[Count (カウント)] 集計が自動的に値に適用されます。

    生成されるヒストグラムには、次の内容が表示されます。

    • X 軸には、デフォルトで 10 個のビンが表示されます。このビンは、選択した測定での間隔を表します。次のステップでビンをカスタマイズできます。

    • Y 軸には、各ビン内の個々の値の絶対数が表示されます。

  5. (省略可能) ビジュアルコントロールの [Format (フォーマット)] を選択して、ヒストグラムの書式を変更します。ビンは、カウントまたは幅のいずれかで書式設定できますが、同時には書式設定できません。カウントの設定により、表示するビンの数が変わります。幅の設定により、各ビンに含まれる間隔の幅または長さが変わります。

ヒストグラムのフォーマット

ヒストグラムを書式設定するには、次の手順に従います。

ヒストグラムを書式設定するには
  1. 操作するヒストグラムを選択します。これは、ハイライトされた選択内容でなければなりません。ビジュアルコントロールは、ヒストグラムの右上に表示されます。

  2. ビジュアルコントロールメニューの歯車アイコンを選択し、[Format Visual (ビジュアルのフォーマット)] オプションを表示します。

  3. [プロパティ] ペインで、次のオプションを設定してヒストグラムの表示を制御します。

    • [Histogram (ヒストグラム)] の設定。次のいずれかの設定を選択します。

      • ビン数 (オプション 1): X 軸に表示されるビンの数。

      • ビンの幅 (オプション 1): 各間隔の幅 (または長さ)。この設定は、各ビンに含めるアイテムまたはイベントの数を制御します。例えば、データが分単位の場合は、10 に設定して 10 分間隔で表示できます。

    • 次の設定を使用して、データセットのヒストグラムを書式設定する最適な方法を調べることができます。例えば、あるビンのピークが高くなっているが、他のほとんどのビンはスパースに見える場合があります。このようなビューは便利とは言えません。次の設定を個別に使用することも、同時に使用することもできます。

      • X 軸の設定で [Number of data points displayed (表示されたデータポイントの数)] を変更します。

        Amazon QuickSight には、デフォルトで最大 100 個のビン (バケット) が表示されます。さらに表示 (最大 1,000 件) する場合、[Number of data points displayed (表示されたデータポイントの数)] の設定を変更します。

      • Y 軸の設定で対数スケールを有効にします。

        場合によっては、データが目的の図形に合わず、誤解を招くような結果になることがあります。例えば、図形が右にかなり歪んで正しく読み取れない場合は、その図形に対数スケールを適用できます。これを行うと、データは正規化されませんが、歪みは減少します。

      • [Data labels (データラベル)] を表示します。

        データラベルの表示を有効にして、グラフ内の絶対数を表示できます。ほとんどの場合は表示する必要がありませんが、分析の作成中に有効にすることができます。ビン内のカウントが小さすぎて目立たないため、ラベルは書式設定やフィルタリングのオプションを判断するのに役立ちます。

        データラベルが重なっている場合でもすべてのデータラベルを表示するには、[Allow labels to overlap (ラベルのオーバーラップを許可)] をオンにします。

  4. (省略可能) その他の表示設定を変更します。詳細については、「Amazon QuickSight でのフォーマット」を参照してください。

ヒストグラムについて

ヒストグラムは棒グラフに似ていますが、大きく異なります。実際に、類似点はバーを使用しているという外観のみです。ヒストグラムでは、各バーはビンまたはバケットと呼ばれます。

各ビンには、間隔と呼ばれる値の範囲が含まれています。いずれかのビンで一時停止すると、間隔の詳細がツールヒントに表示され、ツールヒントにはグリフで囲まれた 2 つの数字が表示されます。囲んでいるグリフの種類は、次のように、その中の数字が、選択したビンの内部にある間隔の一部であるかどうかを示します。

  • 数字の横にある角括弧は、その数字が含まれていることを意味します。

  • 数字の横にある丸括弧は、その数字が除外されていることを意味します。

例えば、ヒストグラムの最初のバーに次の表記が表示されているとします。

[1, 10)

角括弧は、最初の間隔に数字 1 が含まれていることを意味します。丸括弧は、数字 10 が除外されていることを意味します。

同じヒストグラムで、2 番目のバーに次の表記が表示されています。

[10, 20)

この場合、2 番目の間隔には 10 が含まれており、20 は除外されています。数字 10 は両方の間隔に存在することはできないため、表記はどちらに含まれているかを示しています。

注記

ヒストグラムで間隔をマークするために使用されるパターンは、標準的な数学表記法から来ています。次の例は、10、20、およびその間のすべての番号を含む一連の番号を使用した、考えられるパターンを示しています。

  • [10, 20] - このセットはクローズです。両端にハード境界があります。

  • [10, 21) - このセットは半分オープンです。左側にハード境界、右側にソフト境界があります。

  • (9, 20] - このセットは半分オープンです。左側にソフト境界、右側にハード境界があります。

  • (9, 21) - このセットはオープンです。両端にソフト境界があります。

ヒストグラムでは質的データではなく定量的データ (数値) が使用されるため、データの分布には論理的な順序があります。これは形状と呼ばれます。形状は、多くの場合、各ビンの数に基づいて形状が持つ品質を記述します。値の数が多いビンは、ピークを形成します。値の数が少ないビンは、グラフの端にテールを形成し、ピーク間にを形成します。ほとんどのヒストグラムは、次のいずれかの形状になります。

  • 非対称または歪み分布には、X 軸の下端または上端など、左または右端付近にクラスタリングされる値があります。歪みの方向は、ピークの位置ではなく、データの長い方のテールの位置によって定義されます。この方向は平均の位置も表すため、このように定義されます。歪んだ分布では、平均と中央値は 2 つの異なる数値です。歪んだ分布には、次のような種類があります。

    • 方向に歪んでいるかに歪んでいる - ピークの左側に平均があるグラフ。長い方のテールが左にあり、ピークが右にあります (その後に短い方のテールが続くこともあります)。次のヒストグラムは、左に歪んだ分布を示しています。

      Bar graph showing increasing values from left to right, with a longer tail on the left side.
    • 方向に歪んでいるかに歪んでいる - ピークの右側に平均があるグラフ。長い方のテールが右にあり、ピークが左にあります (その前に短い方のテールが続くこともあります)。次のヒストグラムは、右に歪んだ分布を示しています。

      Histogram showing a right-skewed distribution with a peak on the left and a long tail to the right.
  • 対称 (つまり、正規) 分布は、中心点の両側にミラーリングされた形状を持ちます (釣鐘曲線など)。正規分布では、平均値と中央値は同じ値です。正規分布の種類は以下のとおりです。

    • 正規分布または単峰性 - 最も一般的な値を表す中心ピークが 1 つあるグラフ。これは一般に釣鐘曲線またはガウス分布と呼ばれます。次のヒストグラムは、正規分布を示しています。

      Histogram showing a symmetrical bell-shaped distribution with a central peak.
    • 二峰性 - 最も一般的な値を表す 2 つのピークを持つグラフ。次のヒストグラムは、二峰性分布を示しています。

      Histogram showing a bimodal distribution with two distinct peaks in orange bars.
    • 多峰性 - 最も一般的な値を表す 3 つ以上のピークを持つグラフ。次のヒストグラムは、多峰性分布を示しています。

      Histogram showing multiple peaks representing a multimodal distribution of data values.
    • 一様 - データの分布が比較的等しい、ピークまたは谷を持たないグラフ。次のヒストグラムは、一様分布を示しています。

      Bar chart showing relatively equal heights across all bars, representing a uniform distribution.

次の表は、ヒストグラムと棒グラフとの違いを示しています。

Histogram 棒グラフ
ヒストグラムは、1 つのフィールドの値の分布を表します。 棒グラフは、1 つのフィールドの値を、軸ごとにグループ化して比較します。
ヒストグラムは、値の範囲 (1-10、10-20、など) を表すビンに値をソートします。 棒グラフは、カテゴリ別にグループ化された値をプロットします。
すべてのビンの合計は、フィルタリングされたデータ内の値の 100% とちょうど等しくなります。 利用可能なすべてのデータを表示するために、棒グラフは必要ありません。表示設定は、表示レベルで変更できます。例えば、棒グラフにはデータの上位 10 カテゴリのみ表示できます。
棒を並べ替えると、チャート全体の意味が損われます。 棒は、チャート全体の意味を変更することなく、任意の順序にすることができます。
棒の間にスペースはなく、これが連続データであることを表しています。 棒の間には、これがカテゴリデータであるという事実を表すスペースがあります。
線がヒストグラムに含まれている場合、その線はデータの一般的な形状を表しています。 棒グラフに線が含まれている場合、その線は複合グラフと呼ばれ、線は棒とは異なる測定を表しています。