使用直方圖 - Amazon QuickSight

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

使用直方圖

在 Amazon QuickSight 使用直方圖顯示數據中連續數值的分佈。Amazon QuickSight 使用非標準化直方圖,這些直方圖使用每個資料桶中資料點或事件的絕對計數。

若要建立直方圖,請使用一項度量。新的直方圖最初會在 X 軸中顯示十個 bin (也稱為儲存貯體)。這些會在圖表上顯示為長條。您可以自訂適用於您資料集的長條。Y 軸會顯示每個 bin 中的值的絕對計數。

Histogram showing distribution of Twitter mentions, with highest frequency in the 0-1 range.

請務必調整格式設定,以便獲得可清晰辨識的形狀。如果資料包含極端值,這在您發現一或多個值落在 X 軸端之外時會變得顯而易見。如需 Amazon 如何 QuickSight處理超出顯示限制之資料的詳細資訊,請參閱顯示限制

直方圖功能

使用下表以了解直方圖支援的功能。

功能 支援? 說明 如需詳細資訊
變更圖例顯示 視覺類型的圖例 QuickSight
變更標題顯示 中視覺類型的 QuickSight 標題和字幕 QuickSight
變更軸範圍 不過,您可以變更 bin 計數或 bin 間隔寬度 (分佈範圍)。
顯示或隱藏軸線、網格線、軸標籤和軸排序圖示 中視覺類型上的軸和網格線 QuickSight
變更視覺效果顏色 視覺類型中的顏色 QuickSight
聚集於或排除元素
排序
執行欄位彙總 直方圖僅使用計數彙總。
新增向下切入

建立直方圖

使用下列程序建立直方圖。

如何建立直方圖
  1. 在分析頁面,選擇工具列上的 Visualize (視覺化)

  2. 選擇應用程式列上的 Add (新增),然後選擇 Add visual (新增視覺效果)

  3. Visual types (視覺化效果類型) 窗格上,選擇直方圖圖示:

    Histogram chart showing data distribution with bars of varying heights.
  4. Fields list (欄位清單) 窗格上,選擇您要適當地在 Value (值) 欄位中使用的欄位。Count (計數) 彙總會自動套用至該值。

    產生的直方圖會顯示下列內容:

    • X 軸會依預設顯示 10 個 bin,代表您選擇之量度中的間隔。您可以在下一個步驟中自訂 bin。

    • Y 軸會顯示每個 bin 中的個別值的絕對計數。

  5. (選用) 在視覺化效果控件上選擇 Format (格式),以變更直方圖格式。您可以依據計數或寬度 (但不能同時依據兩者) 來格式化 bin。計數設定會變更 bin 的顯示數量。寬度設定會變更每個 bin 包含之間隔的寬度或長度。

格式化直方圖

使用下列程序格式化直方圖。

如何格式化直方圖
  1. 選擇您要使用的直方圖。它應該會顯示為反白的選取項目。視覺化效果控件會顯示在直方圖右上角。

  2. 選擇視覺化效果控件功能表上的齒輪圖示,以檢視 Format visual (格式化視覺化效果) 選項。

  3. 在「性質」窗格中,設定下列選項以控制色階分佈圖的顯示:

    • Histogram (直方圖) 設定。選擇下列其中一個設定:

      • Bin 計數 (選項 1):X 軸上顯示的 Bin 數量。

      • Bin 寬度 (選項 1):每個間隔的寬度 (或長度)。此設定會控制每個 Bin 中要包含的項目或事件數量。例如,如果資料是以分鐘為單位,您可以將此設定為 10 以顯示 10 分鐘的間隔。

    • 透過下列設定,您可以探索格式化資料集直方圖的最佳方式。例如,在某些情況下,您可能有在某個 bin 中有一個高峰,而大多數其他 bin 看起來是疏鬆的狀態。這並不是實用的視圖。您可以個別或一起使用下列設定:

      • 變更 X 軸設定中顯示的資料點數目

        Amazon 默認情況下最多可 QuickSight 顯示 100 個箱子(桶)。若要顯示更多 (最多 1,000 個),請變更 Number of data points displayed (顯示的資料點數) 的 X 軸設定。

      • Y 軸設定中啟用對數刻度

        資料有時無法符合您想要的形狀,而這可能會提供誤導的結果。例如,如果右側遠端處形狀扭曲而使您無法正確讀取,您可以對它套用日誌刻度。不過,這麼做不會使資料標準化,而是減少扭曲的情況。

      • 顯示 Data labels (資料標籤)

        您可以啟用資料標籤顯示,以查看圖表中的絕對計數。即使您在大多數情況下不想顯示這些內容,但您仍可在進行分析時啟用它們。這些標籤可協助您決定格式化和篩選選項,因為它們會反映那些太小而無法突出之 bin 中的計數。

        若要查看所有資料標籤,即使它們彼此重疊,仍請啟用 Allow labels to overlap (允許標籤重疊)

  4. (選用) 變更其他視覺化效果設定。如需詳細資訊,請參閱 在 Amazon 格式化 QuickSight

了解直方圖

雖然直方圖看起來和長條圖很相似,但它們是不同的。事實上,唯一的相似性在於其外觀,因為它們都使用長條。在直方圖上,我們將每個長條稱為 bin儲存貯體

每個 bin 都包含某個範圍的值 (稱為間隔。當您暫時停留在其中一個 bin 時,該間隔的相關詳細資料會顯示在工具提示中,顯示以字元括住的兩個數字。以字元括住的這種類型代表其中的數字是否屬於位於所選 bin 內的間隔,如下所示:

  • 如果數字旁邊是方括號,則表示包含該數字。

  • 如果數字旁邊是括號,則表示不包含該數字。

例如,假設直方圖中的第一個長條顯示下列表示法。

[1, 10)

方括號表示數字 1 已包含在第一個間隔中。括號表示不包含數字 10。

在同一個直方圖中,第二個長條會顯示下列表示法。

[10, 20)

在此情況下,10 已包含在第二個間隔中,而且不包含 20。數字 10 無法同時存在於兩個間隔,因此此表示法會顯示哪一個間隔包含該數字。

注意

在直方圖中用來標示間隔的模式來自於標準數學表示法。下列範例使用一組包含 10、20 和介於這之間所有數字的數字,顯示可能的模式。

  • [10, 20] - 這組為封閉式。它在兩端都有硬性界限。

  • [10, 21) - 這組為半開放式。它在左側有一個硬性界限,在右側有一個軟性界限。

  • (9, 20] - 這組為半開放式。它在左側有一個軟性界限,在右側有一個硬性界限。

  • (9, 21) - 這組為開放式。它在兩端都有軟性界限。

因為此直方圖使用量性資料 (數字),而不是質性資料,因此資料分佈會有邏輯順序。這就是所謂的形狀。形狀通常會根據每個 bin 的計數用來描述形狀擁有的品質。包含數量較多的值的 bin 會形成尖峰。包含數量較少的值的 bin 會在圖表邊緣形成結尾,並在尖峰之間形成低谷。大多數直方圖屬於下列其中一種形狀:

  • 非對稱或扭曲分佈具有聚集在左側或右側附近的值 - 亦即 X 軸的低端或高端。扭曲的方向會根據資料較長結尾的所在位置定義,而不是根據尖峰的所在位置定義。以這種方式定義的原因是,此方向也描述了平均數 (平均值)。在扭曲的分佈中,此平均數和中位數是兩個不同的數字。不同類型的扭曲分佈如下所示:

    • 負向扭曲 (或左側扭曲) - 這種圖表在尖峰左側有平均數。它在左側有一個較長的結尾,且在右側有一個尖峰,後面有時候會接著一個較短的結尾。下列直方圖顯示左側扭曲的分佈。

      Bar graph showing increasing values from left to right, with a longer tail on the left side.
    • 正向扭曲 (或右側扭曲) - 這種圖表在尖峰右側有平均數。它在右側有一個較長的結尾,且在左側有一個尖峰,前面有時候會接著一個較短的結尾。下列直方圖顯示右側扭曲的分佈。

      Histogram showing a right-skewed distribution with a peak on the left and a long tail to the right.
  • 對稱或常態分佈具有一個在中心點每一側上映射的形狀 (例如鐘形曲線)。在常態分佈中,平均數和中位數是相同的值。不同類型的常態分佈如下所示:

    • 常態分佈或單峰 - 這種圖表具有一個代表最常見的值的中心尖峰。這通常稱為鐘形曲線或 Gaussian 分佈。下列直方圖顯示常態分佈。

      Histogram showing a symmetrical bell-shaped distribution with a central peak.
    • 雙峰 - 這種圖表具有兩個代表最常見的值的尖峰。下列直方圖顯示雙峰分佈。

      Histogram showing a bimodal distribution with two distinct peaks in orange bars.
    • 多峰 - 這種圖表具有三個以上代表最常見的值的尖峰。下列直方圖顯示多峰分佈。

      Histogram showing multiple peaks representing a multimodal distribution of data values.
    • 均勻 - 這種圖表沒有任何尖峰或低谷,具有相當相等的資料分佈。下列直方圖顯示均勻分佈。

      Bar chart showing relatively equal heights across all bars, representing a uniform distribution.

下表顯示直方圖與長條圖有何不同。

直方圖 長條圖
直方圖會顯示一個欄位中的值的分佈。 長條圖會比較一個欄位中的值,並依據維度分組。
直方圖會將值排序為代表某個範圍的值的 bin,例如 1-10、10-20 等。 長條圖會繪製分組為多個類別的值。
所有 bin 的總和完全等於篩選資料中 100% 的值。 長條圖不需要顯示所有可用資料。您可以在視覺效果層級上變更顯示設定。例如,長條圖可能只會顯示資料的前 10 大類別。
重新排列長條會減損整體圖表的意義。 長條可為任何順序,而不會變更整體圖表的意義。
如果長條之間沒有空間,則表示這是連續的資料。 如果長條之間有空間,則表示這是類別資料。
如果直方圖中包含線條,則代表資料的一般形狀。 如果長條圖中包含線條,這稱為組合圖,而線條代表與長條不同的量度。