資料的深入解析 - Amazon Machine Learning

我們不再更新 Amazon Machine Learning 服務或接受新使用者。本文件適用於現有使用者,但我們不再對其進行更新。如需詳細資訊,請參閱什麼是 Amazon Machine Learning

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

資料的深入解析

Amazon ML 會計算輸入資料的描述性統計資料,方便您能夠了解資料。

描述性統計資料

Amazon ML 會計算不同屬性類型的下列描述性統計資料:

數值:

  • 色階分佈圖

  • 無效值的數量

  • 最小值、中間值、平均值與最大值

二元與分類:

  • (每個類別的相異值) 計數

  • 數值色階分佈圖

  • 最常出現的值

  • 不重複的值計數

  • true 值的百分比 (僅限二元)

  • 最重要的單字

  • 最常出現的單字

文字:

  • 屬性的名稱

  • 與目標的相互關聯性 (如有設定目標)

  • 總字數

  • 不重複的文字

  • 單一資料列中的字數範圍

  • 單字長度範圍

  • 最重要的單字

在 Amazon ML 主控台上存取資料的深入解析

在 Amazon ML 主控台上,您可以選擇任何資料來源的名稱或 ID,以檢視其資料的深入解析(憑證已建立!) 頁面上的名稱有些許差異。此頁面提供指標與視覺效果,可讓您了解資料來源相關聯的輸入資料,包括下列資訊:

  • 資料摘要

  • 目標分佈

  • 缺少的值

  • 無效值

  • 變數的摘要統計資料 (依資料類型)

  • 變數的分佈 (依資料類型)

下列各節將詳細說明指標與視覺效果。

資料摘要

資料來源的資料摘要報告顯示摘要資訊,包括資料來源 ID、名稱、完成位置、目前的狀態、目標屬性、輸入資料資訊 (S3 儲存貯體位置、資料格式、已處理的記錄數與處理期間發生的錯誤記錄數),以及變數的數量 (依資料類型)。

目標分佈

目標分佈報告顯示資料來源的目標屬性分佈。下列範例有 39,922 個觀察,其中的 willRespondToCampaign 目標屬性等於 0。這是未回應電子郵件行銷活動的客戶人數。總共有 5,289 個觀察,其中 willRespondToCampaign 等於 1。這是已回應電子郵件行銷活動的客戶人數。

Bar chart showing target distributions for willRespondToCampaign: 39,922 for one category, 5,289 for another.

缺少的值

缺少的值報告會列出輸入資料中缺少值的屬性。只有資料類型為數值的屬性才會缺少值。因為缺少值可能會影響 ML 模型的訓練品質,所以建議您盡可能提供所缺少的值。

在 ML 模型訓練期間,如有缺少目標屬性,Amazon ML 會拒絕對應的記錄。若記錄中有目標屬性,但缺少另一個數值屬性的值,則 Amazon ML 會忽略缺少的值。此時,Amazon ML 會建立替代屬性,並將其設定為 1 表示缺少此屬性。這可讓 Amazon ML 學習缺少的值出現的模式。

無效值

只有數值與二元資料類型才會出現無效值。您可以檢視資料類型報告中的變數摘要統計資料來尋找無效值。在下列範例中,持續時間的數值屬性有一個無效值,二元資料類型有兩個無效值 (分別在房屋屬性與貸款屬性中)。

Table showing numeric variable "duration" with correlations, missing values, range, mean, and median.

Table showing binary variables with correlations, percentages, and invalid values for campaign data.

變數與目標的相互關聯性

建立資料來源之後,Amazon ML 可評估資料來源,找出變數與目標之間的相互關聯性或影響。例如,產品價格對於能否成為暢銷商品的影響可能很大,但產品大小對於預測的影響可能就很小。

一般會建議在訓練資料中加入愈多的變數愈好。但加入許多對於預測影響很小之變數所帶來的干擾,可能會對您的 ML 模型品質與正確性造成負面影響。

您可以移除訓練模型時影響力很小的變數,藉此改善模型的預測效能。您可以在食譜,這是亞馬遜 ML 的轉換機制。若要進一步了解配方,請參閱機器學習的資料轉換

屬性的摘要統計資料 (依資料類型)

在資料深入解析報告中,您可以依下列資料類型檢視屬性摘要統計資料:

  • 二進位

  • 分類

  • 數值

  • 文字

二元資料類型的摘要統計資料會顯示所有的二元屬性。Correlations to target (與目標的相互關聯性) 資料行會顯示目標資料行與屬性資料行中相同的資訊。Percent true (true 的百分比) 資料行顯示觀察值為 1 的百分比。Invalid values (無效值) 資料行顯示無效值的數目,以及每個屬性的無效值所占百分比。Preview (預覽) 資料行提供每個屬性圖形化分佈的連結。

Table showing binary variables with correlations, percentages, and invalid values for campaign data.

分類資料類型的摘要統計資料顯示所有分類屬性,以及不重複的值、最常出現的值與最少出現的值的數量。Preview (預覽) 資料行提供每個屬性圖形化分佈的連結。

Table showing categorical variables with correlations, unique values, and frequency data.

數值資料類型的摘要統計資料顯示所有數值屬性,以及缺少的值、無效值、值的範圍、平均值與中間值的數量。Preview (預覽) 資料行提供每個屬性圖形化分佈的連結。

Table showing numeric variable "duration" with correlations, missing values, range, mean, and median.

文字資料類型的摘要統計資料顯示所有的文字屬性、該屬性的總字數、該屬性中不重複的單字數、屬性的字數範圍、單字長度的範圍與最重要的單字。Preview (預覽) 資料行提供每個屬性圖形化分佈的連結。

Table showing text attributes with correlations, word counts, and ranges for a phrase.

下一個範例顯示文字變數 "review" 的文字資料類型統計資料,其中包含四筆記錄。

1. The fox jumped over the fence. 2. This movie is intriguing. 3. 4. Fascinating movie.

此範例的資料行顯示下列資訊。

  • Attributes (屬性) 資料行顯示變數的名稱。在此範例中,此資料行會顯示 "review"。

  • 若已指定目標,才會有 Correlations to target (與目標的相互關聯性) 資料行。相互關聯性測量此屬性所提供與目標相關的資訊量。相互關聯性愈高,此屬性所提供與目標相關的資訊量愈多。相互關聯性在測量文字屬性的簡單表示與目標之間共有的資訊。

  • Total words (總字數) 資料行顯示字符化每筆記錄後所產生的字數,並會以空格分隔每個單字。在此範例中,此資料行會顯示 "12"。

  • Unique words (不重複的單字) 資料行顯示屬性中不重複的單字數。在此範例中,此資料行會顯示 "10"。

  • Words in attribute (range) (屬性中的字數 (範圍)) 資料行顯示屬性之單一資料列中的字數。在此範例中,此資料行會顯示 "0-6"。

  • Word length (range) (單字長度 (範圍)) 資料行顯示單字中的字元數範圍。在此範例中,此資料行會顯示 "2-11"。

  • Most prominent words (最重要的單字) 資料行顯示屬性中出現之單字的排名清單。如有目標屬性,所有單字會依其與目標的相互關聯性排名,亦即,相互關聯性最高的單字會最先列出。若資料中沒有目標,則所有單字會依其熵排名。

了解分類與二元屬性的分佈

您可以按一下與分類或二元屬性相關聯的 Preview (預覽) 連結檢視該屬性的分佈,以及屬性的每一個分類值輸入檔案中的範例資料。

例如,下列螢幕擷取畫面顯示分類屬性 jobId 的分佈。此分佈顯示前 10 個分類值,以及分組為「其他」的所有其他值。其會排名前 10 個分類值,並提供輸入檔案中包含該值的觀察數,以及可檢視輸入資料檔案中範例觀察的連結。

Bar chart showing top 10 job categories, with blue-collar jobs having the highest count at 9,732.

了解數值屬性的分佈

若要檢視數值屬性的分佈,可按一下該屬性的 Preview (預覽) 連結。檢視數值屬性的分佈時,可以選擇量化大小 500、200、100、50 或 20。量化大小愈大,顯示的長條圖數值愈小。此外,量化大小很大的分佈解析度會比較粗糙。反之,若將儲存貯體大小設定為 20,顯示的分佈解析度會相對提升。

此外也會顯示最小值、平均值與最大值,如下列螢幕擷取畫面所示。

Histogram showing duration distribution, with highest frequency near 0 and decreasing as duration increases.

了解文字屬性的分佈

若要檢視文字屬性的分佈,可按一下該屬性的 Preview (預覽) 連結。檢視文字屬性的分佈時,會看到下列資訊。

Table showing word prominence and count for phrases, with "enters" and "trust" ranking highest.

Ranking
(排名)

文字字符會依其傳達的資訊量排名,從最多到最少。

Token
(字符)

Token (字符) 顯示輸入文字中與統計資料列相關的單文。

Word prominence
(單字重要性)

如有目標屬性,文字會依其與目標的相互關聯性排名;因此,相互關聯性最高的文字會最先列出。若資料中沒有目標,則文字會依其熵排名,亦即其可傳達的資訊量。

Count
(計數)

Count (計數) 顯示包含此字符之輸入記錄的數量。

Count percentage
(計數百分比)

Count Percentage (計數百分比) 顯示字符所在之輸入資料列的百分比。