本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
分析 Amazon Personalize 資料集中的資料品質和數量
將資料匯入項目互動、使用者或項目資料集後,您可以使用 Amazon Personalize 主控台來分析資料。您可以透過資料洞見和資料欄和資料列統計資料來了解資料。您也可以了解您可以採取哪些動作來改善資料。這些動作可協助您滿足 Amazon Personalize 資源需求,例如模型訓練需求,或者可以帶來改善的建議。
重要
您無法使用 Amazon Personalize 主控台來分析動作互動或動作資料集中的資料。
進行任何建議的變更後,您可以再次匯入資料,並查看您是否已解決任何問題或改善資料集統計資料。如需更新資料的資訊,請參閱 訓練後更新資料集中的資料。
如果您沒有看到任何洞見,您的資料會符合 Amazon Personalize 資料預期。您可以分析網域資料集群組或自訂資料集群組中的資料。
產生洞見和計算統計資料時,Amazon Personalize 會考慮來自非匿名使用者的所有大量和串流資料。在您將匿名使用者的事件與 建立關聯之前,不會考慮這些事件userId
。如需詳細資訊,請參閱記錄匿名使用者的事件。
分析資料所需的許可
如果您提供使用者 Amazon Personalize 的完整存取權,則不需要變更許可。如果您只授予使用者在 Amazon Personalize 中執行任務所需的許可,您的 AWS Identity and Access Management (IAM) 政策必須包含下列其他資料洞見動作。
-
個人化:CreateDataInsightsJob
-
個人化:ListDataInsightsJobs
-
個人化:DescribeDataInsightsJob
-
個人化:GetDataInsights
資料洞見
以下是您可以在 Amazon Personalize 中產生的可能資料洞見。
Insight | 動作 | 相關資料集 (s) |
---|---|---|
互動資料集只有 X 個互動。模型訓練至少需要 1,000 個互動。我們建議至少 50,000 個。 | 在訓練模型之前匯入 Y 額外的唯一互動記錄。 | 項目互動 |
互動資料集只有 X 個唯一使用者,具有兩個或多個互動。模型訓練至少需要 25 名這類使用者。我們建議至少 1,000 個。 | 為 Y 其他使用者匯入至少 2 個互動記錄。 | 項目互動 |
項目資料集中的項目 X% 在互動資料集中沒有互動,因此可能不建議它們。 |
請確定您匯入所有互動資料,並檢查項目與互動資料集IDs之間是否不相符。檢查下方的資料集統計資料,了解您的項目和互動資料集,以確保您已匯入預期的資料列數。如果您的使用案例或配方使用探勘,請修改探勘組態,以推薦更多沒有互動資料的項目。 |
項目互動和項目 |
使用者資料集中的 X% 使用者在互動資料集中沒有互動。這些使用者會收到熱門項目的建議。 |
請確定您匯入所有互動資料,並檢查使用者與互動資料集IDs之間是否不相符。檢查下方的資料集統計資料,了解您的使用者和互動資料集,以確保您已匯入預期的資料列數。匯入任何其他互動,讓更多使用者擁有互動資料。 |
項目互動和使用者 |
<Users 或 Items 或 Interactions> 資料集具有缺少值的 X% 資料列。這可能會對建議產生負面影響。我們建議所有必要和選用欄位至少完成 70%。 |
匯入其他完整記錄,或在沒有不完整資料列的情況下再次匯入資料,或匯入遺失值以替代資料取代的資料,例如數值資料欄的平均值或分類資料欄的最常見值。 |
任何 |
<datasetType> 資料集中的下列資料欄 (<、 ColumnName...>) 完成率低於 70%:<ColumnName、...>。如果此資料包含在訓練中,可能會對建議產生負面影響。我們建議允許 null 值的資料欄至少完成 70%。 |
匯入其他完整記錄,或在沒有不完整資料列的情況下再次匯入資料,或匯入遺失值以替代資料取代的資料,例如數值資料欄的平均值或分類資料欄的最常見值。 |
任何 |
下列 (數值) 欄具有極端值:<ColumnName, ColumnName...>。極端值不一定是問題,但有時會對建議造成負面影響。 |
使用以下資料欄統計資料,檢查這些資料欄的最小值和最大值是否符合您的期望。如果這些值未預期,請檢查這些資料欄中的資料是否不準確,並檢閱資料收集和資料處理是否有問題。 |
任何 |
下列 (以下) 欄可能超過 1000 個類別:<ColumnName, ColumnName...>。如果此資料包含在訓練中,可能會對建議產生負面影響:<ColumnName, ColumnName...>。 |
檢查您的類別資料是否有問題,例如因拼字變化導致的重複類別。解決任何不正確並再次匯入資料。 |
任何 |
下列文字中繼資料欄 (已完成) 不到 85%,不會用於模型訓練:<ColumnName, ColumnName...>。 |
匯入其他資料列,或使用這些資料欄的文字資料再次匯入資料列 (這些資料列)。 |
項目 |
互動資料集具有超過 10 種唯一事件類型,這會導致模型訓練失敗。 |
檢查您的事件類型資料欄是否有不正確的情況,例如因拼字變動而造成的重複事件類型。移除不必要的事件類型,然後再次匯入資料。 |
項目互動 |
互動資料集具有所有記錄的相同時間戳記。如果您使用 USER_SEGMENTATION 配方,且所有記錄都有相同的時間戳記,則模型訓練將會失敗。 |
檢查您的資料是否有時間戳記問題,並以唯一的時間戳記取代重複的時間戳記。 |
項目互動 |
檢視資料集洞察和統計資料
若要在 Amazon Personalize 資料集中檢視資料的洞見和統計資料,請在 Amazon Personalize 主控台中導覽至資料集,然後選擇執行分析。
檢視洞見和統計資料
-
https://console.aws.amazon.com/personalize/在家中
開啟 Amazon Personalize 主控台並登入您的帳戶。 -
在資料集群組頁面上,選擇您的資料集群組。
-
在導覽窗格中,資料集下選擇資料分析。
-
在右上角,選擇執行分析。Amazon Personalize 會開始分析您的資料。這最多可能需要 15 分鐘。如果成功,結果會顯示在此頁面。
-
在 Insights 中,使用下列項目來篩選顯示的洞見。
-
若要尋找包含特定語言的洞見,請在尋找洞見中輸入您的條件。當您輸入文字時,清單會更新,在洞見或建議的動作中只包含具有確切字串的洞見。
-
若要依資料集類型篩選洞見,請將所有資料集變更為特定資料集類型。清單會更新,只包含與此資料集相關的洞見。
-
-
若要檢視資料集的資料集統計資料,請執行下列動作。
-
若要檢視資料集的一般詳細資訊和統計資料,例如互動資料集中的資料列數、唯一使用者和唯一項目,請展開資料集的 區段。
-
若要檢視資料欄的詳細統計資料,請展開資料集區段,選擇資料欄層級統計資料,然後選擇資料欄的選項按鈕。
-
-
更正資料中的任何問題,再次匯入,然後執行另一個分析以進行驗證。如需再次匯入資料的詳細資訊,請參閱訓練後更新資料集中的資料。