分析資料集中資料的品質和數量 - Amazon Personalize

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

分析資料集中資料的品質和數量

將資料匯入項目互動、使用者或項目資料集之後,您可以使用 Amazon Personalize 主控台分析資料。您可以透過資料見解以及欄和列統計資料,瞭解您的資料。此外,您還可以了解可以採取哪些措施來改善數據。這些動作可協助您符合 Amazon Personalize 資源需求 (例如模型訓練需求),也可能提供改善的建議。

重要

您無法使用 Amazon Personalize 主控台分析動作互動或動資料集中的資料。

進行任何建議的變更後,您可以再次匯入資料,並查看是否已解決任何問題或改善資料集統計資料。如需更新資料的資訊,請參閱將更多訓練資料匯入資料集

如果您沒有看到任何見解,您的資料會符合 Amazon Personalize 資料的期望。您可以分析「網域」資料集群組或「自訂」資料集群組中的資料。

產生見解和計算統計資料時,Amazon Personalize 會考量來自非匿名使用者的所有大量資料和串流資料。除非您將匿名使用者的事件與userId. 如需詳細資訊,請參閱 記錄匿名用戶的事件

分析資料所需的權限

如果您授予使用者完整的 Amazon 個人化存取權限,則不需要變更許可。如果您僅授與使用者在 Amazon Personalize 中執行任務所需的許可,則您的 AWS Identity and Access Management (IAM) 政策必須包含下列其他資料洞察動作。

  • 個性化:CreateDataInsightsJob

  • 個性化:ListDataInsightsJobs

  • 個性化:DescribeDataInsightsJob

  • 個性化:GetDataInsights

資料洞察

以下是您可以在 Amazon Personalize 中產生的可能資料見解。

Insight 動作 相關資料集
互動資料集只有 X 互動。模型訓練至少需要 1,000 次互動。我們建議至少 5 萬。 在訓練模型之前匯入 Y 個其他唯一互動記錄。 項目互動
互動資料集只有 X 個具有兩個以上互動的唯一使用者。模型訓練至少需要 25 個此類使用者。我們建議至少 1,000 人。 針對 Y 其他使用者,每筆至少匯入 2 筆互動記錄。 項目互動
Items 資料集中 X% 的項目在互動資料集中沒有互動,因此可能不建議使用這些項目。

請務必匯入所有互動資料,並檢查項目與互動資料集之間的 ID 不相符。請查看下方項目和互動資料集的「資料集統計資料」,確認您已匯入預期的列數。如果您的使用案例或方案使用探索,請修改探索配置以推薦更多沒有互動資料的項目。

項目互動和項目
使用者資料集中 X% 的使用者在互動資料集中沒有互動。這些用戶將收到熱門項目的建議。

請務必匯入所有互動資料,並檢查使用者與互動資料集之間的 ID 不相符。請查看下面的使用者和互動資料集的「資料集統計資料」,確定您已匯入預期的列數。匯入任何其他互動,讓更多使用者擁有互動資料。

項目互動和用戶
資<Users or Items or Interactions>料集具有缺少值的 X% 資料列。這可能會對建議產生負面影響。我們建議所有必要欄位和選用欄位至少完成 70%。

匯入其他完整記錄,或再次匯入資料而不完整的列,或者再次匯入資料,而缺少的值取代為替代資料,例如數值欄的平均值或分類欄最常用的值。

任何
資料集中的下列資<datasetType>料欄未完成 70%:< ColumnName、 ColumnName... >。如果此資料包含在訓練中,可能會對建議產生負面影響。我們建議允許 Null 值的資料行至少完成 70%。

匯入其他完整記錄,或再次匯入資料而不完整的列,或者再次匯入資料,而缺少的值取代為替代資料,例如數值欄的平均值或分類欄最常用的值。

任何
以下(數字)列具有異常值:<ColumnName, ColumnName... >。異常值並不總是一個問題,但有時會對建議產生負面影響。

使用下面的列統計信息,檢查這些列的最小值和最大值是否符合您的期望。如果這些值非預期,請檢查這些欄中的資料是否有不正確,並檢閱資料收集和資料處理是否有問題。

任何
下列欄位有超過 1000 種可能的類別:< ColumnName、 ColumnName... >。如果此資料包含在訓練中,可能會對建議產生負面影響:< ColumnName、 ColumnName... >。

檢查您的分類資料是否存在問題,例如由於拼字變化造成的重複類別。解決任何不準確之處並再次匯入資料。

任何
下列文字中繼資料欄的完成率低於 85%,而且不會用於模型訓練:< ColumnName、 ColumnName... >。

匯入其他列或再次匯入包含這些欄的文字資料列。

項目
互動資料集有超過 10 個唯一的事件類型,這將導致模型訓練失敗。

檢查您的事件類型欄是否有不正確的問題,例如由拼字變化造成的重複事件類型。移除不必要的事件類型並重新匯入資料。

項目互動
互動資料集的所有記錄都具有相同的時間戳記。如果您使用 USER_STREATEGORING 方案,且所有記錄都具有相同的時間戳記,則模型訓練將會失敗。

檢查資料是否有時間戳記問題,並以唯一的時間戳記取代重複的時間戳記。

項目互動

檢視資料集見解和統計資

若要檢視 Amazon 個人化資料集中資料的深入解析和統計資料,請在 Amazon Personalize 主控台中導覽至您的資料集,然後選擇執行分析。

若要檢視見解和統計資料
  1. https://console.aws.amazon.com/personalize/home 打開 Amazon Personalize 化控制台並登錄到您的帳戶。

  2. 在 [資料集群組] 頁面上,選擇您的資料集群組。

  3. 從導覽窗格的 [資料] 下選擇 [資料分析]。

  4. 選擇右上角的 [執行分析]。Amazon Personalize 化開始分析您的數據。這最多可能需要 15 分鐘。如果成功,結果會顯示在此頁面上。

  5. 在「深入解析」中,使用下列項目篩選出現的深入解析。

    • 若要尋找包含特定語言的見解,請在尋找深入分析中輸入您的條件。當您輸入文字時,清單會更新,只在深入解析或建議動作中包含具有完全相同字串的深入解析。

    • 若要依資料集類型篩選見解,請將 [所有資料集] 變更為特定資料集類型。清單會更新,僅包含與此資料集相關的深入解析。

  6. 若要檢視資料集的資料集統計資料,請執行下列動作。

    • 若要檢視資料集的一般詳細資料和統計資料,例如 Interact 資料集中的列數、不重複使用者和唯一項目,請展開資料集的區段。

    • 若要檢視資料欄的詳細統計資料,請展開資料集段落,選擇資料欄層次統計資料,然後選擇資料欄的圓鈕。

  7. 修正資料中的任何問題,再次匯入資料,然後執行另一個分析以進行驗證。如需再次匯入資料的詳細資訊,請參閱將更多訓練資料匯入資料集