分析 Amazon Personalize 資料集中的資料品質和數量 - Amazon Personalize

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

分析 Amazon Personalize 資料集中的資料品質和數量

將資料匯入項目互動、使用者或項目資料集後,您可以使用 Amazon Personalize 主控台來分析資料。您可以透過資料洞見和資料欄和資料列統計資料來了解資料。您也可以了解您可以採取哪些動作來改善資料。這些動作可協助您滿足 Amazon Personalize 資源需求,例如模型訓練需求,或者可以帶來改善的建議。

重要

您無法使用 Amazon Personalize 主控台來分析動作互動動作資料集中的資料。

進行任何建議的變更後,您可以再次匯入資料,並查看您是否已解決任何問題或改善資料集統計資料。如需更新資料的資訊,請參閱 訓練後更新資料集中的資料

如果您沒有看到任何洞見,您的資料會符合 Amazon Personalize 資料預期。您可以分析網域資料集群組或自訂資料集群組中的資料。

產生洞見和計算統計資料時,Amazon Personalize 會考慮來自非匿名使用者的所有大量和串流資料。在您將匿名使用者的事件與 建立關聯之前,不會考慮這些事件userId。如需詳細資訊,請參閱記錄匿名使用者的事件

分析資料所需的許可

如果您提供使用者 Amazon Personalize 的完整存取權,則不需要變更許可。如果您只授予使用者在 Amazon Personalize 中執行任務所需的許可,您的 AWS Identity and Access Management (IAM) 政策必須包含下列其他資料洞見動作。

  • 個人化:CreateDataInsightsJob

  • 個人化:ListDataInsightsJobs

  • 個人化:DescribeDataInsightsJob

  • 個人化:GetDataInsights

資料洞見

以下是您可以在 Amazon Personalize 中產生的可能資料洞見。

Insight 動作 相關資料集 (s)
互動資料集只有 X 個互動。模型訓練至少需要 1,000 個互動。我們建議至少 50,000 個。 在訓練模型之前匯入 Y 額外的唯一互動記錄。 項目互動
互動資料集只有 X 個唯一使用者,具有兩個或多個互動。模型訓練至少需要 25 名這類使用者。我們建議至少 1,000 個。 為 Y 其他使用者匯入至少 2 個互動記錄。 項目互動
項目資料集中的項目 X% 在互動資料集中沒有互動,因此可能不建議它們。

請確定您匯入所有互動資料,並檢查項目與互動資料集IDs之間是否不相符。檢查下方的資料集統計資料,了解您的項目和互動資料集,以確保您已匯入預期的資料列數。如果您的使用案例或配方使用探勘,請修改探勘組態,以推薦更多沒有互動資料的項目。

項目互動和項目
使用者資料集中的 X% 使用者在互動資料集中沒有互動。這些使用者會收到熱門項目的建議。

請確定您匯入所有互動資料,並檢查使用者與互動資料集IDs之間是否不相符。檢查下方的資料集統計資料,了解您的使用者和互動資料集,以確保您已匯入預期的資料列數。匯入任何其他互動,讓更多使用者擁有互動資料。

項目互動和使用者
<Users 或 Items 或 Interactions> 資料集具有缺少值的 X% 資料列。這可能會對建議產生負面影響。我們建議所有必要和選用欄位至少完成 70%。

匯入其他完整記錄,或在沒有不完整資料列的情況下再次匯入資料,或匯入遺失值以替代資料取代的資料,例如數值資料欄的平均值或分類資料欄的最常見值。

任何
<datasetType> 資料集中的下列資料欄 (<、 ColumnName...>) 完成率低於 70%:<ColumnName、...>。如果此資料包含在訓練中,可能會對建議產生負面影響。我們建議允許 null 值的資料欄至少完成 70%。

匯入其他完整記錄,或在沒有不完整資料列的情況下再次匯入資料,或匯入遺失值以替代資料取代的資料,例如數值資料欄的平均值或分類資料欄的最常見值。

任何
下列 (數值) 欄具有極端值:<ColumnName, ColumnName...>。極端值不一定是問題,但有時會對建議造成負面影響。

使用以下資料欄統計資料,檢查這些資料欄的最小值和最大值是否符合您的期望。如果這些值未預期,請檢查這些資料欄中的資料是否不準確,並檢閱資料收集和資料處理是否有問題。

任何
下列 (以下) 欄可能超過 1000 個類別:<ColumnName, ColumnName...>。如果此資料包含在訓練中,可能會對建議產生負面影響:<ColumnName, ColumnName...>。

檢查您的類別資料是否有問題,例如因拼字變化導致的重複類別。解決任何不正確並再次匯入資料。

任何
下列文字中繼資料欄 (已完成) 不到 85%,不會用於模型訓練:<ColumnName, ColumnName...>。

匯入其他資料列,或使用這些資料欄的文字資料再次匯入資料列 (這些資料列)。

項目
互動資料集具有超過 10 種唯一事件類型,這會導致模型訓練失敗。

檢查您的事件類型資料欄是否有不正確的情況,例如因拼字變動而造成的重複事件類型。移除不必要的事件類型,然後再次匯入資料。

項目互動
互動資料集具有所有記錄的相同時間戳記。如果您使用 USER_SEGMENTATION 配方,且所有記錄都有相同的時間戳記,則模型訓練將會失敗。

檢查您的資料是否有時間戳記問題,並以唯一的時間戳記取代重複的時間戳記。

項目互動

檢視資料集洞察和統計資料

若要在 Amazon Personalize 資料集中檢視資料的洞見和統計資料,請在 Amazon Personalize 主控台中導覽至資料集,然後選擇執行分析。

檢視洞見和統計資料
  1. https://console.aws.amazon.com/personalize/在家中開啟 Amazon Personalize 主控台並登入您的帳戶。

  2. 資料集群組頁面上,選擇您的資料集群組。

  3. 在導覽窗格中,資料集下選擇資料分析

  4. 在右上角,選擇執行分析。Amazon Personalize 會開始分析您的資料。這最多可能需要 15 分鐘。如果成功,結果會顯示在此頁面。

  5. Insights 中,使用下列項目來篩選顯示的洞見。

    • 若要尋找包含特定語言的洞見,請在尋找洞見中輸入您的條件。當您輸入文字時,清單會更新,在洞見或建議的動作中只包含具有確切字串的洞見。

    • 若要依資料集類型篩選洞見,請將所有資料集變更為特定資料集類型。清單會更新,只包含與此資料集相關的洞見。

  6. 若要檢視資料集的資料集統計資料,請執行下列動作。

    • 若要檢視資料集的一般詳細資訊和統計資料,例如互動資料集中的資料列數、唯一使用者和唯一項目,請展開資料集的 區段。

    • 若要檢視資料欄的詳細統計資料,請展開資料集區段,選擇資料欄層級統計資料,然後選擇資料欄的選項按鈕。

  7. 更正資料中的任何問題,再次匯入,然後執行另一個分析以進行驗證。如需再次匯入資料的詳細資訊,請參閱訓練後更新資料集中的資料