項目資料集 - Amazon Personalize

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

項目資料集

您可以匯入 Amazon Personalize 的項目資料包括數值和類別中繼資料,例如建立時間戳記、價格、類型、說明和可用性。您可以將項目相關的中繼資料匯入 Amazon 個人化項目資料集

訓練時,Amazon Personalize 不會使用非分類字串項目資料,例如項目標題或作者資料。不過,某些 Amazon Personalize 功能確實會使用這些資料來增強建議。如需更多資訊,請參閱非分類字串資料

中繼資料行的最大數目為 100。Amazon Personalize 在訓練期間考慮的最大項目數取決於您的使用案例或配方。只有在訓練期間考慮的項目才能顯示在建議中。

  • 對於使用者個人化-V2 或個人化排名-v2,在訓練期間,模型所考慮的項目的最大數目為 500 萬。這些項目來自「項目」和「項目」互動資料集。

  • 對於所有網域使用案例和使用者個人化 V2 和個人化排名-v2 以外的自訂配方,在訓練和產生建議期間,模型所考慮的項目數目上限為 750,000。

如需配方需求的詳細資訊,請參閱選擇食譜

本主題提供下列項目資料類型的相關資訊:

創建時間戳數據

Amazon Personalize 會使用建立時間戳記資料 (採用 Unix 紀元時間格式,以秒為單位) 來計算項目的年齡,並相應地調整建議。

如果缺少一個或多個項目的建立時間戳記資料,Amazon Personalize 會從互動資料 (如果有的話) 推斷此資訊,並使用項目最舊互動資料的時間戳記作為項目的建立時間戳記。如果項目沒有互動資料,則其建立時間戳記會設定為訓練集中最新互動的時間戳記,Amazon Personalize 會將其視為新項目。

分類中繼資料

使用某些配方和網域時,Amazon Personalize 會使用分類中繼資料,例如項目的類型或顏色,以便識別為使用者顯示最相關項目的基礎模式。您可以根據您的使用案例定義自己的值範圍。分類中繼資料可以是任何語言。

對於所有配方和網域,您可以匯入分類資料,並根據項目的屬性來篩選建議。如需篩選建議的相關資訊,請參閱篩選建議和使用者區段

分類值最多可包含 1000 個字元。如果您的項目分類值超過 1000 個字元,則資料集匯入工作將會失敗。

對於網域資料集群組,VIDEO_ON_DEMAND 和電子商務網域都使用分類中繼資料。對於自訂資料集群組和自訂解決方案,使用分類中繼資料的方法如下:

非結構化文本元數據

透過某些配方和網域,Amazon Personalize 可以從非結構化文字中繼資料擷取有意義的資訊,例如產品說明、產品評論或電影摘要。Amazon Personalize 會使用非結構化文字來識別使用者的相關項目,尤其是當項目是新項目或互動資料較少時。在項目資料集中加入非結構化文字資料,以提高目錄中新項目的點進率和對話率。

若要使用非結構化資料,請將具有類型的欄位新增string至項目結構描述,並將欄位的textual屬性設定為true。您最多可以添加 1 個文本字段。然後在大量 CSV 檔案中包含文字資料,並匯入個別項目。

對於大量 CSV 檔案,請使用雙引號包裝文字,並移除任何新行字元。使用\字元可逸出資料中的任何雙引號或\ 字元。如需具有非結構化文字資料欄位之項目結構描述的範例,請參閱項目資料集結構描述範例 (自訂)。Amazon Personalize 化在字符限制下截斷文本字段。請確定文字中最相關的資訊位於欄位的開頭。如需將資料匯入 Amazon Personalize 的相關資訊,請參閱步驟 2:準備和匯入資料

非結構化文字值在所有語言中最多可有 20,000 個字元 (中文和日文除外)。對於中文和日文,您最多可以有 7,000 個字符。Amazon Personalize 化會截斷超過字符限制的字符限制的值。

文字可以使用下列語言:

  • 簡體中文

  • 繁體中文

  • 英文

  • 法文

  • 德文

  • 日文

  • 葡萄牙文

  • 西班牙文

您可以使用多種語言提交非結構化文字項目,但每個項目的文字只能使用一種語言。

對於網域資料集群組,VIDEO_ON_DEMAND 和電子商務網域都使用文字中繼資料。對於自訂資料集群組和自訂解決方案,使用文字中繼資料的方法如下:

非分類字串資料

除了項目 ID 之外,Amazon Personalize 在訓練時不會使用非分類字串資料,例如項目標題或作者資料。但是,Amazon Personalize 化可以使用它具有以下功能:

  • Amazon Personalize 可以在建議中包含項目中繼資料,包括非分類字串值。您可以使用中繼資料來豐富使用者介面中的建議項目,例如將導演的名稱新增至影片推薦輪播。如需詳細資訊,請參閱 建議的項目中繼資料

  • 如果您使用類似物品,您可以產生包含佈景主題的批次建議。當您產生包含主題的批次建議時,必須在批次推論工作中指定項目名稱欄。如需詳細資訊,請參閱 包含內容生成器主題的 Batch 推薦

  • 您可以建立篩選器,以根據非分類字串資料在建議中包含或移除項目。如需篩選條件的詳細資訊,請參閱篩選建議和使用者區段