為訓練準備動作中繼資料 - Amazon Personalize

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

為訓練準備動作中繼資料

是您可能想要向使用者推薦的參與或產生收入的活動。操作可能包括安裝您的移動應用程序,完成會員資料,加入您的忠誠計劃或註冊促銷電子郵件。您可以將動作的相關資料匯入 Amazon 個人化動作資料集。動作的資料範例包括動作的唯一 ID、動作的估計值或動作的到期時間戳記。

如果您使用「下一個最佳動作」,則必須匯入動作中繼資料。透過這個方法,Amazon Personalize 會從您匯入動作資料集的動作中預測下一個最佳動作。沒有其他配方或用例使用操作元數據。您無法在網域資料集群組中建立動作資料集。

訓練時,Amazon Personalize 不會使用非分類字串動作資料,例如動作標題或標籤。不過,匯入這些資料仍然可以增強建議。如需詳細資訊,請參閱非分類字串資料

您的批次處理動作資料必須位於CSV檔案中。檔案中的每一列都應代表一個唯一的動作。準備完資料之後,您就可以建立結構描述JSON檔案了。該文件告訴 Amazon Personalize 化您的數據的結構。如需詳細資訊,請參閱為 Amazon Personalize 結構描述建立結構描述JSON檔案

以下各節提供有關如何為 Amazon Personalize 準備動作中繼資料的詳細資訊。如需所有資料類型的大量資料格式準則,請參閱大量資料格式準則

動作資料需求

以下是 Amazon Personalize 的動作資料需求。

  • 您必須具有儲存每個動作的唯一識別碼的 ACTION _ID 欄。每個動作都必須有項目 ID。它必須是 256 string 個字元的最大長度。

  • 您的資料必須至少有一個分類字串或數值中繼資料欄。動作中繼資料欄可以包含空白/空值。我們建議這些欄至少要完成 70%。

  • 在模型訓練期間,Amazon Personalize 最多會考慮 1000 個動作。如果您匯入超過 1000 個動作,Amazon Personalize 會決定要包含在訓練中的動作,並優先考慮新動作 (您最近新增但沒有互動的動作) 以及具有最近互動資料的現有動作。

  • 資料行的最大數目為 10。

操作到期時間戳記數

動作到期時間戳記會指定動作不再有效的日期。您以 Unix 紀元時間格式提供動作到期時間戳記資料,以秒為單位。如果某個動作已過期,Amazon Personalize 就不會將其包含在建議中。

如果您要將動作在建議中的外觀限制在特定時間範圍內,請為動作指定動作到期時間戳記。例如,您可能有一個應用程式會在特定月份執行會員資格磁碟機。您可以為該月底的註冊動作設定到期時間戳記。到達此日期時,Amazon Personalize 會自動停止建議此動作。

如果您將新動作的到期時間戳記設定為過去的時間,或將動作時間戳記更新為過去的時間,則從建議中移除動作最多可能需要 2 小時的時間。

重複頻率資料

重複頻率資料會根據動作互動資料集中的使用者歷史記錄,指定 Amazon Personalize 在使用者與特定動作互動後應等待多少天,才能建議特定動作。您可以指定動作的重複頻率 (以天為單位),最多可指定 30 次。

例如,您可能有一個電子商務應用程序,其中每個用戶都可以創建一個帳戶和個人資料。如果您有complete profile動作,而且想要在使用者與其互動後等待一週,然後再推薦動作,則應指定 7 天作為動作的日期。REPEAT_FREQENCY7 天之後,Amazon Personalize 化開始考慮建議採取的行動。

如果您沒有為某個動作提供重複頻率,Amazon Personalize 將不會對該動作在建議中出現的次數設定任何限制。

值資料

價值數據是每個動作的商業價值或重要性。動作value可以是 1 — 10,其中 10 是資料集中最有價值的動作。

例如,您可能有兩個動作,一個用於註冊基本訂閱,另一個用於註冊高級服務。對於基本服務,您可以指定保費的值5和值,值為10

在決定向使用者推薦的最佳動作時,Amazon Personalize 會使用價值資料作為一個輸入。例如,如果使用者同樣可能採取一個動作或另一個動作,Amazon Personalize 會將建議中最高值的動作排名。

創建時間戳數據

Amazon Personalize 會使用建立時間戳記資料 (採用 Unix 紀元時間格式,以秒為單位) 計算動作的年齡,並相應地調整建議。

如果您沒有建立時間戳記資料,Amazon Personalize 會從任何動作互動資料推斷此資訊。它會使用動作最舊互動資料的時間戳記做為動作的建立時間戳記。如果動作沒有互動資料,則其建立時間戳記會設定為訓練集中最新互動的時間戳記,而 Amazon Personalize 會將其視為新動作。

分類中繼資料

Amazon Personalize 在識別針對使用者顯示最佳動作的基礎模式時,使用有關動作 (例如季節性或動作排他性) 的分類中繼資料。您可以根據使用案例定義自己的值範圍。分類中繼資料可以是任何語言。

您可以匯入分類資料,並使用它根據動作的屬性篩選建議。如需篩選建議的相關資訊,請參閱篩選建議和使用者區段

分類值最多可包含 1000 個字元。如果您的動作分類值超過 1000 個字元,則資料集匯入工作將會失敗。

非分類字串資料

除了動作外IDs,Amazon Personalize 在訓練時不會使用非分類字串資料,例如動作名稱、動作關鍵字或標籤。但是,Amazon Personalize 化可以在篩選建議時使用它。您可以建立篩選器,以根據非分類字串資料在建議中包含或移除動作。如需篩選條件的詳細資訊,請參閱篩選建議和使用者區段。非分類值最多可包含 1000 個字元。

動作元資料範例

CSV檔案中的前幾行動作中繼資料可能如下所示。

ACTION_ID,VALUE,MEMBERSHIP_LEVEL,CREATION_TIMESTAMP,REPEAT_FREQUENCY 1,10,Deluxe|Premium,1510003267,7 2,5,Basic,1580003267,7 3,5,Preview,1590003267,3 4,10,Deluxe|Platinum,1560003267,4 ... ...

ACTION_ID 欄是必填欄。該MEMBERSHIP_LEVEL列是一個分類字符串字段。VALUECREATION_TIMESTAMP、和REPEAT_FREQUENCY欄位是具有必要類型的保留關鍵字。

準備完資料之後,您就可以建立結構描述JSON檔案了。該文件告訴 Amazon Personalize 化您的數據的結構。如需詳細資訊,請參閱為 Amazon Personalize 結構描述建立結構描述JSON檔案。對於上述範例資料,這就是結構描述JSON檔案的外觀。

{ "type": "record", "name": "Actions", "namespace": "com.amazonaws.personalize.schema", "fields": [ { "name": "ACTION_ID", "type": "string" }, { "name": "VALUE", "type": [ "null", "long" ] }, { "name": "MEMBERSHIP_LEVEL", "type": [ "null", "string" ], "categorical": true }, { "name": "CREATION_TIMESTAMP", "type": "long" }, { "name": "REPEAT_FREQUENCY", "type": [ "long", "null" ] } ], "version": "1.0" }