選取您的 Cookie 偏好設定

我們使用提供自身網站和服務所需的基本 Cookie 和類似工具。我們使用效能 Cookie 收集匿名統計資料,以便了解客戶如何使用我們的網站並進行改進。基本 Cookie 無法停用,但可以按一下「自訂」或「拒絕」以拒絕效能 Cookie。

如果您同意,AWS 與經核准的第三方也會使用 Cookie 提供實用的網站功能、記住您的偏好設定,並顯示相關內容,包括相關廣告。若要接受或拒絕所有非必要 Cookie,請按一下「接受」或「拒絕」。若要進行更詳細的選擇,請按一下「自訂」。

準備項目互動資料以供訓練 - Amazon Personalize

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

準備項目互動資料以供訓練

項目互動是使用者與目錄中項目之間的正面互動事件。例如,使用者觀看電影、檢視清單或購買一雙鞋子。您可以將有關使用者與項目互動的資料匯入項目互動資料集。您可以記錄多個事件類型,例如點擊觀看購買

例如,如果使用者按一下特定項目,然後喜歡該項目,您可以讓 Amazon Personalize 使用這些事件做為訓練資料。對於每個事件,您會記錄使用者的 ID、項目的 ID、時間戳記 (以 Unix time epoch 格式) 和事件類型 (按一下 等)。然後,您會將兩個項目互動事件新增至項目互動資料集

對於所有網域使用案例和自訂配方,您的大量項目互動資料必須位於 CSV 檔案中。每一列應代表使用者與項目之間的單一互動。完成資料準備後,您就可以建立結構描述 JSON 檔案。此檔案會告知 Amazon Personalize 您資料的結構。如需詳細資訊,請參閱為 Amazon Personalize 結構描述建立結構描述 JSON 檔案

下列各節提供如何準備 Amazon Personalize 項目互動資料的詳細資訊。如需所有資料類型的大量資料格式準則,請參閱大量資料格式準則

項目互動資料需求

以下各節列出 Amazon Personalize 的項目互動資料需求。如需其他配額,請參閱 Amazon Personalize 端點和配額

最低訓練需求

對於所有網域使用案例和自訂配方,您的大量項目互動資料必須具有下列項目:

  • 至少 1000 個項目互動記錄,來自使用者與目錄中的項目互動。這些互動可以來自大量匯入或串流事件,或兩者。

  • 至少 25 個唯一的使用者 IDs,每個 ID 至少有兩個項目互動。

對於品質建議,我們建議您從至少 1,000 個使用者至少有 50,000 個項目互動,每個使用者有兩個或更多項目互動。

若要建立推薦者或自訂解決方案,您至少必須建立項目互動資料集

資料欄需求

您的項目互動資料必須具有下列資料欄。

  • USER_ID – 與項目互動之使用者的唯一識別符。每個事件都必須有 USER_ID。它必須是長度string上限為 256 個字元的 。

  • ITEM_ID – 使用者互動項目的唯一識別符。每個事件都必須有一個項目 ID。它必須是長度string上限為 256 個字元的 。

  • TIMESTAMP – 事件發生的時間 (以秒為單位的 Unix epoch 時間格式)。每個互動都必須有 TIMESTAMP。如需詳細資訊,請參閱時間戳記資料

  • EVENT_TYPE – 項目互動事件的性質,例如點擊觀看購買。對於網域建議程式,您必須有事件類型資料欄,而且每個互動都必須有事件類型。對於所有自訂配方,建議使用 EVENT_TYPE 資料欄,但為選用。如果您新增它,則每個事件都必須有 事件類型。如需詳細資訊,請參閱 事件類型和事件值資料

您可以根據您的使用案例和資料,自由新增其他自訂資料欄。選用中繼資料資料欄的數量上限為 5。這些欄可以包含空白/無效值。我們建議這些資料欄至少完成 70%。

時間戳記資料

時間戳記資料必須是 Unix epoch 時間格式,以秒為單位。例如,2020 年 7 月 31 日以秒為單位的 Epoch 時間戳記為 1596238243。若要將日期轉換為 Unix epoch 時間戳記,請使用 Epoch 轉換器 - Unix 時間戳記轉換器

Amazon Personalize 使用時間戳記資料來計算延遲,並識別任何以時間為基礎的模式。它有助於 Amazon Personalize 將建議與使用者不斷變化的偏好設定保持up-to-date狀態。

事件類型和事件值資料

項目互動資料集可以儲存每個互動的事件類型和事件值資料。只有自訂資源會使用事件值資料。

事件類型資料

項目互動的事件類型提供其性質和重要性的相關內容。事件類型範例可能是按一下觀看購買。Amazon Personalize 使用事件類型資料,例如點選購買資料,來識別使用者意圖和興趣。項目互動資料集中不同事件類型與選用中繼資料資料欄總數結合的最大數量為 10。

對於網域建議程式,您必須有事件類型資料欄,而且每個互動都必須有事件類型。對於所有自訂配方,建議使用 EVENT_TYPE 資料欄,但為選用。如果您新增它,則每個事件都必須有 事件類型。

如果您建立自訂資源,您可以選擇用於依事件類型進行訓練的事件。如果您的資料集在 EVENT_TYPE 欄中有多個事件類型,而且您在設定自訂解決方案時未提供事件類型,則無論類型為何,Amazon Personalize 都會使用所有項目互動資料進行同等權重的訓練。如需詳細資訊,請參閱選擇用於訓練的項目互動資料

下列使用案例有特定的事件類型需求:

VIDEO_ON_DEMAND 網域使用案例

  • 因為您觀看 X 至少需要 1000 個Watch事件。

  • 最熱門需要至少 1000 個Watch事件。

ECOMMERCE 網域使用案例

  • 大多數檢視需要至少 1000 個View事件。

  • 最暢銷產品至少需要 1000 個Purchase事件。

正面和負面事件類型

Amazon Personalize 假設任何互動都是正面的互動。與負面事件類型的互動,例如不喜歡,不一定會使項目不會顯示在使用者未來的建議中。

以下是具有負面事件和使用者不感興趣影響建議的方法:

  • 對於所有網域使用案例和使用者個人化配方,Amazon Personalize 可以使用印模資料。當項目出現在印模資料中,且使用者未選擇它時,該項目不太可能出現在建議中。如需詳細資訊,請參閱印象資料

  • 如果您使用自訂資源並匯入正面和負面事件類型,您只能針對正面事件類型進行訓練,然後篩選出使用者與負面互動的項目。如需詳細資訊,請參閱 選擇用於訓練的項目互動資料篩選建議和使用者區段

事件值資料 (自訂資源)

事件值資料可能是使用者觀看的電影百分比,或 10 分中的評分。如果您建立自訂解決方案,則可以根據 EVENT_TYPE 和 EVENT_VALUE 欄中的資料,選擇用於訓練的記錄。使用網域建議程式,Amazon Personalize 不會使用事件值資料,而且您無法在訓練前篩選事件。

若要根據類型和值選擇記錄,請記錄事件類型和事件的事件值資料。並非所有事件都必須具有事件值。您為每個事件選擇的值取決於您要排除的資料,以及您要記錄的事件類型。例如,您可能符合使用者活動,例如使用者觀看觀看觀看觀看事件類型的影片百分比。

當您設定解決方案時,您可以將特定值設定為閾值,以排除訓練中的記錄。例如,如果具有 EVENT_TYPE 看事件的 EVENT_VALUE 資料是使用者監看的影片百分比,如果您將事件值閾值設定為 0.5,並將要監看的事件類型設為 ,Amazon Personalize 只會使用 EVENT_VALUE 大於或等於 0.5 的監看互動事件來訓練模型。

如需詳細資訊,請參閱 選擇用於訓練的項目互動資料

內容中繼資料

在某些配方和建議者使用案例中,Amazon Personalize 可以在識別基礎模式時使用內容中繼資料,這些模式會為您的使用者顯示最相關的項目。內容中繼資料是您在事件發生時在使用者環境中收集的互動資料,例如其位置或裝置類型。您也可以在取得使用者建議時指定使用者的內容。

包含內容中繼資料,為您的使用者提供更個人化的體驗,並減少新使用者的冷啟動階段。冷啟動階段是由於缺乏歷史使用者資料而建議不相關的情況。

例如,如果您的項目互動 CSV 檔案包含含 tabletphone值的 DEVICE_TYPE 資料欄,Amazon Personalize 可以了解客戶在不同裝置上以不同方式購物的方式。當您取得使用者的建議時,您可以指定其裝置,即使使用者沒有互動歷史記錄,建議也會更相關。

以下顯示如何使用 DEVICE_TYPE 資料欄將項目互動 CSV 檔案格式化為內容中繼資料。

ITEM_ID,USER_ID,TIMESTAMP,DEVICE_TYPE,EVENT_TYPE shoe12345,12,1428624000,Tablet,CLICK shoe12346,12,1420416000,Tablet,CLICK shoe12347,12,1410652800,Tablet,BUY shoe4444,13,1409961600,Phone,CLICK shoe4445,13,1402876800,Phone,BUY shoe4336,13,1402185600,Phone,CLICK .....

對於網域資料集群組,下列推薦者使用案例可以使用內容中繼資料:

對於自訂資源,使用內容中繼資料的配方包括下列項目:

如需取得建議時包含內容的詳細資訊,請參閱提高與內容中繼資料的建議相關性。如需顯示如何使用內容中繼資料的端對端範例,請參閱下列 AWS Machine Learning部落格文章:利用內容資訊提高 Amazon Personalize 建議的相關性

印象資料

印模是使用者與特定項目互動 (例如按一下或觀看) 時可見的項目清單。如果您使用提供個人化或使用者個人化配方的網域使用案例,Amazon Personalize 可以使用印模資料來引導探索。

探索時,建議包含一些通常較不建議使用者使用的項目或動作,例如新項目或動作、互動較少的項目或動作,或根據使用者先前的行為,與使用者較不相關的項目或動作。項目在印模資料中發生的頻率越高,Amazon Personalize 在探索中包含項目的可能性就越低。

當您建立推薦者或解決方案時,Amazon Personalize 一律會將印模資料排除在訓練之外。這是因為 Amazon Personalize 不會使用印模資料訓練模型。反之,它會在您取得建議時使用該建議來引導使用者探索。

印模值最多可以有 1000 個字元 (包括垂直長條字元)。對於網域資料集群組,下列推薦者使用案例可以使用印模資料:

如需探索的詳細資訊,請參閱探勘。Amazon Personalize 可以建立兩種類型的印模: 隱含印象明確印模

明確印模

明確印模是您手動記錄並傳送至 Amazon Personalize 的印模。使用明確印模來處理 Amazon Personalize 的結果。項目的順序沒有影響。

例如,您可能有一個提供鞋子建議的購物應用程式。如果您只建議目前有庫存的鞋子,您可以使用明確印模來指定這些項目。您使用明確印模的建議工作流程可能如下所示:

  1. 您可以使用 Amazon Personalize GetRecommendations API 為您的其中一位使用者請求建議。

  2. Amazon Personalize 會使用模型 (解決方案版本) 為使用者產生建議,並在 API 回應中傳回建議。

  3. 您只向使用者顯示有庫存的建議鞋子。

  4. 對於即時增量資料匯入,當使用者與一雙鞋子互動 (例如,按一下) 時,您會在 API 呼叫中記錄選擇,PutEvents並在 impression 參數中列出有庫存的建議項目。如需程式碼範例,請參閱使用印模資料記錄項目互動事件

    若要在歷史項目互動資料中匯入印模,您可以在 csv 檔案中列出明確印模,並以 '|' 字元分隔每個項目。垂直長條字元會計入 1000 個字元的限制。如需範例,請參閱格式化明確印模

  5. Amazon Personalize 使用印模資料引導探索,其中未來的建議包括互動資料或相關性較少的新鞋子。

格式化明確印模

若要在 CSV 檔案中包含明確印模,請新增 IMPRESSION 欄。針對每個項目互動,新增以垂直長條 '|' 和字元分隔的 itemIds 清單。垂直長條字元會計入印模資料的 1000 個字元限制。如果您在PutEvents操作中包含明確印模,您可以在字串陣列中指定項目。

以下是 CSV 檔案的簡短摘錄,其中包含IMPRESSION欄中的明確印模。

EVENT_TYPE 印象 ITEM_ID TIMESTAMP USER_ID
按一下

73|70|17|95|96

73

1586731606

USER_1
按一下

35|82|78|57|20|63|1|90|76|75|49|71|26|24|25|6

35

1586735164

USER_2
... ... ... ... ...

應用程式顯示使用者USER_1項目 73709517和 ,96使用者最終選擇項目 73。當您根據此資料建立新的解決方案版本時,使用者 96會較不常建議項目 95、、 70 17USER_1

隱含印象

隱含印模是您向使用者展示的從 Amazon Personalize 擷取的建議。您的 CSV 檔案不需要包含 IMPRESSION 或 RECOMMENDATION_ID 資料欄,即可使用隱含印模。反之,您會在PutEvents請求中包含 RecommendationId(由 GetRecommendationsGetPersonalizedRanking操作傳回)。Amazon Personalize 會根據您的建議資料衍生隱含印模。

例如,您可能有一個應用程式提供串流影片的建議。您使用隱含印模的建議工作流程可能如下所示:

  1. 您可以使用 Amazon Personalize GetRecommendations API 操作,為其中一位使用者請求影片建議。

  2. Amazon Personalize 會使用模型 (解決方案版本) 為使用者產生建議,並在 API 回應recommendationId中使用 傳回使用者。

  3. 您可以在應用程式中向使用者顯示影片建議。

  4. 當您的使用者與視訊互動 (例如,按一下) 時,請在 API 的呼叫中記錄選擇,PutEvents並將 recommendationId納入為參數。如需程式碼範例,請參閱使用印模資料記錄項目互動事件

  5. Amazon Personalize 使用 從先前的影片建議中recommendationId衍生印模資料,然後使用印模資料引導探索,其中未來的建議包含互動資料或相關性較少的新影片。

    如需使用隱含印模資料記錄事件的詳細資訊,請參閱使用印模資料記錄項目互動事件

互動資料範例

下列互動資料代表來自串流影片網站的歷史使用者活動。您可以使用資料來訓練模型,根據使用者的互動資料提供電影建議。請注意,EVENT_VALUE 的某些值為 null。

USER_ID,ITEM_ID,EVENT_TYPE,EVENT_VALUE,TIMESTAMP 196,242,watch,.50,881250949 186,302,watch,.75,891717742 22,377,click,,878887116 244,51,click,,880606923 166,346,watch,.50,886397596 298,474,watch,.25,884182806 115,265,click,,881171488 253,465,watch,.50,891628467 305,451,watch,.75,886324817

Amazon Personalize 需要 USER_IDITEM_IDTIMESTAMP資料欄。 USER_ID 是您應用程式使用者的識別符。 ITEM_ID 是電影的識別符。 EVENT_TYPEEVENT_VALUE是使用者互動的識別符。在範例資料中,事件是 watchclick事件,而值是使用者觀看的影片百分比。TIMESTAMP 代表電影購買發生的 Unix epoch 時間。

完成資料準備後,您就可以建立結構描述 JSON 檔案。此檔案會告知 Amazon Personalize 您資料的結構。如需詳細資訊,請參閱為 Amazon Personalize 結構描述建立結構描述 JSON 檔案。這是範例資料的結構描述 JSON 檔案看起來像這樣。

{ "type": "record", "name": "Interactions", "namespace": "com.amazonaws.personalize.schema", "fields": [ { "name": "USER_ID", "type": "string" }, { "name": "ITEM_ID", "type": "string" }, { "name": "EVENT_TYPE", "type": "string" }, { "name": "EVENT_VALUE", "type": "float" }, { "name": "TIMESTAMP", "type": "long" } ], "version": "1.0" }
隱私權網站條款Cookie 偏好設定
© 2025, Amazon Web Services, Inc.或其附屬公司。保留所有權利。