自訂資料集和結構描述 - Amazon Personalize

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

自訂資料集和結構描述

當您建立自訂資料集群組時,您可以從頭建立自己的結構描述。自訂資料集群組資料集和結構描述的所需欄位較少,且彈性更高。下列主題說明自訂資料集群組之資料集的結構描述和資料需求。每個資料集區段都會列出資料集類型的必要資料,並提供結構描述的 JSON 範例。

如需有關您可以匯入 Amazon Personalize 的資料類型的資訊,請參閱Amazon Personalize 可以使用的資料類型。如需一般 Amazon Personalize 結構描述需求的相關資訊,例如格式要求和可用的欄位資料類型,請參閱 為 Amazon Personalize 結構描述建立結構描述 JSON 檔案。這些要求適用於所有 Amazon Personalize 結構描述。

自訂資料集和結構描述需求

當您為自訂資料集群組建立資料集時,每個資料集類型都有下列必要欄位,以及具有必要資料類型的預留關鍵字。

資料集類型 必要欄位 保留的關鍵字
項目互動 (結構描述範例)

USER_ID (string)

ITEM_ID (string)

TIMESTAMP (long)

EVENT_TYPE (string)

EVENT_VALUE (floatnull)

印象 (stringnull)

RECOMMENDATION_ID (stringnull)

EVENT_ATTRIBUTION_SOURCE (stringnull)

使用者 (結構描述範例)

USER_ID (string)

1 個中繼資料欄位 (類別string或數值)

項目 (結構描述範例)

ITEM_ID (string)

1 個中繼資料欄位 (類別或文字string欄位或數值欄位)

CREATION_TIMESTAMP (long)

動作 (結構描述範例)

ACTION_ID (string)

1 個中繼資料欄位 (類別string或數值)

CREATION_TIMESTAMP (long)

VALUE (longnull)

TYPE (stringnull)

EXPIRATION_TIMESTAMP (longnull)

REPEAT_FREQUENCY (longnull)

動作互動 (結構描述範例)

USER_ID (string)

ACTION_ID (string)

EVENT_TYPE (string)

TIMESTAMP (long)

印象 (stringnull)

RECOMMENDATION_ID (stringnull)

中繼資料欄位

中繼資料包含字串或非字串欄位,這些欄位並非必要,也不使用預留關鍵字。中繼資料結構描述具有下列限制:

  • 使用者、項目和動作結構描述至少需要一個中繼資料欄位。

  • 您最多可以新增 25 個使用者結構描述的中繼資料欄位、100 個項目結構描述的中繼資料欄位,以及 10 個動作結構描述的中繼資料欄位。

  • 如果您新增自己的中繼資料欄位類型 string,則必須包含 categorical 屬性或 textual 屬性 (僅限具有文字屬性的項目結構描述支援欄位)。否則,Amazon Personalize 在訓練模型時不會使用 欄位。

保留的關鍵字

預留關鍵字是選用的非中繼資料欄位。這些欄位被視為預留,因為當您使用它們時,您必須將欄位定義為其必要資料類型,且關鍵字無法用作資料中的值。預留類別字串欄位必須categorical設定為 true,而預留字串欄位不能是類別。以下是預留關鍵字:

  • EVENT_TYPE:對於具有一或多個事件類型的項目互動資料集,例如點選下載,請使用 EVENT_TYPE 欄位。您必須將 EVENT_TYPE 欄位定義為 string,且無法設定為類別。

  • EVENT_VALUE:對於包含事件值資料的項目互動資料集,例如使用者觀看的影片百分比,請使用 類型 float和選用 EVENT_VALUE的欄位null

  • CREATION_TIMESTAMP:對於具有每個項目建立日期時間戳記的項目或動作資料集,請使用類型為 CREATION_TIMESTAMP的欄位long。Amazon Personalize 使用CREATION_TIMESTAMP資料來計算項目的存留期,並相應地調整建議。請參閱 建立時間戳記資料

  • IMPRESSION:對於具有明確印模資料的項目互動資料集,請使用具有類型 String和選用類型 IMPRESSION的欄位null。印模是使用者與特定項目互動 (例如按一下或觀看) 時可見的項目清單。如需詳細資訊,請參閱印象資料

  • RECOMMENDATION_ID:對於使用先前建議做為隱含印模資料的項目互動資料集,可選擇使用具有 類型 String和 的 RECOMMENDATION_ID 欄位null

    您不需要為 Amazon Personalize 新增RECOMMENDATION_ID欄位,即可在產生建議時使用隱含印模。您可以在PutEvents操作recommendationId中傳遞 ,而不需要它。如需詳細資訊,請參閱印象資料

  • 值:對於動作資料集,如果您有部分或全部動作的資料值,請將VALUE欄位新增至您的結構描述。對於其類型,請使用 long和 ,選擇性輸入 null。如需動作及其值的詳細資訊,請參閱值資料

  • ACTION_EXPIRATION_TIMESTAMP:對於動作資料集,如果您有部分或全部動作的過期時間戳記,請將ACTION_EXPIRATION_TIMESTAMP欄位新增至您的結構描述。對於其類型,請使用 long和 ,選擇性輸入 null。如需過期時間戳記的詳細資訊,請參閱動作過期時間戳記資料

  • REPEAT_FREQUENCY:對於動作資料集,如果您有部分或全部動作的重複頻率資料,請將REPEAT_FREQUENCY欄位新增至您的結構描述。對於其類型,請使用 long和 ,選擇性輸入 null。如需重複頻率資料的詳細資訊,請參閱重複頻率資料