Clean Rooms ML のトレーニングデータ要件

類似モデルを正常に作成するには、トレーニングデータが次の要件を満たしている必要があります。

トレーニングデータは Parquet、CSV、または JSON形式である必要があります。
トレーニングデータはカタログ化する必要があります AWS Glue。詳細については、「デベロッパーガイド」のAWS「 Glue データカタログの開始方法」を参照してください。 AWS Glue スキーマは自動的に推測されるため、 AWS Glue クローラを使用してテーブルを作成することをお勧めします。
トレーニングデータとシードデータを含む Amazon S3 バケットは、他の Clean Rooms ML リソースと同じ AWS リージョンにあります。
トレーニングデータには、それぞれ少なくとも 2 つのアイテムインタラクションIDsを持つ少なくとも 100,000 人の一意のユーザーが含まれている必要があります。
トレーニングデータには、少なくとも 100 万個のレコードが含まれている必要があります。
CreateTrainingDataset アクションで指定されたスキーマは、 AWS Glue テーブルの作成時に定義されたスキーマと一致する必要があります。

指定されたテーブルで定義されている必須フィールドは、CreateTrainingDataset アクションで定義されます。

フィールドタイプ	サポートされているデータ型	必要	説明
USER_ID	string、int、bigint	あり	データセットでの各ユーザー用の一意の識別子。個人を特定できない情報 (PII) の値である必要があります。これは、ハッシュ化された ID または顧客 ID である場合があります。
ITEM_ID	string、int、bigint	あり	ユーザーが操作する各アイテムの一意の ID。
TIMESTAMP	bigint、int、timestamp	あり	ユーザーがアイテムを操作した時刻。値は Unix エポック時刻形式 (秒単位) である必要があります。
CATEGORICAL_FEATURE	string、int、float、bigint、double、boolean、array	いいえ	ユーザーまたはアイテムに関連するカテゴリデータをキャプチャします。これには、イベントタイプ (クリックや購入など)、ユーザーのデモグラフィック (年齢グループ、性別 – 匿名化)、ユーザーの所在地 (都市、国 – 匿名化)、アイテムカテゴリ (衣類や電子機器など)、アイテムのブランドなどが含まれます。
NUMERICAL_FEATURE	double、float、int、bigint	いいえ	ユーザーまたはアイテムに関連する数値データをキャプチャします。これには、ユーザーの購入履歴 (合計支払い額)、アイテムの価格、アイテムページへのアクセス回数、アイテムのユーザー評価などが含まれます。

オプションで、最大 10 個のカテゴリ特徴量または数値特徴量を指定できます。

CSV 形式の有効なトレーニングデータセットの例を次に示します。


USER_ID,ITEM_ID,TIMESTAMP,EVENT_TYPE(CATEGORICAL FEATURE),EVENT_VALUE (NUMERICAL FEATURE)
196,242,881250949,click,15
186,302,891717742,click,13
22,377,878887116,click,10
244,51,880606923,click,20
166,346,886397596,click,10

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

ML AWS Clean Rooms のプライバシー保護

シードデータ要件