Clean Rooms ML のトレーニングデータ要件 - AWS Clean Rooms

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

Clean Rooms ML のトレーニングデータ要件

類似モデルを正常に作成するには、トレーニングデータが次の要件を満たしている必要があります。

  • トレーニングデータは Parquet、CSV、または JSON形式である必要があります。

  • トレーニングデータはカタログ化する必要があります AWS Glue。詳細については、「 デベロッパーガイド」のAWS「 Glue データカタログの開始方法」を参照してください。 AWS Glue スキーマは自動的に推測されるため、 AWS Glue クローラを使用してテーブルを作成することをお勧めします。

  • トレーニングデータとシードデータを含む Amazon S3 バケットは、他の Clean Rooms ML リソースと同じ AWS リージョンにあります。

  • トレーニングデータには、それぞれ少なくとも 2 つのアイテムインタラクションIDsを持つ少なくとも 100,000 人の一意のユーザーが含まれている必要があります。

  • トレーニングデータには、少なくとも 100 万個のレコードが含まれている必要があります。

  • CreateTrainingDataset アクションで指定されたスキーマは、 AWS Glue テーブルの作成時に定義されたスキーマと一致する必要があります。

  • 指定されたテーブルで定義されている必須フィールドは、CreateTrainingDataset アクションで定義されます。

    フィールドタイプ サポートされているデータ型 必要 説明
    USER_ID string、int、bigint あり データセットでの各ユーザー用の一意の識別子。個人を特定できない情報 (PII) の値である必要があります。これは、ハッシュ化された ID または顧客 ID である場合があります。
    ITEM_ID string、int、bigint あり ユーザーが操作する各アイテムの一意の ID。
    TIMESTAMP bigint、int、timestamp あり ユーザーがアイテムを操作した時刻。値は Unix エポック時刻形式 (秒単位) である必要があります。
    CATEGORICAL_FEATURE string、int、float、bigint、double、boolean、array いいえ ユーザーまたはアイテムに関連するカテゴリデータをキャプチャします。これには、イベントタイプ (クリックや購入など)、ユーザーのデモグラフィック (年齢グループ、性別 – 匿名化)、ユーザーの所在地 (都市、国 – 匿名化)、アイテムカテゴリ (衣類や電子機器など)、アイテムのブランドなどが含まれます。
    NUMERICAL_FEATURE double、float、int、bigint いいえ ユーザーまたはアイテムに関連する数値データをキャプチャします。これには、ユーザーの購入履歴 (合計支払い額)、アイテムの価格、アイテムページへのアクセス回数、アイテムのユーザー評価などが含まれます。
  • オプションで、最大 10 個のカテゴリ特徴量または数値特徴量を指定できます。

CSV 形式の有効なトレーニングデータセットの例を次に示します。

USER_ID,ITEM_ID,TIMESTAMP,EVENT_TYPE(CATEGORICAL FEATURE),EVENT_VALUE (NUMERICAL FEATURE) 196,242,881250949,click,15 186,302,891717742,click,13 22,377,878887116,click,10 244,51,880606923,click,20 166,346,886397596,click,10