Clean Rooms ML のトレーニングデータ要件 - AWS Clean Rooms

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

Clean Rooms ML のトレーニングデータ要件

類似モデルを正常に作成するには、トレーニングデータが次の要件を満たしている必要があります。

  • トレーニングデータは Parquet、CSV、または JSON形式である必要があります。

  • トレーニングデータは でカタログ化する必要があります AWS Glue。 詳細については、「 の開始方法」を参照してください。 AWS Glue Data Catalog ()AWS Glue デベロッパーガイド。を使用することをお勧めします。 AWS Glue スキーマが自動的に推測されるため、テーブルを作成する クローラ。

  • トレーニングデータとシードデータを含む Amazon S3 バケットが同じ にある AWS 他の Clean Rooms ML リソースとしての region。

  • トレーニングデータには、それぞれ少なくとも 2 つのアイテムインタラクションIDsを持つ少なくとも 100,000 人の一意のユーザーが含まれている必要があります。

  • トレーニングデータには、少なくとも 100 万件のレコードが含まれている必要があります。

  • CreateTrainingDataset アクションで指定されたスキーマは、 AWS Glue テーブルが作成されました。

  • 指定されたテーブルで定義されている必須フィールドは、 CreateTrainingDatasetアクションで定義されます。

    フィールドタイプ サポートされているデータ型 必要 説明
    USER_ID string、int、bigint あり データセット内の各ユーザーの一意の識別子。個人を特定できない情報 (PII) の値である必要があります。これはハッシュ化された識別子または顧客 ID である可能性があります。
    ITEM_ID string、int、bigint あり ユーザーが操作する各項目の一意の識別子。
    TIMESTAMP bigint、int、タイムスタンプ あり ユーザーが項目を操作した時刻。値は Unix エポック時間を秒形式で指定する必要があります。
    CATEGORICAL_FEATURE string、int、float、bigint、double、boolean、配列 なし ユーザーまたは項目に関連するカテゴリ別データをキャプチャします。これには、イベントタイプ (クリックや購入など)、ユーザー属性 (年齢グループ、性別 - 匿名化)、ユーザーの場所 (都市、国 - 匿名化)、アイテムカテゴリ (衣類や電気製品など)、アイテムブランドなどが含まれます。
    NUMERICAL_FEATURE double、float、int、bigint なし ユーザーまたは項目に関連する数値データをキャプチャします。これには、ユーザーの購入履歴 (合計使用金額)、アイテム料金、アイテムが訪問された回数、アイテムのユーザー評価などが含まれます。
  • オプションで、最大 10 個のカテゴリ別または数値の特徴量を指定できます。

以下は、 CSV形式の有効なトレーニングデータセットの例です。

USER_ID,ITEM_ID,TIMESTAMP, EVENT_TYPE(CATEGORICAL FEATURE),EVENT_VALUE (NUMERICAL FEATURE) 196,242,881250949,click,15 186,302,891717742,click,13 22,377,878887116,click,10 244,51,880606923,click,20 166,346,886397596,click,10