翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
Clean Rooms ML のトレーニングデータ要件
類似モデルを正常に作成するには、トレーニングデータが次の要件を満たしている必要があります。
-
トレーニングデータは Parquet、CSV、または JSON形式である必要があります。
-
トレーニングデータは でカタログ化する必要があります AWS Glue。 詳細については、「 の開始方法」を参照してください。 AWS Glue Data Catalog ()AWS Glue デベロッパーガイド。を使用することをお勧めします。 AWS Glue スキーマが自動的に推測されるため、テーブルを作成する クローラ。
-
トレーニングデータとシードデータを含む Amazon S3 バケットが同じ にある AWS 他の Clean Rooms ML リソースとしての region。
-
トレーニングデータには、それぞれ少なくとも 2 つのアイテムインタラクションIDsを持つ少なくとも 100,000 人の一意のユーザーが含まれている必要があります。
-
トレーニングデータには、少なくとも 100 万件のレコードが含まれている必要があります。
-
CreateTrainingDataset
アクションで指定されたスキーマは、 AWS Glue テーブルが作成されました。 -
指定されたテーブルで定義されている必須フィールドは、
CreateTrainingDataset
アクションで定義されます。フィールドタイプ サポートされているデータ型 必要 説明 USER_ID string、int、bigint あり データセット内の各ユーザーの一意の識別子。個人を特定できない情報 (PII) の値である必要があります。これはハッシュ化された識別子または顧客 ID である可能性があります。 ITEM_ID string、int、bigint あり ユーザーが操作する各項目の一意の識別子。 TIMESTAMP bigint、int、タイムスタンプ あり ユーザーが項目を操作した時刻。値は Unix エポック時間を秒形式で指定する必要があります。 CATEGORICAL_FEATURE string、int、float、bigint、double、boolean、配列 なし ユーザーまたは項目に関連するカテゴリ別データをキャプチャします。これには、イベントタイプ (クリックや購入など)、ユーザー属性 (年齢グループ、性別 - 匿名化)、ユーザーの場所 (都市、国 - 匿名化)、アイテムカテゴリ (衣類や電気製品など)、アイテムブランドなどが含まれます。 NUMERICAL_FEATURE double、float、int、bigint なし ユーザーまたは項目に関連する数値データをキャプチャします。これには、ユーザーの購入履歴 (合計使用金額)、アイテム料金、アイテムが訪問された回数、アイテムのユーザー評価などが含まれます。 -
オプションで、最大 10 個のカテゴリ別または数値の特徴量を指定できます。
以下は、 CSV形式の有効なトレーニングデータセットの例です。
USER_ID,ITEM_ID,TIMESTAMP, EVENT_TYPE(CATEGORICAL FEATURE),EVENT_VALUE (NUMERICAL FEATURE) 196,242,881250949,click,15 186,302,891717742,click,13 22,377,878887116,click,10 244,51,880606923,click,20 166,346,886397596,click,10