Exigences relatives aux données de formation pour Clean Rooms ML - AWS Clean Rooms

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Exigences relatives aux données de formation pour Clean Rooms ML

Pour réussir à créer un modèle similaire, vos données d'entraînement doivent répondre aux exigences suivantes :

  • Les données d'entraînement doivent être au JSON format ParquetCSV, ou.

  • Vos données d'entraînement doivent être cataloguées dans AWS Glue. Pour plus d'informations, voir Commencer avec le AWS Glue Data Catalog dans le .AWS Glue Guide du développeur. Nous vous recommandons d'utiliser AWS Glue des robots pour créer vos tables car le schéma est déduit automatiquement.

  • Le compartiment Amazon S3 qui contient les données d'entraînement et les données de départ se trouve dans le même AWS région comme vos autres ressources Clean Rooms ML.

  • Les données d'entraînement doivent contenir au moins 100 000 utilisateurs uniques IDs ayant chacun au moins deux interactions avec des éléments.

  • Les données d'entraînement doivent contenir au moins 1 million d'enregistrements.

  • Le schéma spécifié dans l'CreateTrainingDatasetaction doit être aligné sur le schéma défini lorsque AWS Glue la table a été créée.

  • Les champs obligatoires, tels que définis dans le tableau fourni, sont définis dans l'CreateTrainingDatasetaction.

    Type de champ Types de données pris en charge Obligatoire Description
    USER_ID chaîne, int, bigint Oui Un identifiant unique pour chaque utilisateur de l'ensemble de données. Il doit s'agir d'une valeur d'information non personnellement identifiable (PII). Il peut s'agir d'un identifiant haché ou d'un identifiant client.
    ITEM_ID chaîne, int, bigint Oui Un identifiant unique pour chaque élément avec lequel un utilisateur interagit.
    TIMESTAMP bigint, int, horodatage Oui Heure à laquelle un utilisateur a interagi avec l'élément. Les valeurs doivent être au format Epoch Time d'Unix en secondes.
    CATEGORICAL_FEATURE chaîne, int, float, bigint, double, booléen, tableau Non Capture les données catégoriques relatives à l'utilisateur ou à l'article. Cela peut inclure des éléments tels que le type d'événement (tel qu'un clic ou un achat), les données démographiques de l'utilisateur (groupe d'âge, sexe, anonymisé), la localisation de l'utilisateur (ville, pays, anonymisé), la catégorie d'article (vêtements ou appareils électroniques, par exemple) ou la marque de l'article.
    NUMERICAL_FEATURE double, float, int, bigint Non Capture les données numériques relatives à l'utilisateur ou à l'article. Cela peut inclure des éléments tels que l'historique des achats des utilisateurs (montant total dépensé), le prix de l'article, le nombre de fois où un article a été visité ou les évaluations des utilisateurs pour les articles.
  • Vous pouvez éventuellement fournir jusqu'à 10 caractéristiques catégorielles ou numériques au total.

Voici un exemple d'ensemble de données d'entraînement valide au CSV format.

USER_ID,ITEM_ID,TIMESTAMP, EVENT_TYPE(CATEGORICAL FEATURE),EVENT_VALUE (NUMERICAL FEATURE) 196,242,881250949,click,15 186,302,891717742,click,13 22,377,878887116,click,10 244,51,880606923,click,20 166,346,886397596,click,10