Anforderungen an Schulungsdaten für Clean Rooms ML - AWS Clean Rooms

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Anforderungen an Schulungsdaten für Clean Rooms ML

Um erfolgreich ein Lookalike-Modell zu erstellen, müssen Ihre Trainingsdaten die folgenden Anforderungen erfüllen:

  • Die Trainingsdaten müssen im JSON Format Parquet oder vorliegen. CSV

  • Ihre Trainingsdaten müssen katalogisiert sein in AWS Glue. Weitere Informationen finden Sie unter Erste Schritte mit dem AWS Glue Data Catalog in der AWS Glue Leitfaden für Entwickler. Wir empfehlen die Verwendung AWS Glue Crawler zum Erstellen Ihrer Tabellen, da das Schema automatisch abgeleitet wird.

  • Der Amazon S3 S3-Bucket, der die Trainingsdaten und die Startdaten enthält, befindet sich im selben AWS Region wie Ihre anderen Clean Rooms ML-Ressourcen.

  • Die Trainingsdaten müssen mindestens 100.000 eindeutige Benutzer IDs mit jeweils mindestens zwei Artikelinteraktionen enthalten.

  • Die Trainingsdaten müssen mindestens 1 Million Datensätze enthalten.

  • Das in der CreateTrainingDataset Aktion angegebene Schema muss mit dem Schema übereinstimmen, das definiert wurde, wenn AWS Glue Die Tabelle wurde erstellt.

  • Die erforderlichen Felder, wie sie in der bereitgestellten Tabelle definiert sind, sind in der CreateTrainingDataset Aktion definiert.

    Feldtyp Unterstützte Datentypen Erforderlich Beschreibung
    USER_ID Zeichenfolge, Ganzzahl, Ganzzahl Ja Eine eindeutige Kennung für jeden Benutzer im Datensatz. Es sollte sich um einen Wert für nicht persönlich identifizierbare Informationen (PII) handeln. Dabei kann es sich um eine Hash-ID oder eine Kunden-ID handeln.
    ITEM_ID Zeichenfolge, Ganzzahl, Ganzzahl Ja Eine eindeutige Kennung für jedes Objekt, mit dem ein Benutzer interagiert.
    TIMESTAMP bigint, int, timestamp Ja Die Zeit, zu der ein Benutzer mit dem Objekt interagiert hat. Die Werte müssen im Format Unix-Epochenzeit in Sekunden angegeben werden.
    CATEGORICAL_FEATURE string, int, float, bigint, double, boolean, array Nein Erfasst kategorische Daten, die sich auf den Benutzer oder das Objekt beziehen. Dies kann Dinge wie Ereignistyp (wie Klick oder Kauf), Nutzerdemografie (Altersgruppe, Geschlecht — anonymisiert), Nutzerstandort (Stadt, Land — anonymisiert), Artikelkategorie (z. B. Kleidung oder Elektronik) oder Artikelmarke beinhalten.
    NUMERICAL_FEATURE double, float, int, bigint Nein Erfasst numerische Daten, die sich auf den Benutzer oder das Objekt beziehen. Dazu können Dinge wie die Kaufhistorie von Nutzern (Gesamtbetrag der Ausgaben), der Artikelpreis, die Anzahl der Besuche eines Artikels oder Benutzerbewertungen für Artikel gehören.
  • Optional können Sie insgesamt bis zu 10 kategoriale oder numerische Merkmale angeben.

Im Folgenden finden Sie ein Beispiel für einen gültigen Trainingsdatensatz im CSV Format.

USER_ID,ITEM_ID,TIMESTAMP, EVENT_TYPE(CATEGORICAL FEATURE),EVENT_VALUE (NUMERICAL FEATURE) 196,242,881250949,click,15 186,302,891717742,click,13 22,377,878887116,click,10 244,51,880606923,click,20 166,346,886397596,click,10