Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Anforderungen an Schulungsdaten für Clean Rooms ML
Um erfolgreich ein Lookalike-Modell zu erstellen, müssen Ihre Trainingsdaten die folgenden Anforderungen erfüllen:
-
Die Trainingsdaten müssen im Parquet-, CSV- oder JSON-Format vorliegen.
-
Ihre Trainingsdaten müssen katalogisiert sein. AWS Glue Weitere Informationen finden Sie unter Erste Schritte mit dem AWS Glue Glue-Datenkatalog im AWS Glue Entwicklerhandbuch. Wir empfehlen die Verwendung von AWS Glue Crawlern zur Erstellung Ihrer Tabellen, da das Schema automatisch abgeleitet wird.
-
Der Amazon S3 S3-Bucket, der die Trainings- und Startdaten enthält, befindet sich in derselben AWS Region wie Ihre anderen Clean Rooms ML-Ressourcen.
-
Die Trainingsdaten müssen mindestens 100.000 eindeutige Benutzer IDs mit jeweils mindestens zwei Artikelinteraktionen enthalten.
-
Die Trainingsdaten müssen mindestens 1 Million Datensätze enthalten.
-
Das in der CreateTrainingDatasetAktion angegebene Schema muss mit dem Schema übereinstimmen, das bei der Erstellung der AWS Glue Tabelle definiert wurde.
-
Die erforderlichen Felder, wie sie in der bereitgestellten Tabelle definiert sind, sind in der CreateTrainingDatasetAktion definiert.
Feldtyp Unterstützte Datentypen Erforderlich Beschreibung USER_ID Zeichenfolge, Ganzzahl, Ganzzahl Ja Eine eindeutige Kennung für jeden Benutzer im Datensatz. Es sollte sich um einen Wert für nicht persönlich identifizierbare Informationen (PII) handeln. Dabei kann es sich um eine Hash-ID oder eine Kunden-ID handeln. ITEM_ID Zeichenfolge, Ganzzahl, Ganzzahl Ja Eine eindeutige Kennung für jedes Objekt, mit dem ein Benutzer interagiert. TIMESTAMP (ZEITSTEMPEL) bigint, int, Zeitstempel Ja Die Zeit, zu der ein Benutzer mit dem Objekt interagiert hat. Die Werte müssen im Format Unix-Epochenzeit in Sekunden angegeben werden. KATEGORISCHES_MERKMAL string, int, float, bigint, double, boolean, array Nein Erfasst kategorische Daten, die sich auf den Benutzer oder das Objekt beziehen. Dies kann Dinge wie Ereignistyp (wie Klick oder Kauf), demografische Daten der Nutzer (Altersgruppe, Geschlecht — anonymisiert), Nutzerstandort (Stadt, Land — anonymisiert), Artikelkategorie (z. B. Kleidung oder Elektronik) oder Artikelmarke beinhalten. NUMERISCHES_MERKMAL doppelt, Gleitkomma, Ganzzahl, große Ganzzahl Nein Erfasst numerische Daten, die sich auf den Benutzer oder das Objekt beziehen. Dazu können Dinge wie die Kaufhistorie von Nutzern (Gesamtbetrag der Ausgaben), der Artikelpreis, die Anzahl der Besuche eines Artikels oder Benutzerbewertungen für Artikel gehören. -
Optional können Sie insgesamt bis zu 10 kategoriale oder numerische Merkmale angeben.
Hier ist ein Beispiel für einen gültigen Trainingsdatensatz im CSV-Format
USER_ID,ITEM_ID,TIMESTAMP,EVENT_TYPE(CATEGORICAL FEATURE),EVENT_VALUE (NUMERICAL FEATURE) 196,242,881250949,click,15 186,302,891717742,click,13 22,377,878887116,click,10 244,51,880606923,click,20 166,346,886397596,click,10