Richtlinien und Anforderungen für das Format von Massendaten Beispiel für Interaktionsdaten Formatieren von expliziten Eindrücken Formatieren von kategorialen Daten

Richtlinien für Datenformate

Wenn Sie Daten in Amazon Personalize importieren, können Sie wählen, ob Sie Datensätze in großen Mengen, einzeln oder beides importieren möchten.

Bei Massenimporten wird eine große Anzahl historischer Datensätze gleichzeitig importiert. Sie können Ihre Massendaten mit Data Wrangler und mehreren SageMaker Datenquellen vorbereiten und importieren. Oder Sie können Massendaten selbst vorbereiten und sie direkt aus einer CSV-Datei in Amazon S3 in Amazon Personalize importieren.
Bei Einzelimporten importieren Sie einzelne Datensätze mit der Amazon Personalize Personalize-Konsole und API-Vorgängen. Oder Sie können Interaktionsdaten von Live-Events in Echtzeit streamen. Weitere Informationen zu einzelnen Importen finden Sie unterEinzelne Datensätze importieren.

Bevor Sie Ihre Massendaten importieren, stellen Sie sicher, dass sie richtig formatiert sind. Die folgenden Abschnitte können Ihnen beim Formatieren Ihrer Massendaten helfen. Wenn Sie sich nicht sicher sind, wie Sie Ihre Daten formatieren sollen, können Sie Amazon SageMaker Data Wrangler (Data Wrangler) verwenden, um Ihre Daten vorzubereiten. Weitere Informationen finden Sie unter Vorbereiten und Importieren von Daten mit Amazon SageMaker Data Wrangler.

Themen

Richtlinien und Anforderungen für das Format von Massendaten
Beispiel für Interaktionsdaten
Formatieren von expliziten Eindrücken
Formatieren von kategorialen Daten

Richtlinien und Anforderungen für das Format von Massendaten

Mithilfe der folgenden Richtlinien und Anforderungen können Sie sicherstellen, dass Ihre Massendaten korrekt formatiert sind.

Ihre Eingabedaten müssen sich in einer CSV-Datei (durch Kommas getrennte Werte) befinden.
Die erste Zeile Ihrer CSV-Datei muss Ihre Spaltenüberschriften enthalten. Die Überschriften sollten nicht von Anführungszeichen (") umgeben sein.
Stellen Sie sicher, dass Sie über die erforderlichen Felder für Ihren Datensatztyp verfügen und dass ihre Namen den Anforderungen von Amazon Personalize entsprechen. Beispielsweise könnten Ihre Artikeldaten eine Spalte ITEM_IDENTIFICATION_NUMBER mit IDs für jeden Ihrer Artikel enthalten. Um diese Spalte als ITEM_ID-Feld zu verwenden, benennen Sie die Spalte in um. ITEM_ID Wenn Sie Data Wrangler verwenden, um Ihre Daten zu formatieren, können Sie die Transformation Map columns for Amazon Personalize Data Wrangler verwenden, um sicherzustellen, dass Ihre Spalten korrekt benannt sind.

Informationen zu Pflichtfeldern finden Sie unter. Schemata Informationen zur Verwendung von Data Wrangler zur Vorbereitung Ihrer Daten finden Sie unter. Vorbereiten und Importieren von Daten mit Amazon SageMaker Data Wrangler
Die Namen der Spaltenüberschriften in Ihrer CSV-Datei müssen Ihrem Schema entsprechen.
Jeder Datensatz in Ihrer CSV-Datei muss sich in einer einzigen Zeile befinden.
Die Datentypen in jeder Spalte müssen Ihrem Schema entsprechen. Wenn Sie Data Wrangler zum Formatieren Ihrer Daten verwenden, können Sie die Data Wrangler-Transformation „Wert als Typ analysieren“ verwenden, um die Datentypen zu konvertieren.
TIMESTAMPund die CREATION_TIMESTAMP Daten müssen im UNIX-Zeitformat für die Epoche vorliegen. Weitere Informationen finden Sie unter Zeitstempeldaten.
Vermeiden Sie es, " Zeichen oder Sonderzeichen in die Daten der Artikel-ID, Benutzer-ID und Aktions-ID aufzunehmen.
Wenn Ihre Daten nicht-ASCII-kodierte Zeichen enthalten, muss Ihre CSV-Datei im UTF-8-Format codiert sein.
Stellt sicher, dass Sie alle Textdaten wie unter beschrieben formatieren. Unstrukturierte Textmetadaten
Stellen Sie sicher, dass Sie Impressionsdaten und kategoriale Daten wie unter und beschrieben formatieren. Formatieren von expliziten Eindrücken Formatieren von kategorialen Daten

Beispiel für Interaktionsdaten

Die folgenden Interaktionsdaten stellen historische Benutzeraktivitäten auf einer Website dar, auf der Kinokarten verkauft werden. Sie könnten die Daten verwenden, um ein Modell zu trainieren, das Filmempfehlungen auf der Grundlage der Interaktionsdaten der Benutzer bereitstellt.


USER_ID,ITEM_ID,EVENT_TYPE,EVENT_VALUE,TIMESTAMP
196,242,click,15,881250949
186,302,click,13,891717742
22,377,click,10,878887116
244,51,click,20,880606923
166,346,click,10,886397596
298,474,click,40,884182806
115,265,click,20,881171488
253,465,click,50,891628467
305,451,click,30,886324817

Hier ist das zugehörige Interaktionsschema:.


{
  "type": "record",
  "name": "Interactions",
  "namespace": "com.amazonaws.personalize.schema",
  "fields": [
    {
      "name": "USER_ID",
      "type": "string"
    },
    {
      "name": "ITEM_ID",
      "type": "string"
    },
    { "name": "EVENT_TYPE",
      "type": "string"
    },
    {
      "name": "EVENT_VALUE",
      "type": "float"
    },
    {
      "name": "TIMESTAMP",
      "type": "long"
    }
  ],
  "version": "1.0"
}

Amazon Personalize benötigt die TIMESTAMP Felder USER_IDITEM_ID, und. USER_IDist die Kennung für einen Benutzer Ihrer Anwendung. ITEM_IDist die Kennung für einen Film. EVENT_TYPEund EVENT_VALUE sind die Identifikatoren für Benutzeraktivitäten. In den Beispieldaten click könnte a ein Kaufereignis für einen Film darstellen und 15 es könnte sich dabei um den Kaufpreis des Films handeln. TIMESTAMPsteht für die Zeit der Unix-Zeit, in der der Film gekauft wurde.

Zeitstempeldaten

Zeitstempeldaten, wie z. B. Daten TIMESTAMP (für Artikelinteraktionsdatensätze) oder CREATION_TIMESTAMP (für Artikeldatensätze), müssen im Zeitformat der Unix-Epoche in Sekunden vorliegen. Der Epoch-Zeitstempel in Sekunden für das Datum 31. Juli 2020 lautet beispielsweise 1596238243. Verwenden Sie einen Epoch-Konverter — Unix-Zeitstempel-Konverter, um Datumsangaben in Unix-Zeitstempel umzuwandeln.

Formatieren von expliziten Eindrücken

Wenn Sie das Personalisierung durch Benutzer Rezept verwenden, können Sie Impressionsdaten aufzeichnen und hochladen. Impressionen sind Listen von Elementen, die für einen Benutzer sichtbar waren, wenn er mit einem bestimmten Element interagiert hat (z. B. angeklickt oder angesehen). Um Impressionsdaten in einem Massendatenimport hochzuladen, notieren Sie jede Element-ID manuell. Achten Sie darauf, die Werte als Teil Ihrer historischen Interaktionsdaten durch einen senkrechten Strich, das Zeichen '|', voneinander zu trennen. Das vertikale Balkenzeichen wird auf die Obergrenze von 1000 Zeichen für Impressionsdaten angerechnet. Weitere Informationen zu Impressionsdaten finden Sie unterDaten zu Eindrücken.

Im Folgenden finden Sie einen kurzen Auszug aus einem Datensatz mit Artikelinteraktionen, der explizite Impressionen in der IMPRESSION Spalte enthält.

EVENT_TYPE	EINDRUCK	ITEM_ID	TIMESTAMP (ZEITSTEMPEL)	USER_ID
klicken Sie auf	73\|70\|17\|95\|96	73	1586731606	BENUTZER_1
klicken Sie auf	35\|82\|78\|57\|20\|63\|1\|90\|76\|75\|49\|71\|26\|24\|25\|6	35	1586735164	BENUTZER_2
...	...	...	...	...

In der Anwendung wurden USER_1 Benutzerelemente73,,70, und 17 angezeigt95, 96 und der Benutzer entschied sich schließlich für das Element. 73 Wenn Sie auf der Grundlage dieser Daten eine neue Lösungsversion erstellen 7017, 96 werden die Elemente95,, und dem Benutzer seltener empfohlenUSER_1.

Formatieren von kategorialen Daten

Um mehrere Kategorien für ein einzelnes Element bei der Verwendung kategorischer Zeichenfolgedaten einzubinden, trennen Sie die Werte mit dem vertikalen Balkenzeichen „|“. Bei einem Element, das zwei Kategorien hat, würde eine Datenzeile beispielsweise wie folgt aussehen:


ITEM_ID,GENRE
item_123,horror|comedy

Nachdem Sie Ihre Daten formatiert haben, laden Sie sie in einen Amazon S3 S3-Bucket hoch, damit Sie sie in Amazon Personalize importieren können. Weitere Informationen finden Sie unter In einen Amazon S3 S3-Bucket hochladen.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Erstellen eines Schemas mit Python

Domain-Anwendungsfälle und benutzerdefinierte Rezepte