Artikelmetadaten für das Training vorbereiten - Amazon Personalize

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Artikelmetadaten für das Training vorbereiten

Zu den Artikelmetadaten gehören numerische und kategoriale Daten zu den Elementen, mit denen Ihre Benutzer interagieren. Zu den Artikelmetadaten gehören beispielsweise der Erstellungszeitstempel, der Preis, das Genre, die Beschreibung und die Verfügbarkeit. Sie importieren Metadaten zu Ihren Artikeln in einen Amazon Personalize Items-Datensatz.

Abhängig von Ihrem Domain-Anwendungsfall oder Ihrer benutzerdefinierten Rezeptur können Artikelmetadaten Amazon Personalize dabei helfen, Benutzern relevantere Artikel zu empfehlen, ähnliche Artikel genauer vorherzusagen oder aussagekräftigere Benutzersegmente zu empfehlen. Und es kann Amazon Personalize dabei helfen, neue Artikel in Empfehlungen aufzunehmen. Artikelmetadaten sind für einige Domain-Anwendungsfälle erforderlich und für alle benutzerdefinierten Rezepte optional. Weitere Informationen finden Sie in den Datenanforderungen für Ihren Domain-Anwendungsfall oder Ihr Rezept unterIhren Anwendungsfall mit den Ressourcen von Amazon Personalize abgleichen.

Beim Training verwendet Amazon Personalize keine nicht kategorischen Zeichenkettendaten wie Artikeltitel oder Autorendaten. Durch den Import dieser Daten können die Empfehlungen jedoch immer noch verbessert werden. Weitere Informationen finden Sie unter Nicht kategorische Zeichenkettendaten.

Die maximale Anzahl von Artikeln, die Amazon Personalize während der Schulung berücksichtigt, hängt von Ihrem Anwendungsfall oder Ihrer Rezeptur ab. Nur Artikel, die während der Schulung berücksichtigt wurden, können in Empfehlungen erscheinen.

  • Für User-Personalization-v 2 oder Personalized-Ranking-v 2 beträgt die maximale Anzahl von Elementen, die von einem Modell während des Trainings berücksichtigt werden, 5 Millionen. Diese Elemente stammen sowohl aus dem Datensatz „Artikel“ als auch aus dem Datensatz „Artikelinteraktionen“.

  • Für alle Domain-Anwendungsfälle und benutzerdefinierten Rezepte mit Ausnahme von User-Personalization-v 2 und Personalized-Ranking-v 2 beträgt die maximale Anzahl von Elementen, die von einem Modell beim Training und bei der Generierung von Empfehlungen berücksichtigt werden, 750.000.

Für alle Domain-Anwendungsfälle und benutzerdefinierten Rezepte müssen sich Ihre Massenartikeldaten in einer CSV-Datei befinden. Jede Zeile in der Datei sollte für ein eindeutiges Element stehen. Nachdem Sie Ihre Daten vorbereitet haben, können Sie eine Schema-JSON-Datei erstellen. Diese Datei informiert Amazon Personalize über die Struktur Ihrer Daten. Weitere Informationen finden Sie unter JSON-Schema-Dateien für Amazon Personalize Personalize-Schemas erstellen.

In den folgenden Abschnitten finden Sie weitere Informationen zur Vorbereitung Ihrer Artikelmetadaten für Amazon Personalize. Richtlinien für das Massendatenformat für alle Datentypen finden Sie unter Richtlinien für das Massendatenformat

Anforderungen an Artikeldaten

Im Folgenden sind die Anforderungen an Artikelmetadaten für Amazon Personalize aufgeführt.

Wenn Sie sich nicht sicher sind, ob Sie über genügend Daten verfügen, oder wenn Sie Fragen zu deren Qualität haben, können Sie Ihre Daten in einen Amazon Personalize-Datensatz importieren und mit Amazon Personalize analysieren. Weitere Informationen finden Sie unter Analysieren von Qualität und Quantität von Daten in Amazon Personalize Personalize-Datensätzen.

  • Für alle Domain-Anwendungsfälle und benutzerdefinierten Rezepte benötigen Sie eine ITEM_ID-Spalte, in der die eindeutige Kennung für jeden Artikel gespeichert wird. Jeder Artikel muss eine Artikel-ID haben. Es muss eine string mit einer maximalen Länge von 256 Zeichen sein.

  • Für benutzerdefinierte Rezepte müssen Ihre Daten mindestens eine kategoriale Zeichenfolge oder eine numerische Metadatenspalte enthalten. Spalten mit Elementmetadaten können leere/Nullwerte enthalten. Wir empfehlen, dass diese Spalten zu mindestens 70 Prozent vollständig sind.

  • Bei Domain-Anwendungsfällen hängen die erforderlichen Spalten von Ihrer Domain ab. Weitere Informationen finden Sie unter Anforderungen an die VIDEO_ON_DEMAND-Domain oder Anforderungen an die E-COMMERCE-Domain.

  • Die maximale Anzahl von Metadatenspalten beträgt 100.

Anforderungen an die VIDEO_ON_DEMAND-Domain

Für einige Anwendungsfälle sind Elementmetadaten erforderlich (siehe). Anwendungsfälle für VIDEO_ON_DEMAND Falls optional, empfehlen wir dennoch, Artikelmetadaten zu importieren, um die relevantesten Empfehlungen zu erhalten. Wenn Sie Artikelmetadaten importieren, müssen Ihre Daten die folgenden Spalten enthalten:

  • ITEM_ID

  • GENRES (kategorischstring)

  • CREATION_TIMESTAMP (im Zeitformat für die Unix-Epoche)

Im Folgenden sind weitere empfohlene Spalten und ihre erforderlichen Typen aufgeführt. Der null Typ gibt an, dass in der Spalte möglicherweise Werte fehlen. Wir empfehlen, dass diese Spalten zu mindestens 70 Prozent vollständig sind. Die Aufnahme dieser Spalten kann die Empfehlungen verbessern.

  • PREIS (Float)

  • DAUER (Float)

  • GENRE_L2 (kategorisch,) string null

  • GENRE_L3 (kategorisch,) string null

  • DURCHSCHNITTLICHE_BEWERTUNG float (null,)

  • PRODUKTBESCHREIBUNG (textuell,) string null

  • CONTENT_OWNER (kategorischstring,null) — Das Unternehmen, dem das Video gehört. Die Werte könnten beispielsweise HBO, Paramount und NBC lauten.

  • CONTENT_CLASSIFICATION (kategorischstring,null) — Die Bewertung des Inhalts. Die Werte könnten beispielsweise G, PG, PG-13, R, NC-17 und nicht bewertet sein.

Anforderungen an die E-COMMERCE-Domain

Artikelmetadaten sind für alle E-COMMERCE-Anwendungsfälle optional. Wenn Sie über Artikeldaten verfügen, empfehlen wir, diese zu importieren, um die relevantesten Empfehlungen zu erhalten. Wenn Sie Artikelmetadaten importieren, müssen Ihre Daten die folgenden Spalten enthalten:

  • ITEM_ID

  • PREIS (float)

  • CATEGORY_L1 (kategorischstring) — Informationen zum Formatieren von kategorialen Daten finden Sie unter. Kategorische Metadaten

Im Folgenden werden weitere empfohlene Spalten und ihre erforderlichen Typen aufgeführt. Der null Typ gibt an, dass in der Spalte möglicherweise Werte fehlen. Wir empfehlen, dass diese Spalten zu mindestens 70 Prozent vollständig sind. Die Aufnahme dieser Spalten kann die Empfehlungen verbessern.

  • CATEGORY_L2 (kategorisch,) string null

  • CATEGORY_L3 (kategorisch,) string null

  • PRODUKTBESCHREIBUNG (textuell,) string null

  • ERSTELLUNGSZEITSTEMPEL () float

  • AGE_GROUP (kategorischstring,null) — Die Altersgruppe, für die der Artikel bestimmt ist. Werte können Neugeborene, Säuglinge, Kinder und Erwachsene sein.

  • ERWACHSENE (kategorischstring,null) — Gibt an, ob der Artikel ausschließlich Erwachsenen vorbehalten ist, z. B. Alkohol. Die Werte können ja oder nein sein.

  • GESCHLECHT (kategorischstring,null) — Das Geschlecht, für das der Artikel bestimmt ist. Die Werte können männlich, weiblich und unisex sein.

Zeitstempeldaten der Erstellung

Die Zeitstempeldaten für die Erstellung müssen im Unix-Epochenzeitformat in Sekunden vorliegen. Der Zeitstempel der Epoche in Sekunden für das Datum 31. Juli 2020 lautet beispielsweise 1596238243. Verwenden Sie einen Epochenkonverter — Unix-Zeitstempelkonverter, um Datumsangaben in Zeitstempel der Unix-Epoche zu konvertieren.

Amazon Personalize verwendet Zeitstempeldaten der Erstellung (im Zeitformat Unix-Epoche, in Sekunden), um das Alter eines Artikels zu berechnen und die Empfehlungen entsprechend anzupassen.

Wenn Daten zum Erstellungszeitstempel für einen oder mehrere Artikel fehlen, leitet Amazon Personalize diese Informationen aus etwaigen Interaktionsdaten ab und verwendet den Zeitstempel der ältesten Interaktionsdaten des Artikels als Erstellungszeitstempel des Artikels. Wenn ein Artikel keine Interaktionsdaten hat, wird sein Erstellungszeitstempel als Zeitstempel der letzten Interaktion im Trainingssatz festgelegt und Amazon Personalize betrachtet ihn als neuen Artikel.

Kategorische Metadaten

Bei bestimmten Rezepten und allen Domain-Anwendungsfällen verwendet Amazon Personalize kategorische Metadaten, wie z. B. das Genre oder die Farbe eines Artikels, um zugrunde liegende Muster zu identifizieren, die die relevantesten Artikel für Ihre Benutzer aufdecken. Sie definieren Ihren eigenen Wertebereich auf der Grundlage Ihres Anwendungsfalls. Kategorische Metadaten können in jeder Sprache verfasst sein.

Bei Elementen mit mehreren Kategorien trennen Sie die einzelnen Werte durch den senkrechten Balken '|' voneinander. Für ein GENRES-Feld könnten Ihre Daten für ein Element beispielsweise lauten. Action|Crime|Biopic Wenn Sie über mehrere Ebenen von kategorialen Daten verfügen und einige Elemente mehrere Kategorien für jede Ebene in der Hierarchie haben, verwenden Sie für jede Ebene eine separate Spalte und fügen Sie hinter jedem Feldnamen einen Ebenenindikator an: GENRES, GENRE_L2, GENRE_L3. Auf diese Weise können Sie Empfehlungen auf der Grundlage von Unterkategorien filtern, auch wenn ein Element zu mehreren Kategorien mit mehreren Ebenen gehört (Informationen zum Erstellen und Verwenden von Filtern finden Sie unter). Empfehlungen und Benutzersegmente filtern Ein Video könnte beispielsweise die folgenden Daten für jede Kategorieebene enthalten:

  • GENRES: Aktion | Abenteuer

  • GENRE_L2: Krimi | Western

  • GENRE_L3: Biopic

In diesem Beispiel handelt es sich bei dem Video um Action > Verbrechen > Biopic-Hierarchie und Abenteuer > Western > Biopic-Hierarchie. Wir empfehlen, nur bis zu L3 zu verwenden, aber Sie können bei Bedarf auch mehr Stufen verwenden.

Kategorische Werte können maximal 1000 Zeichen lang sein. Wenn Sie ein Element mit einem kategorialen Wert mit mehr als 1000 Zeichen haben, schlägt Ihr Datensatz-Importjob fehl. Wir empfehlen, dass kategoriale Spalten maximal 1000 mögliche Werte haben. Der Import von kategorialen Daten mit mehr Werten kann sich negativ auf Empfehlungen auswirken. Folgendes kann Ihnen helfen, die Anzahl der möglichen Werte für eine kategoriale Spalte zu reduzieren:

  • Stellen Sie sicher, dass die Werte einer konsistenten Benennungskonvention folgen, und achten Sie auf Tippfehler. Verwenden Sie beispielsweise „Herrenschuhe“, anstatt eine Mischung aus „Herrenschuhe“, „Herrenschuhe“ und „Herrenschuhe“ zu verwenden.

  • Konsolidieren Sie ähnliche Kategorien, die leicht unterschiedliche Begriffe verwenden, die sich auf dieselbe zugrunde liegende Kategorie beziehen, wie „Schuhe“ und „Sneakers“.

  • Wenn Ihre Daten eine hierarchische Struktur haben, in der umfassendere Kategorien (wie „Schuhe“) spezifischere Unterkategorien enthalten (z. B. „Herrenschuhe“, „Damenschuhe“, „Kinderschuhe“), verwenden Sie für jede Ebene eine separate Spalte und fügen Sie hinter jedem Feldnamen eine Ebenenanzeige an. Zum Beispiel CATEGORY_1, CATEGORY_2 und CATEGORY_3. Dadurch können mehrdeutige oder sich überschneidende Kategorien reduziert werden.

Bei allen Rezepten und Domänen können Sie kategoriale Daten importieren und diese verwenden, um Empfehlungen auf der Grundlage der Attribute eines Artikels zu filtern. Informationen zum Filtern von Empfehlungen finden Sie unterEmpfehlungen und Benutzersegmente filtern.

Unstrukturierte Textmetadaten

Bei bestimmten Rezepten und Domains kann Amazon Personalize aussagekräftige Informationen aus unstrukturierten Textmetadaten wie Produktbeschreibungen, Produktrezensionen oder Filmzusammenfassungen extrahieren. Amazon Personalize verwendet unstrukturierten Text, um relevante Artikel für Ihre Benutzer zu identifizieren, insbesondere wenn Artikel neu sind oder weniger Interaktionsdaten enthalten. Sie können höchstens ein Textfeld hinzufügen. Nehmen Sie unstrukturierte Textdaten in Ihren Artikeldatensatz auf, um die Klickraten und die Konversationsrate für neue Artikel in Ihrem Katalog zu erhöhen.

Wenn Sie Ihre unstrukturierten Textmetadaten vorbereiten, setzen Sie den Text in doppelte Anführungszeichen und entfernen Sie alle Zeilenumbrüche. Verwenden Sie das \ Zeichen, um doppelte Anführungszeichen oder\ -Zeichen in Ihren Daten zu maskieren. Amazon Personalize schneidet Textfelder bis zur Zeichenbeschränkung ab. Stellen Sie sicher, dass sich die relevantesten Informationen im Text am Anfang des Felds befinden.

Unstrukturierte Textwerte können in allen Sprachen außer Chinesisch und Japanisch höchstens 20.000 Zeichen enthalten. Für Chinesisch und Japanisch können Sie maximal 7.000 Zeichen verwenden. Amazon Personalize kürzt Werte, die die Zeichenbeschränkung überschreiten, auf die Zeichenbeschränkung.

Sie können unstrukturierte Textelemente in mehreren Sprachen einreichen, aber der Text jedes Elements sollte nur in einer Sprache verfasst sein. Text kann in den folgenden Sprachen verfasst sein:

  • Chinesisch (vereinfacht)

  • Chinesisch (traditionell)

  • Englisch

  • Französisch

  • Deutsch

  • Japanisch

  • Portugiesisch

  • Spanisch

Numerische Daten

Amazon Personalize kann numerische Artikelmetadaten wie Preis oder Videodauer verwenden, um relevantere Empfehlungen für Benutzer zu generieren. Diese numerischen Daten können als ganze Zahlen oder Dezimalwerte dargestellt werden.

Wenn Sie die Personalisierung durch Benutzer oder Personalisierte Rangfolge benutzerdefinierte Rezepte verwenden, können Sie eine Amazon Personalize Personalize-Lösung für ein Ziel optimieren, das sich auf Artikelmetadaten bezieht und zusätzlich maximale Relevanz bietet, z. B. die Maximierung des Umsatzes. Wenn Sie Ihre Lösung konfigurieren, wählen Sie die numerische Metadatenspalte in Ihrem Artikeldatensatz aus, die sich auf Ihr Ziel bezieht. Sie könnten beispielsweise eine VIDEO_LENGTH-Spalte wählen, um die Streaming-Minuten zu maximieren, oder eine PRICE-Spalte, um den Umsatz zu maximieren.

Weitere Informationen finden Sie unter Optimierung einer Lösung für ein zusätzliches Ziel.

Nicht kategorische Zeichenkettendaten

Mit Ausnahme von Artikeln verwendet Amazon Personalize beim Training keine nicht kategorischen IDs, nicht textuellen Zeichenkettendaten, wie Artikeltitel oder Autorendaten. Amazon Personalize kann es jedoch mit den folgenden Funktionen verwenden. Nicht kategorische Werte können maximal 1000 Zeichen lang sein.

  • Amazon Personalize kann Artikelmetadaten in Empfehlungen aufnehmen, einschließlich nicht kategorischer Zeichenkettenwerte. Sie können Metadaten verwenden, um Empfehlungen auf Ihrer Benutzeroberfläche zu erweitern, z. B. um den Namen des Regisseurs zu einem Karussell mit Filmempfehlungen hinzuzufügen. Weitere Informationen finden Sie unter Artikelmetadaten in Empfehlungen.

  • Wenn Sie dies verwendenÄhnliche Artikel, können Sie Batch-Empfehlungen mit Themen generieren. Wenn Sie Batch-Empfehlungen mit Themen generieren, müssen Sie im Batch-Inferenzjob eine Spalte mit dem Elementnamen angeben. Weitere Informationen finden Sie unter Batch-Empfehlungen mit Themen aus dem Content Generator.

  • Sie können Filter erstellen, um Elemente auf der Grundlage von Zeichenkettendaten, die nicht kategorisch sind, in Empfehlungen aufzunehmen oder daraus zu entfernen. Weitere Informationen zu Filtern finden Sie unter Empfehlungen und Benutzersegmente filtern.

Beispiel für Artikel-Metadaten

Die ersten Zeilen mit Filmmetadaten in einer CSV-Datei könnten wie folgt aussehen.

ITEM_ID,GENRES,CREATION_TIMESTAMP,DESCRIPTION 1,Adventure|Animation|Children|Comedy|Fantasy,1570003267,"This is an animated movie that features action, comedy, and fantasy. Audience is children. This movie was released in 2004." 2,Adventure|Children|Fantasy,1571730101,"This is an adventure movie with elements of fantasy. Audience is children. This movie was release in 2010." 3,Comedy|Romance,1560515629,"This is a romantic comedy. The movie was released in 1999. Audience is young women." 4,Comedy|Drama|Romance,1581670067,"This movie includes elements of both comedy and drama as well as romance. This movie was released in 2020." ... ...

Die ITEM_ID Spalte ist erforderlich und speichert eindeutige Kennungen für jedes einzelne Element. GENREIn der Spalte werden kategoriale Metadaten für jeden Film gespeichert, und in der DESCRIPTION Spalte werden unstrukturierte Textmetadaten gespeichert. In der CREATION_TIMESTAMP Spalte wird die Erstellungszeit jedes Elements im Unix-Epochenzeitformat in Sekunden gespeichert.

Nachdem Sie Ihre Daten vorbereitet haben, können Sie eine Schema-JSON-Datei erstellen. Diese Datei informiert Amazon Personalize über die Struktur Ihrer Daten. Weitere Informationen finden Sie unter JSON-Schema-Dateien für Amazon Personalize Personalize-Schemas erstellen. So würde die Schema-JSON-Datei für die obigen Beispieldaten aussehen.

{ "type": "record", "name": "Items", "namespace": "com.amazonaws.personalize.schema", "fields": [ { "name": "ITEM_ID", "type": "string" }, { "name": "GENRES", "type": [ "null", "string" ], "categorical": true }, { "name": "CREATION_TIMESTAMP", "type": "long" }, { "name": "DESCRIPTION", "type": [ "null", "string" ], "textual": true } ], "version": "1.0" }