Analyse der Qualität und Quantität von Daten in Datensätzen - Amazon Personalize

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Analyse der Qualität und Quantität von Daten in Datensätzen

Nachdem Sie Daten in einen Datensatz mit Artikelinteraktionen, Benutzern oder Artikeln importiert haben, können Sie die Amazon Personalize-Konsole verwenden, um die Daten zu analysieren. Mithilfe von Dateneinblicken und Spalten- und Zeilenstatistiken können Sie mehr über Ihre Daten erfahren. Und Sie können erfahren, welche Maßnahmen Sie ergreifen können, um Ihre Daten zu verbessern. Diese Maßnahmen können Ihnen helfen, die Ressourcenanforderungen von Amazon Personalize zu erfüllen, z. B. die Anforderungen an die Modellschulung, oder sie können zu verbesserten Empfehlungen führen.

Wichtig

Sie können die Amazon Personalize Personalize-Konsole nicht verwenden, um Daten in einem Action-Interactions - oder Actions-Datensatz zu analysieren.

Nachdem Sie alle empfohlenen Änderungen vorgenommen haben, können Sie Ihre Daten erneut importieren und prüfen, ob Sie Probleme behoben oder die Datensatzstatistiken verbessert haben. Informationen zum Aktualisieren von Daten finden Sie unterMehr Trainingsdaten in Datensätze importieren.

Wenn Sie keine Erkenntnisse erhalten, stimmen Ihre Daten mit den Datenerwartungen von Amazon Personalize überein. Sie können Daten in einer Domain-Datensatzgruppe oder einer benutzerdefinierten Datensatzgruppe analysieren.

Bei der Generierung von Erkenntnissen und der Berechnung von Statistiken berücksichtigt Amazon Personalize alle Massen- und Streaming-Daten von nicht anonymen Benutzern. Ereignisse von anonymen Benutzern werden erst berücksichtigt, wenn Sie sie mit einem verknüpfen. userId Weitere Informationen finden Sie unter Aufzeichnen von Ereignissen für anonyme Benutzer.

Erforderliche Berechtigungen für die Datenanalyse

Wenn Sie Benutzern vollen Zugriff auf Amazon Personalize gewähren, sind keine Änderungen der Berechtigungen erforderlich. Wenn Sie Ihren Benutzern nur die Berechtigungen gewähren, die für die Ausführung einer Aufgabe in Amazon Personalize erforderlich sind, muss Ihre AWS Identity and Access Management (IAM-) Richtlinie die folgenden zusätzlichen Data Insight-Aktionen beinhalten.

  • personalisieren: CreateDataInsightsJob

  • personalisieren: ListDataInsightsJobs

  • personalisieren: DescribeDataInsightsJob

  • personalisieren: GetDataInsights

Einblicke in Daten

Im Folgenden sind die möglichen Dateneinblicke aufgeführt, die Sie in Amazon Personalize generieren können.

Insight Aktion Verwandte Datensätze
Der Datensatz Interaktionen enthält nur X Interaktionen. Das Modelltraining erfordert mindestens 1.000 Interaktionen. Wir empfehlen mindestens 50.000. Importieren Sie Y zusätzliche eindeutige Interaktionsdatensätze, bevor Sie ein Modell trainieren. Interaktionen mit Artikeln
Der Datensatz Interaktionen hat nur X eindeutige Benutzer mit zwei oder mehr Interaktionen. Für das Modelltraining sind mindestens 25 solcher Benutzer erforderlich. Wir empfehlen mindestens 1.000. Importieren Sie mindestens 2 Interaktionsdatensätze für jeweils Y weitere Benutzer. Interaktionen mit Artikeln
Bei X% der Artikel im Datensatz „Artikel“ gibt es keine Interaktionen im Datensatz Interaktionen, weshalb sie möglicherweise nicht empfohlen werden.

Stellen Sie sicher, dass Sie alle Ihre Interaktionsdaten importieren und überprüfen Sie, ob die IDs Ihrer Artikel und Interaktionen nicht übereinstimmen. Überprüfen Sie die unten stehenden Datensatzstatistiken für Ihre Artikel- und Interaktionsdatensätze, um sicherzustellen, dass Sie die erwartete Anzahl von Zeilen importiert haben. Wenn Ihr Anwendungsfall oder Ihre Rezeptur Erkundung verwendet, ändern Sie die Konfiguration der Erkundung, um mehr Artikel ohne Interaktionsdaten zu empfehlen.

Artikelinteraktionen und Artikel
X% der Benutzer im Datensatz „Benutzer“ haben keine Interaktionen im Datensatz „Interaktionen“. Diese Benutzer erhalten Empfehlungen für beliebte Artikel.

Stellen Sie sicher, dass Sie alle Ihre Interaktionsdaten importieren und überprüfen Sie, ob die IDs Ihrer Benutzer und der Interaktionsdatensätze nicht übereinstimmen. Überprüfen Sie die unten stehenden Datensatzstatistiken für Ihre Benutzer- und Interaktionsdatensätze, um sicherzustellen, dass Sie die erwartete Anzahl von Zeilen importiert haben. Importieren Sie alle zusätzlichen Interaktionen, damit mehr Benutzer über Interaktionsdaten verfügen.

Artikelinteraktionen und Benutzer
Der <Users or Items or Interactions>Datensatz enthält X% Zeilen mit einem fehlenden Wert. Dies kann sich negativ auf Empfehlungen auswirken. Wir empfehlen, dass alle erforderlichen und optionalen Felder zu mindestens 70% ausgefüllt sind.

Importieren Sie weitere vollständige Datensätze oder importieren Sie erneut Daten ohne unvollständige Zeilen, oder importieren Sie Daten erneut, wobei fehlende Werte durch Ersatzdaten ersetzt werden, z. B. den Durchschnitt für numerische Spalten oder den häufigsten Wert für kategoriale Spalten.

Any
Die folgenden Spalten im <datasetType>Datensatz sind zu weniger als 70% vollständig: <ColumnName, ColumnName... >. Wenn diese Daten in die Schulung einfließen, kann sich dies negativ auf die Empfehlungen auswirken. Wir empfehlen, dass Spalten, die Nullwerte zulassen, zu mindestens 70% vollständig sind.

Importieren Sie weitere vollständige Datensätze oder importieren Sie erneut Daten ohne unvollständige Zeilen, oder importieren Sie Daten erneut, wobei fehlende Werte durch Ersatzdaten ersetzt werden, z. B. den Durchschnitt für numerische Spalten oder den häufigsten Wert für kategoriale Spalten.

Any
Die folgenden (numerischen) Spalten weisen Ausreißer auf: <ColumnName, ColumnName... >. Ausreißer sind nicht immer ein Problem, wirken sich aber manchmal negativ auf Empfehlungen aus.

Prüfen Sie anhand der unten stehenden Spaltenstatistiken, ob die Mindest- und Höchstwerte für diese Spalten Ihren Erwartungen entsprechen. Wenn diese Werte unerwartet sind, überprüfen Sie die Daten in diesen Spalten auf Ungenauigkeiten und überprüfen Sie Ihre Datenerfassung und Datenverarbeitung auf Probleme.

Any
Die folgenden Spalten haben mehr als 1000 mögliche Kategorien: <ColumnName, ColumnName... >. Wenn diese Daten in die Schulung einfließen, kann sich dies negativ auf die Empfehlungen auswirken: <ColumnName, ColumnName... >.

Überprüfen Sie Ihre kategorialen Daten auf Probleme, wie z. B. doppelte Kategorien, die durch unterschiedliche Schreibweisen verursacht werden. Korrigieren Sie alle Ungenauigkeiten und importieren Sie die Daten erneut.

Any
Die folgenden Textmetadatenspalten sind zu weniger als 85% vollständig und werden beim Modelltraining nicht verwendet: <ColumnName, ColumnName... >.

Importieren Sie zusätzliche Zeilen oder importieren Sie die Zeilen erneut mit Textdaten für diese Spalte (n).

Items
Der Interactions-Datensatz enthält mehr als 10 eindeutige Ereignistypen, was dazu führen kann, dass das Modelltraining fehlschlägt.

Überprüfen Sie die Spalte mit dem Ereignistyp auf Ungenauigkeiten, z. B. doppelte Ereignistypen, die durch unterschiedliche Schreibweisen verursacht werden. Entfernen Sie unnötige Ereignistypen und importieren Sie die Daten erneut.

Interaktionen mit Artikeln
Der Interactions-Datensatz hat für alle Datensätze denselben Zeitstempel. Wenn Sie ein USER_SEGMENTATION-Rezept verwenden und alle Datensätze denselben Zeitstempel haben, schlägt das Modelltraining fehl.

Überprüfen Sie Ihre Daten auf Zeitstempelprobleme und ersetzen Sie doppelte Zeitstempel durch eindeutige Zeitstempel.

Interaktionen mit Artikeln

Einblicke und Statistiken zu Datensätzen anzeigen

Um Einblicke und Statistiken zu Ihren Daten in Amazon Personalize-Datensätzen einzusehen, navigieren Sie zu Ihren Datensätzen in der Amazon Personalize Personalize-Konsole und wählen Sie Analyse ausführen.

Um Einblicke und Statistiken einzusehen
  1. Öffnen Sie die Amazon Personalize Personalize-Konsole unter https://console.aws.amazon.com/personalize/home und melden Sie sich bei Ihrem Konto an.

  2. Wählen Sie auf der Seite Datensatzgruppen Ihre Datensatzgruppe aus.

  3. Wählen Sie im Navigationsbereich unter Datensätze die Option Datenanalyse aus.

  4. Wählen Sie oben rechts die Option Analyse ausführen aus. Amazon Personalize beginnt mit der Analyse Ihrer Daten. Dies kann bis zu 15 Minuten dauern. Bei Erfolg werden die Ergebnisse auf dieser Seite angezeigt.

  5. Verwenden Sie in Insights die folgenden Optionen, um die angezeigten Erkenntnisse zu filtern.

    • Um nach Erkenntnissen zu suchen, die eine bestimmte Sprache beinhalten, geben Sie Ihre Kriterien unter Einblick suchen ein. Während Sie Text eingeben, wird die Liste aktualisiert und enthält nur Erkenntnisse mit der genauen Zeichenfolge in der Erkenntnis oder der empfohlenen Maßnahme.

    • Um die Erkenntnisse nach Datensatztyp zu filtern, ändern Sie Alle Datensätze in den spezifischen Datensatztyp. Die Liste wird aktualisiert und enthält nun nur Erkenntnisse, die sich auf diesen Datensatz beziehen.

  6. Gehen Sie wie folgt vor, um Datensatzstatistiken für einen Datensatz anzuzeigen.

    • Um allgemeine Details und Statistiken zu einem Datensatz anzuzeigen, z. B. die Anzahl der Zeilen, eindeutige Benutzer und eindeutige Elemente in einem Interactions-Datensatz, erweitern Sie den Abschnitt für den Datensatz.

    • Um detaillierte Statistiken für eine Spalte anzuzeigen, erweitern Sie den Datensatzbereich, wählen Sie Statistiken auf Spaltenebene und wählen Sie das Optionsfeld für die Spalte aus.

  7. Korrigieren Sie alle Probleme in Ihren Daten, importieren Sie sie erneut und führen Sie zur Überprüfung eine weitere Analyse durch. Weitere Informationen zum erneuten Importieren von Daten finden Sie unterMehr Trainingsdaten in Datensätze importieren.