Erkunden Ihrer Daten mit Analytik - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Erkunden Ihrer Daten mit Analytik

Anmerkung

Sie können SageMaker Canvas-Analysen nur für Modelle verwenden, die auf tabellarischen Datensätzen basieren. Textvorhersagemodelle mit mehreren Kategorien sind ebenfalls ausgeschlossen.

Mit Analysen in Amazon SageMaker Canvas können Sie Ihren Datensatz untersuchen und Einblicke in all Ihre Variablen gewinnen, bevor Sie ein Modell erstellen. Sie können die Beziehungen zwischen Features in Ihrem Datensatz mithilfe von Korrelationsmatrizen bestimmen. Sie können diese Technik verwenden, um Ihren Datensatz in einer Matrix zusammenzufassen, die die Korrelationen zwischen zwei oder mehr Werten zeigt. Auf diese Weise können Sie Muster in einem bestimmten Datensatz für eine erweiterte Datenanalyse identifizieren und visualisieren.

In der Matrix wird die Korrelation zwischen den einzelnen Features als positiv, negativ oder neutral dargestellt. Möglicherweise möchten Sie beim Erstellen Ihres Modells Features einbeziehen, die eine hohe Korrelation zueinander aufweisen. Features, die wenig bis gar keine Korrelation aufweisen, sind für Ihr Modell möglicherweise irrelevant, und Sie können diese Features beim Erstellen Ihres Modells weglassen.

Informationen zu den ersten Schritten mit Korrelationsmatrizen in SageMaker Canvas finden Sie im folgenden Abschnitt.

Erstellen Sie eine Korrelationsmatrix

Sie können eine Korrelationsmatrix erstellen, wenn Sie die Erstellung eines Modells auf der Registerkarte Erstellen der SageMaker Canvas-Anwendung vorbereiten.

Eine Anleitung, wie Sie mit der Erstellung eines Modells beginnen, finden Sie unter Ein Modell erstellen.

Nachdem Sie mit der Vorbereitung eines Modells in der SageMaker Canvas-Anwendung begonnen haben, gehen Sie wie folgt vor:

  1. Wählen Sie auf der Registerkarte Erstellen die Option Datenvisualisierung aus.

  2. Wählen Sie dann Analytics aus.

  3. Wählen Sie Korrelationsmatrix.

Sie sollten eine Visualisierung sehen, die dem folgenden Screenshot ähnelt. Sie zeigt bis zu 15 Spalten des Datensatzes, die in einer Korrelationsmatrix organisiert sind.

Screenshot einer Korrelationsmatrix in der Canvas-Anwendung.

Nachdem Sie die Korrelationsmatrix erstellt haben, können Sie sie folgendermaßen anpassen:

1. Wählen Sie Ihre Spalten

Für Spalten können Sie die Spalten auswählen, die Sie in die Matrix aufnehmen möchten. Sie können bis zu 15 Spalten aus Ihrem Datensatz vergleichen.

Anmerkung

Sie können numerische, kategoriale oder binäre Spaltentypen für eine Korrelationsmatrix verwenden. Die Korrelationsmatrix unterstützt keine Spaltentypen für Datetime- oder Textdaten.

Um der Korrelationsmatrix Spalten hinzuzufügen oder aus ihr zu entfernen, wählen Sie Spalten im Spalten-Bedienfeld aus und deaktivieren Sie sie. Sie können Spalten auch direkt aus dem Bedienfeld in die Matrix ziehen und dort ablegen. Wenn Ihr Datensatz viele Spalten enthält, können Sie in der Leiste Spalten durchsuchen nach den gewünschten Spalten suchen.

Um die Spalten nach Datentyp zu filtern, wählen Sie die Dropdownliste aus und wählen Sie Alle, Numerisch oder Kategorisch aus. Wenn Sie Alle auswählen, werden Ihnen alle Spalten aus Ihrem Datensatz angezeigt, wohingegen die Filter Numerisch und Kategorisch nur die numerischen oder kategorialen Spalten in Ihrem Datensatz anzeigen. Beachten Sie, dass binäre Spaltentypen in den numerischen oder kategorialen Filtern enthalten sind.

Die besten Dateneinblicke erhalten Sie, wenn Sie Ihre Zielspalte in die Korrelationsmatrix aufnehmen. Wenn Sie Ihre Zielspalte in die Korrelationsmatrix aufnehmen, wird sie als letztes Feature in der Matrix mit einem Zielsymbol angezeigt.

2. Wählen Sie Ihren Korrelationstyp

SageMaker Canvas unterstützt verschiedene Korrelationstypen oder Methoden zur Berechnung der Korrelation zwischen Ihren Spalten.

Um den Korrelationstyp zu ändern, verwenden Sie den im vorherigen Abschnitt erwähnten Spaltenfilter, um nach Ihrem gewünschten Spaltentyp und den gewünschten Spalten zu filtern. Sie sollten den Korrelationstyp im Seitenbereich sehen. Für numerische Vergleiche haben Sie die Möglichkeit, entweder Pearson oder Spearman auszuwählen. Für kategoriale Vergleiche ist der Korrelationstyp auf MI festgelegt. Für kategoriale und gemischte Vergleiche wird der Korrelationstyp auf Spearman & MI festgelegt.

Bei Matrizen, die nur numerische Spalten vergleichen, ist der Korrelationstyp entweder Pearson oder Spearman. Die Pearson-Messgröße bewertet die lineare Beziehung zwischen zwei kontinuierlichen Variablen. Das Spearman-Maß bewertet die monotone Beziehung zwischen zwei Variablen. Sowohl bei Pearson als auch bei Spearman reicht die Korrelationsskala von -1 bis 1, wobei jedes Ende der Skala auf eine perfekte Korrelation (eine direkte 1:1 -Beziehung) und 0 auf keine Korrelation hinweist. Möglicherweise möchten Sie Pearson auswählen, wenn Ihre Daten linearere Beziehungen aufweisen (wie eine Streudiagrammvisualisierung zeigt). Wenn Ihre Daten nicht linear sind oder eine Mischung aus linearen und monotonen Beziehungen enthalten, sollten Sie Spearman auswählen.

Für Matrizen, die nur kategoriale Spalten vergleichen, ist der Korrelationstyp auf Mutual Information Classification (MI) festgelegt. Der MI-Wert ist ein Maß für die wechselseitige Abhängigkeit zwischen zwei Zufallsvariablen. Das MI-Maß liegt auf einer Skala von 0 bis 1, wobei 0 für keine Korrelation und 1 für eine perfekte Korrelation steht.

Bei Matrizen, die eine Mischung aus numerischen und kategorialen Spalten vergleichen, ist der Korrelationstyp Spearman & MI eine Kombination der Korrelationstypen Spearman und MI. Für Korrelationen zwischen zwei numerischen Spalten zeigt die Matrix den Spearman-Wert. Bei Korrelationen zwischen einer numerischen und einer kategorialen Spalte oder zwei kategorialen Spalten zeigt die Matrix den MI-Wert.

Denken Sie abschließend daran, dass Korrelation nicht unbedingt auf eine Kausalität hindeutet. Ein starker Korrelationswert weist nur darauf hin, dass ein Zusammenhang zwischen zwei Variablen besteht, aber die Variablen haben möglicherweise keinen kausalen Zusammenhang. Prüfen Sie die für Sie interessanten Spalten sorgfältig, um Verzerrungen bei der Modellerstellung zu vermeiden.

3. Ihre Korrelationen filtern

Im Seitenbereich können Sie die Funktion Korrelationen filtern verwenden, um nach dem Bereich von Korrelationswerten zu filtern, den Sie in die Matrix aufnehmen möchten. Wenn Sie beispielsweise nach Features filtern möchten, die nur eine positive oder neutrale Korrelation aufweisen, können Sie den Minimalwert auf 0 und den Höchstwert auf 1 festlegen (gültige Werte sind -1 bis 1).

Für Spearman- und Pearson-Vergleiche können Sie den Korrelationsbereich des Filters auf einen beliebigen Wert von -1 bis 1 festlegen, wobei 0 bedeutet, dass keine Korrelation besteht. -1 und 1 bedeuten, dass die Variablen eine starke negative bzw. positive Korrelation aufweisen.

Bei MI-Vergleichen reicht der Korrelationsbereich nur von 0 bis 1, wobei 0 bedeutet, dass keine Korrelation besteht und 1 bedeutet, dass die Variablen eine starke Korrelation aufweisen, entweder positiv oder negativ.

Jedes Feature hat eine perfekte Korrelation (1) mit sich selbst. Daher stellen Sie möglicherweise fest, dass die oberste Zeile der Korrelationsmatrix immer 1 ist. Wenn Sie diese Werte ausschließen möchten, können Sie den Filter verwenden, um den Höchstwert auf weniger als 1 festzulegen.

Denken Sie daran, dass, wenn Ihre Matrix eine Mischung aus numerischen und kategorialen Spalten vergleicht und den Korrelationstyp Spearman & MI verwendet, die kategorialen x-numerischen und kategorialen x-kategorialen Korrelationen (die das MI-Maß verwenden) auf einer Skala von 0 bis 1 liegen, wohingegen die numerischen x-numerischen Korrelationen (die das Spearman-Maß verwenden) auf einer Skala von -1 bis 1 liegen. Prüfen Sie Ihre interessierenden Korrelationen sorgfältig, um sicherzustellen, dass Sie den Korrelationstyp kennen, der zur Berechnung der einzelnen Werte verwendet wird.

4. Wählen Sie die Visualisierung-Methode aus.

Im Seitenbereich können Sie Visualize by verwenden, um die Visualisierungsmethode der Matrix zu ändern. Wählen Sie die numerische Visualisierungsmethode, um den Korrelationswert (Pearson, Spearman oder MI) anzuzeigen, oder wählen Sie die Visualisierungsmethode Größe, um die Korrelation mit unterschiedlich großen und farbigen Punkten zu visualisieren. Wenn Sie Größe wählen, können Sie den Mauszeiger über einen bestimmten Punkt in der Matrix bewegen, um den tatsächlichen Korrelationswert zu sehen.

5. Wählen Sie eine Farbpalette

Im Seitenbereich können Sie mithilfe der Farbauswahl die Farbpalette ändern, die für die Skala zwischen negativer und positiver Korrelation in der Matrix verwendet wird. Wählen Sie eine der alternativen Farbpaletten aus, um die in der Matrix verwendeten Farben zu ändern.