Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Führen Sie eine explorative Datenanalyse durch () EDA
Data Wrangler enthält integrierte Analysen, mit denen Sie mit wenigen Klicks Visualisierungen und Datenanalysen erstellen können. Sie können auch benutzerdefinierte Analysen mit Ihrem eigenen Code erstellen.
Sie fügen einem Datenrahmen eine Analyse hinzu, indem Sie einen Schritt in Ihrem Datenfluss auswählen und dann Analyse hinzufügen auswählen. Um auf eine von Ihnen erstellte Analyse zuzugreifen, wählen Sie den Schritt aus, der die Analyse enthält, und wählen Sie die Analyse aus.
Analysen werden anhand einer Stichprobe von bis zu 200.000 Zeilen Ihres Datensatzes generiert, und Sie können die Stichprobengröße konfigurieren. Weitere Informationen zum Ändern der Stichprobengröße Ihres Datenflusses finden Sie unterBearbeiten Sie die Konfiguration der Datenflussstichprobe.
Anmerkung
Analysen sind für Daten mit 1000 oder weniger Spalten optimiert. Beim Generieren von Analysen für Daten mit zusätzlichen Spalten kann es zu einer gewissen Latenz kommen.
Sie können die folgende Analyse zu einem Datenrahmen hinzufügen:
-
Datenvisualisierungen, einschließlich Histogrammen und Streudiagrammen.
-
Eine kurze Zusammenfassung Ihres Datensatzes, einschließlich der Anzahl der Einträge, der Mindest- und Höchstwerte (für numerische Daten) sowie der am häufigsten und seltensten Kategorien (für kategoriale Daten).
-
Ein schnelles Modell des Datensatzes, das verwendet werden kann, um eine Wichtigkeitsbewertung für jedes Feature zu generieren.
-
Ein Ziel-Leckagebericht, anhand dessen Sie feststellen können, ob ein oder mehrere Merkmale stark mit Ihrem Zielmerkmal korrelieren.
-
Eine benutzerdefinierte Visualisierung mit Ihrem eigenen Code.
In den folgenden Abschnitten erfahren Sie mehr über diese Optionen.
Verschaffen Sie sich Einblicke in Daten und Datenqualität
Verwenden Sie den Datenqualitäts- und Insights-Bericht, um eine Analyse der Daten durchzuführen, die Sie in Data Wrangler importiert haben. Wir empfehlen, dass Sie den Bericht erstellen, nachdem Sie Ihren Datensatz importiert haben. Sie können den Bericht verwenden, um Ihre Daten zu bereinigen und zu verarbeiten. Er gibt Ihnen Informationen wie die Anzahl der fehlenden Werte und die Anzahl der Ausreißer. Wenn Sie Probleme mit Ihren Daten haben, wie z. B. undichte Zielstellen oder Ungleichgewichte, können Sie mithilfe des Insights-Berichts auf diese Probleme aufmerksam gemacht werden.
Gehen Sie wie folgt vor, um einen Datenqualitäts- und Insights-Bericht zu erstellen. Es wird davon ausgegangen, dass Sie bereits einen Datensatz in Ihren Data Wrangler-Flow importiert haben.
So erstellen Sie einen Datenqualitäts- und Insights-Bericht:
-
Wählen Sie das Ellipsensymbol neben einem Knoten in Ihrem Data Wrangler-Flow.
-
Wählen Sie Dateneinblicke abrufen aus.
-
Wählen Sie als Analysetyp die Option Datenqualitäts- und Insights-Bericht aus.
-
Geben Sie unter Analysename einen Namen für den Insights-Bericht an.
-
Geben Sie als Problemtyp Regression oder Klassifizierung an.
-
Geben Sie für Zielspalte die Zielspalte an.
-
Geben Sie für Datengröße einen der folgenden Werte an:
-
Datensatz mit Stichproben — Verwendet die interaktive Stichprobe aus Ihrem Datenfluss, die bis zu 200.000 Zeilen Ihres Datensatzes enthalten kann. Informationen zum Bearbeiten der Stichprobengröße finden Sie unterBearbeiten Sie die Konfiguration der Datenflussstichprobe.
-
Vollständiger Datensatz — Verwendet den vollständigen Datensatz aus Ihrer Datenquelle, um den Bericht zu erstellen.
Anmerkung
Für die Erstellung eines Datenqualitäts- und Insights-Berichts für den gesamten Datensatz wird ein SageMaker Amazon-Verarbeitungsjob verwendet. Ein SageMaker Verarbeitungsjob stellt die zusätzlichen Rechenressourcen bereit, die erforderlich sind, um Einblicke in all Ihre Daten zu erhalten. Weitere Informationen zur SageMaker Verarbeitung von Aufträgen finden Sie unterWorkloads zur Datentransformation mit SageMaker Verarbeitung.
-
-
Wählen Sie Create (Erstellen) aus.
Die folgenden Themen zeigen die Abschnitte des Berichts:
Sie können den Bericht entweder herunterladen oder online ansehen. Um den Bericht herunterzuladen, wählen Sie die Download-Schaltfläche in der oberen rechten Ecke des Bildschirms.
Übersicht
Der Insights-Bericht enthält eine kurze Zusammenfassung der Daten, die allgemeine Informationen wie fehlende Werte, ungültige Werte, Merkmalstypen, Anzahl von Ausreißern und mehr enthält. Er kann auch Warnungen mit hohem Schweregrad enthalten, die auf wahrscheinliche Probleme mit den Daten hinweisen. Wir empfehlen Ihnen, die Warnungen zu überprüfen.
Zielspalte
Wenn Sie den Datenqualitäts- und Insights-Bericht erstellen, bietet Ihnen Data Wrangler die Möglichkeit, eine Zielspalte auszuwählen. Eine Zielspalte ist eine Spalte, die Sie voraussagen möchten. Wenn Sie eine Zielspalte auswählen, erstellt Data Wrangler automatisch eine Zielspaltenanalyse. Außerdem werden die Merkmale in der Reihenfolge ihrer Voraussagekraft eingestuft. Wenn Sie eine Zielspalte auswählen, müssen Sie angeben, ob Sie versuchen, ein Regressions- oder ein Klassifizierungsproblem zu lösen.
Zur Klassifizierung zeigt Data Wrangler eine Tabelle und ein Histogramm der gängigsten Klassen. Eine Klasse ist eine Kategorie. Sie enthält auch Beobachtungen oder Zeilen mit einem fehlenden oder ungültigen Zielwert.
Für die Regression zeigt Data Wrangler ein Histogramm aller Werte in der Zielspalte. Sie enthält auch Beobachtungen oder Zeilen mit einem fehlenden, ungültigen oder einem Ausreißer-Zielwert.
Quick-Modell
Das Quick-Modell bietet eine Schätzung der erwarteten vorausgesagten Qualität eines Modells, das Sie anhand Ihrer Daten trainieren.
Data Wrangler teilt Ihren Datensatz in Trainings- und Validierungsbereiche auf. Es verwendet 80 % der Stichproben für das Training und 20 % der Werte für die Validierung. Zur Klassifizierung wird die Stichprobe stratifiziert und aufgeteilt. Bei einer stratifizierten Aufteilung hat jede Datenpartition das gleiche Verhältnis von Beschriftungen. Bei Klassifikationsproblemen ist es wichtig, dass das gleiche Verhältnis der Beschriftungen zwischen den Kategorien Training und Klassifikationsbereiche eingehalten wird. Data Wrangler trainiert das XGBoost Modell mit den Standard-Hyperparametern. Es stoppt die Validierungsdaten frühzeitig und führt nur eine minimale Vorverarbeitung der Merkmale durch.
Bei Klassifikationsmodellen gibt Data Wrangler sowohl eine Modellzusammenfassung als auch eine Konfusionsmatrix zurück.
Weitere Informationen zu den Informationen, die die Zusammenfassung des Klassifikationsmodells zurückgibt, finden Sie unter. Definitionen
Eine Konfusionsmatrix enthält die folgenden Informationen:
-
Gibt an, wie oft die vorausgesagte Beschriftung mit der wahren Beschriftung übereinstimmt.
-
Gibt an, wie oft die vorausgesagte Beschriftung mit der wahren Beschriftung nicht übereinstimmt.
Die wahre Beschriftung stellt eine tatsächliche Beobachtung in Ihren Daten dar. Wenn Sie beispielsweise ein Modell zur Erkennung betrügerischer Transaktionen verwenden, steht das True Label für eine Transaktion, die tatsächlich betrügerisch oder nicht betrügerisch ist. Das vorausgesagte Beschriftung steht für die Beschriftung, das Ihr Modell den Daten zuweist.
Anhand der Konfusionsmatrix können Sie ermitteln, wie gut das Modell das Vorliegen oder Nichtvorliegen einer Bedingung voraussagt. Wenn Sie betrügerische Transaktionen voraussagen, können Sie die Konfusionsmatrix verwenden, um sich ein Bild von der Sensibilität und Spezifität des Modells zu machen. Die Sensibilität bezieht sich auf die Fähigkeit des Modells, betrügerische Transaktionen zu erkennen. Die Spezifität bezieht sich auf die Fähigkeit des Modells, zu verhindern, dass nicht betrügerische Transaktionen als betrügerisch erkannt werden.
Übersicht der Funktionen
Wenn Sie eine Zielspalte angeben, ordnet Data Wrangler die Funktionen nach ihrer Voraussagekraft. Die Aussagekraft der Daten wird anhand der Daten gemessen, nachdem sie zu 80% in Trainingseinheiten und zu 20% in Validierungsstufen aufgeteilt wurden. Data Wrangler passt ein Modell für jedes Merkmal separat im Trainingsbereich an. Es wendet nur eine minimale Merkmalsvorverarbeitung an und misst die Voraussageleistung anhand der Validierungsdaten.
Es normalisiert die Werte auf den Bereich [0,1]. Höhere Voraussagewerte weisen auf Spalten hin, die für die Voraussage des Ziels allein nützlicher sind. Niedrigere Werte weisen auf Spalten hin, die keine Voraussage für die Zielspalte bieten.
Es ist ungewöhnlich, dass eine Spalte, die für sich genommen nicht prädiktiv ist, prädiktiv ist, wenn sie zusammen mit anderen Spalten verwendet wird. Sie können die Voraussagewerte getrost verwenden, um zu bestimmen, ob eine Funktion in Ihrem Datensatz prädiktiv ist.
Ein niedriger Wert weist normalerweise darauf hin, dass die Funktion überflüssig ist. Ein Wert von 1 impliziert perfekte Voraussagefähigkeiten, was häufig auf undichte Zielstellen hindeutet. Undichte Zielstellen treten normalerweise auf, wenn der Datensatz eine Spalte enthält, die zum Voraussagezeitpunkt nicht verfügbar ist. Es könnte sich beispielsweise um ein Duplikat der Zielspalte handeln.
Beispiele
Data Wrangler liefert Informationen darüber, ob Ihre Stichproben anomal sind oder ob Ihr Datensatz Duplikate enthält.
Data Wrangler erkennt anomale Proben mithilfe des Isolation-Forest-Algorithmus. Der Isolation Forest ordnet jeder Stichprobe (Zeile) des Datensatzes einen Anomaliewert zu. Niedrige Anomaliewerte deuten auf anomale Proben hin. Hohe Werte stehen im Zusammenhang mit Proben, die nicht anomale Werte aufweisen. Proben mit einem negativen Anomaliewert gelten in der Regel als anomal und Proben mit einem positiven Anomaliewert gelten als nicht anomal.
Wenn Sie sich eine Probe ansehen, die möglicherweise anomal ist, empfehlen wir Ihnen, auf ungewöhnliche Werte zu achten. Beispielsweise könnten Sie ungewöhnliche Werte haben, die auf Fehler bei der Erfassung und Verarbeitung der Daten zurückzuführen sind. Im Folgenden finden Sie ein Beispiel für die anomalsten Stichproben gemäß der Implementierung des Isolation-Forest-Algorithmus durch Data Wrangler. Wir empfehlen, bei der Untersuchung der anomalen Stichproben Fachwissen und Geschäftslogik zu verwenden.
Data Wrangler erkennt doppelte Zeilen und berechnet das Verhältnis doppelter Zeilen in Ihren Daten. Einige Datenquellen könnten gültige Duplikate enthalten. Andere Datenquellen könnten Duplikate enthalten, die auf Probleme bei der Datensammlung hinweisen. Doppelte Stichproben, die aus einer fehlerhaften Datensammlung resultieren, könnten Machine-Learning-Prozesse beeinträchtigen, die auf der Aufteilung der Daten in unabhängige Trainings- und Validierungsbereiche beruhen.
Im Folgenden sind Elemente des Insights-Berichts aufgeführt, die durch doppelte Stichproben beeinträchtigt werden können:
-
Quick-Modell
-
Schätzung der Voraussageleistung
-
Automatische Hyperparameteroptimierung
Mithilfe der Transformation Drop-Duplikat unter Zeilen verwalten können Sie doppelte Stichproben aus dem Datensatz entfernen. Data Wrangler zeigt Ihnen die am häufigsten duplizierten Zeilen.
Definitionen
Im Folgenden finden Sie Definitionen für die Fachbegriffe, die im Data Insights-Bericht verwendet werden.
Bericht über Verzerrungen
SageMaker Canvas stellt den Bias-Bericht in Data Wrangler bereit, mit dem Sie potenzielle Verzerrungen in Ihren Daten aufdecken können. Der Bericht über systematische Abweichungen analysiert die Beziehung zwischen der Zielspalte (Bezeichnung) und einer Spalte, von der Sie glauben, dass sie eine Verzerrung enthalten könnte (Facettenvariable). Wenn Sie beispielsweise versuchen, die Kundenkonversion vorherzusagen, kann die Facettenvariable das Alter des Kunden sein. Anhand des Bias-Berichts können Sie feststellen, ob Ihre Daten auf eine bestimmte Altersgruppe ausgerichtet sind oder nicht.
Gehen Sie wie folgt vor, um in Canvas einen Bericht über Verzerrungen zu erstellen:
Wählen Sie in Ihrem Datenfluss in Data Wrangler das Symbol Weitere Optionen ( ) neben einem Knoten im Flow aus.
Wählen Sie im Kontextmenü die Option Get Data Insights aus.
Der Seitenbereich Analyse erstellen wird geöffnet. Wählen Sie im Dropdownmenü Analysetyp die Option Bias Report aus.
Geben Sie im Feld Analysename einen Namen für den Bias-Bericht ein.
Wählen Sie im Dropdownmenü Wählen Sie die Spalte aus, die Ihr Modell vorhersagt (Ziel) Ihre Zielspalte aus.
Für Handelt es sich bei Ihrer prognostizierten Spalte um einen Wert oder einen Schwellenwert? , wählen Sie Wert aus, wenn Ihre Zielspalte kategoriale Werte enthält, oder Schwellenwert, wenn sie numerische Werte enthält.
Geben Sie für Prognostizierter Wert (oder Prognostizierter Schwellenwert, abhängig von Ihrer Auswahl im vorherigen Schritt) den oder die Zielspaltenwerte ein, die einem positiven Ergebnis entsprechen. Wenn Sie beispielsweise die Kundenkonversion vorhersagen, könnte Ihr Wert
yes
darauf hinweisen, dass ein Kunde konvertiert wurde.Wählen Sie im Dropdownmenü Wählen Sie die Spalte aus, die auf Verzerrungen analysiert werden soll, die Spalte, von der Sie glauben, dass sie Verzerrungen enthalten könnte, die auch als Facettenvariable bezeichnet wird.
Für Handelt es sich bei Ihrer Spalte um einen Wert oder einen Schwellenwert? , wählen Sie Wert aus, wenn die Facettenvariable kategoriale Werte hat, oder Schwellenwert, wenn sie numerische Werte hat.
Geben Sie für Spaltenwert (e), die auf systematische systematische Messabweichung analysiert werden sollen (oder Spaltenschwellenwert für die Analyse auf systematische Messabweichung, je nach Ihrer Auswahl im vorherigen Schritt) den oder die Werte ein, die Sie auf mögliche systematische systematische Messabweichung analysieren möchten. Wenn Sie beispielsweise prüfen, ob Kunden ab einem bestimmten Alter voreingenommen sind, verwenden Sie den Anfang dieser Altersgruppe als Schwellenwert.
Wählen Sie unter „Bias-Metriken auswählen“ die Messwerte aus, die Sie in Ihren Bias-Bericht aufnehmen möchten. Bewegen Sie den Mauszeiger über die Info-Symbole, um weitere Informationen zu den einzelnen Metriken zu erhalten.
(Optional) Wenn Sie dazu aufgefordert werden, die Option Möchten Sie weitere Metriken analysieren? , wählen Sie Ja aus, um weitere Bias-Metriken anzuzeigen und einzubeziehen.
Wenn Sie bereit sind, den Bias-Bericht zu erstellen, wählen Sie Hinzufügen aus.
Nach der Generierung bietet Ihnen der Bericht einen Überblick über die ausgewählten Bias-Metriken. Sie können den Bias-Bericht jederzeit auf der Registerkarte Analysen Ihres Datenflusses einsehen.
Histogramm
Verwenden Sie Histogramme, um die Anzahl der Feature-Werte für ein bestimmtes Feature zu ermitteln. Mit der Option Farbe nach können Sie die Beziehungen zwischen Features überprüfen.
Sie können die Funktion Facette nach verwenden, um Histogramme einer Spalte für jeden Wert in einer anderen Spalte zu erstellen.
Streudiagramm
Verwenden Sie die Streudiagramm, um die Beziehung zwischen Features zu untersuchen. Um ein Streudiagramm zu erstellen, wählen Sie ein Feature aus, das auf der X-Achse und Y-Achse dargestellt werden soll. Bei beiden Spalten muss es sich um numerische Spalten handeln.
Sie können Streudiaramme anhand einer zusätzlichen Spalte einfärben.
Darüber hinaus können Sie Streudiagramme nach Merkmalen facettieren.
Zusammenfassung der Tabelle
Verwenden Sie die Analyse mit der Tabellenzusammenfassung, um Ihre Daten schnell zusammenzufassen.
Für Spalten mit numerischen Daten, einschließlich Logarithmus- und Float-Daten, gibt eine Tabellenzusammenfassung die Anzahl der Einträge (Anzahl), Minimum (min), Maximum (max), Mittelwert und Standardabweichung (stddev) für jede Spalte an.
Für Spalten mit nicht numerischen Daten, einschließlich Spalten mit String-, Boolean- oder Datums-/Uhrzeitdaten, gibt eine Tabellenzusammenfassung die Anzahl der Einträge (Anzahl), den seltensten Wert (min) und den häufigsten Wert (max.) an.
Quick-Modell
Verwenden Sie die Schnellmodell-Visualisierung, um Ihre Daten schnell auszuwerten und Wichtigkeitswerte für jedes Feature zu erstellen. Ein Wert für die Wichtigkeit eines Merkmals
Wenn Sie ein Schnellmodelldiagramm erstellen, wählen Sie einen Datensatz aus, den Sie auswerten möchten, und eine Zielbezeichnung, mit der die Bedeutung der Merkmale verglichen werden soll. Data Wrangler führt Folgendes aus:
-
Leitet die Datentypen für die Zielbeschriftung und jedes Feature im ausgewählten Datensatz ab.
-
Bestimmt den Problemtyp. Basierend auf der Anzahl der unterschiedlichen Werte in der Beschriftungsspalte bestimmt Data Wrangler, ob es sich um einen Regressions- oder Klassifikationsproblemtyp handelt. Data Wrangler legt einen kategorialen Schwellenwert auf 100 fest. Wenn die Beschriftungsspalte mehr als 100 unterschiedliche Werte enthält, klassifiziert Data Wrangler dies als Regressionsproblem. Andernfalls wird es als Klassifikationsproblem klassifiziert.
-
Verarbeitet Merkmale vor und kennzeichnet Daten für das Training. Der verwendete Algorithmus erfordert die Kodierung von Merkmalen nach Vektortyp und die Kodierung von Beschriftungen nach doppeltem Typ.
-
Trainiert einen Random-Forest-Algorithmus mit 70% der Daten. Spark's RandomForestRegressor
wird verwendet, um ein Modell für Regressionsprobleme zu trainieren. Das RandomForestClassifier wird verwendet, um ein Modell für Klassifikationsprobleme zu trainieren. -
Wertet ein Random-Forest-Modell mit den verbleibenden 30% der Daten aus. Data Wrangler bewertet Klassifikationsmodelle anhand eines F1-Scores und bewertet Regressionsmodelle anhand eines Scores. MSE
-
Berechnet die Merkmalsbedeutung für jedes Merkmal mithilfe der Gini-Wichtigkeitsmethode.
Leckage anvisieren
Eine Zielleckage tritt auf, wenn ein Trainingsdatensatz für Machine Learning Daten enthält, die stark mit der Zielbeschriftung korrelieren, aber in realen Daten nicht verfügbar sind. Beispielsweise können Sie eine Spalte in Ihrem Datensatz haben, die als Proxy für die Spalte dient, die Sie mit Ihrem Modell vorhersagen möchten.
Wenn Sie die Zielleckageanalyse verwenden, geben Sie Folgendes an:
-
Ziel: Dies ist die Funktion, für die Ihr ML-Modell Vorhersagen treffen soll.
-
Problemtyp: Dies ist der ML-Problemtyp, an dem Sie gerade arbeiten. Der Problemtyp kann entweder Klassifikation oder Regression sein.
-
(Optional) Maximale Anzahl an Features: Dies ist die maximale Anzahl von Features, die in der Visualisierung dargestellt werden sollen. Dabei werden die Features nach ihrem Risiko, dass es sich um eine Zielleckage handelt, sortiert dargestellt.
Für die Klassifizierung verwendet die Analyse der Zielleckage die Fläche unter der Betriebseigenschaft des Empfängers, d. h. AUC die ROC Kurve für jede Spalte, bis hin zur maximalen Anzahl von Merkmalen. Für die Regression wird ein Bestimmtheitskoeffizient oder eine R2-Metrik verwendet.
Die AUC ROC -Kurve bietet eine prädiktive Metrik, die anhand einer Stichprobe von bis zu etwa 1000 Zeilen für jede Spalte mithilfe einer Kreuzvalidierung einzeln berechnet wird. Ein Wert von 1 weist auf perfekte Vorhersagefähigkeiten hin, was häufig auf eine Zielleckage hindeutet. Ein Wert von 0,5 oder weniger bedeutet, dass die Informationen in der Spalte für sich genommen keine nützlichen Informationen für die Vorhersage des Ziels liefern konnten. Es kann zwar vorkommen, dass eine Spalte für sich genommen nicht aussagekräftig ist, aber bei der Vorhersage des Ziels nützlich ist, wenn sie zusammen mit anderen Merkmalen verwendet wird, könnte ein niedriger Wert darauf hindeuten, dass das Merkmal überflüssig ist.
Multikollinearität
Multikollinearität ist ein Umstand, bei dem zwei oder mehr Prädiktorvariablen miteinander in Beziehung stehen. Die Prädiktorvariablen sind die Features in Ihrem Datensatz, die Sie zur Vorhersage einer Zielvariablen verwenden. Wenn Sie über Multikollinearität verfügen, können die Prädiktorvariablen nicht nur die Zielvariable vorhersagen, sondern sich auch gegenseitig vorhersagen.
Sie können den Varianzinflationsfaktor (VIF), die Hauptkomponentenanalyse (PCA) oder die Lasso-Merkmalsauswahl als Messgrößen für die Multikollinearität in Ihren Daten verwenden. Weitere Informationen finden Sie unter den folgenden Topics.
Erkennen Sie Anomalien in Zeitreihendaten
Sie können die Visualisierung zur Erkennung von Anomalien verwenden, um Ausreißer in Ihren Zeitreihendaten zu erkennen. Um zu verstehen, was eine Anomalie ausmacht, müssen Sie verstehen, dass wir die Zeitreihe in einen prognostizierten Term und einen Fehlerterm zerlegen. Wir behandeln die Saisonalität und den Trend der Zeitreihe als den vorhergesagten Term. Wir behandeln die Residuen als Fehlerterm.
Für den Fehlerterm geben Sie einen Schwellenwert als Anzahl der Standardabweichungen an, bei denen das Residuum vom Mittelwert abweichen kann, sodass es als Anomalie betrachtet wird. Sie können beispielsweise einen Schwellenwert mit 3 Standardabweichungen festlegen. Jedes Residuum, das mehr als 3 Standardabweichungen vom Mittelwert entfernt ist, ist eine Anomalie.
Sie können das folgende Verfahren verwenden, um eine Analyse zur Erkennung von Anomalien durchzuführen.
-
Öffnen Sie Ihren Data Wrangler-Datenfluss.
-
Wählen Sie in Ihrem Datenfluss unter Datentypen das + und dann Analyse hinzufügen aus.
-
Wählen Sie als Analysetyp die Option Zeitreihe aus.
-
Wählen Sie für Visualisierung die Option Anomalieerkennung aus.
-
Wählen Sie für Schwellenwert für Anomalien den Schwellenwert aus, ab dem ein Wert als Anomalie betrachtet wird.
-
Wählen Sie Vorschau, um eine Vorschau der Analyse zu erstellen.
-
Wählen Sie Hinzufügen, um die Transformation zum Data Wrangler-Datenfluss hinzuzufügen.
Zerlegung saisonaler Trends in Zeitreihendaten
Mithilfe der Visualisierung der saisonalen Trendzerlegung können Sie feststellen, ob Ihre Zeitreihendaten saisonabhängig sind. Wir verwenden die Methode STL (Saisonale Trendzerlegung unter Verwendung vonLOESS), um die Zerlegung durchzuführen. Wir zerlegen die Zeitreihe in ihre Saison-, Trend- und Restkomponenten. Der Trend spiegelt den langfristigen Verlauf der Reihe wider. Die saisonale Komponente ist ein Signal, das sich in einem bestimmten Zeitraum wiederholt. Nachdem Sie den Trend und die saisonalen Komponenten aus der Zeitreihe entfernt haben, haben Sie das Residuum.
Sie können das folgende Verfahren verwenden, um eine saisonale Trendanalyse der Zerlegung durchzuführen.
-
Öffnen Sie Ihren Data Wrangler-Datenfluss.
-
Wählen Sie in Ihrem Datenfluss unter Datentypen das + und dann Analyse hinzufügen aus.
-
Wählen Sie als Analysetyp die Option Zeitreihe aus.
-
Wählen Sie für Visualisierung die Option Saisonale Trendzerlegung aus.
-
Wählen Sie für Schwellenwert für Anomalien den Schwellenwert aus, ab dem ein Wert als Anomalie betrachtet wird.
-
Wählen Sie Vorschau, um eine Vorschau der Analyse zu erstellen.
-
Wählen Sie Hinzufügen, um die Transformation zum Data Wrangler-Datenfluss hinzuzufügen.
Erstellen Sie benutzerdefinierte Visualisierungen
Sie können Ihrem Data Wrangler-Flow eine Analyse hinzufügen, um eine benutzerdefinierte Visualisierung zu erstellen. Ihr Datensatz mit allen Transformationen, die Sie angewendet haben, ist als Pandas verfügbar. DataFramedf
Variable, um den Datenrahmen zu speichern. Sie greifen auf den Datenrahmen zu, indem Sie die Variable aufrufen.
Sie müssen die Ausgabevariable, chart
, angeben um ein Altair
import altair as alt df = df.iloc[:30] df = df.rename(columns={"Age": "value"}) df = df.assign(count=df.groupby('value').value.transform('count')) df = df[["value", "count"]] base = alt.Chart(df) bar = base.mark_bar().encode(x=alt.X('value', bin=True, axis=None), y=alt.Y('count')) rule = base.mark_rule(color='red').encode( x='mean(value):Q', size=alt.value(5)) chart = bar + rule
So erstellen Sie eine benutzerdefinierte Visualisierung:
-
Wählen Sie neben dem Knoten, der die Transformation enthält, die Sie visualisieren möchten, das + aus.
-
Wählen Sie Analyse hinzufügen aus.
-
Wählen Sie als Analysetyp die Option Benutzerdefinierte Visualisierung aus.
-
Geben Sie unter Analysename einen Namen ein.
-
Geben Sie Ihren Code in das Codefeld ein.
-
Wählen Sie Vorschau, um eine Vorschau Ihrer Visualisierung anzuzeigen.
-
Wählen Sie Speichern, um Ihre Visualisierung hinzuzufügen.
Wenn Sie nicht wissen, wie das Altair-Visualisierungspaket in Python verwendet wird, können Sie benutzerdefinierte Codefragmente verwenden, um Ihnen den Einstieg zu erleichtern.
Data Wrangler verfügt über eine durchsuchbare Sammlung von Visualisierungsschnipseln. Um ein Visualisierungs-Snippet zu verwenden, wählen Sie Beispiel-Snippets suchen und geben Sie eine Abfrage in der Suchleiste an.
Im folgenden Beispiel wird der Codeausschnitt Binnendifferenzierte Streudiagramme verwendet. Es zeichnet ein Histogramm für zwei Dimensionen.
Die Codefragmente enthalten Kommentare, die Ihnen helfen sollen, die Änderungen zu verstehen, die Sie am Code vornehmen müssen. Normalerweise müssen Sie die Spaltennamen Ihres Datensatzes im Code angeben.
import altair as alt # Specify the number of top rows for plotting rows_number = 1000 df = df.head(rows_number) # You can also choose bottom rows or randomly sampled rows # df = df.tail(rows_number) # df = df.sample(rows_number) chart = ( alt.Chart(df) .mark_circle() .encode( # Specify the column names for binning and number of bins for X and Y axis x=alt.X("col1:Q", bin=alt.Bin(maxbins=20)), y=alt.Y("col2:Q", bin=alt.Bin(maxbins=20)), size="count()", ) ) # :Q specifies that label column has quantitative type. # For more details on Altair typing refer to # https://altair-viz.github.io/user_guide/encoding.html#encoding-data-types