Datenaufbereitung mit in Studio SQL - Amazon SageMaker KI

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Datenaufbereitung mit in Studio SQL

Amazon SageMaker Studio bietet eine integrierte SQL Erweiterung. Diese Erweiterung ermöglicht es Datenwissenschaftlern, Aufgaben wie Probenahme, explorative Analyse und Feature-Engineering direkt in ihren JupyterLab Notebooks durchzuführen. Sie nutzt AWS Glue Verbindungen, um einen zentralen Datenquellenkatalog zu verwalten. Der Katalog speichert Metadaten zu verschiedenen Datenquellen. In dieser SQL Umgebung können Datenwissenschaftler Datenkataloge durchsuchen, ihre Daten untersuchen, komplexe SQL Abfragen erstellen und die Ergebnisse in Python weiterverarbeiten.

In diesem Abschnitt wird die Konfiguration der SQL Erweiterung in Studio beschrieben. Er beschreibt die Funktionen, die durch diese SQL Integration ermöglicht werden, und enthält Anweisungen zum Ausführen von SQL Abfragen in JupyterLab Notebooks.

Um die SQL Datenanalyse zu ermöglichen, müssen Administratoren zunächst AWS Glue Verbindungen zu den entsprechenden Datenquellen konfigurieren. Diese Verbindungen ermöglichen Datenwissenschaftlern den nahtlosen Zugriff auf autorisierte Datensätze von innen heraus JupyterLab.

Zusätzlich zu den vom Administrator konfigurierten AWS Glue Verbindungen ermöglicht die SQL Erweiterung einzelnen Datenwissenschaftlern, ihre eigenen Datenquellenverbindungen herzustellen. Diese vom Benutzer erstellten Verbindungen können unabhängig voneinander verwaltet und mithilfe von tagbasierten Zugriffskontrollrichtlinien auf das Benutzerprofil zugeschnitten werden. Dieses zweistufige Verbindungsmodell — mit vom Administrator konfigurierten und vom Benutzer erstellten Verbindungen — bietet Datenwissenschaftlern einen umfassenderen Zugriff auf die Daten, die sie für ihre Analyse- und Modellierungsaufgaben benötigen. Benutzer können die erforderlichen Verbindungen zu ihren eigenen Datenquellen innerhalb der Benutzerschnittstelle (UI) der JupyterLab Umgebung einrichten, ohne sich ausschließlich auf die vom Administrator eingerichteten zentralen Verbindungen verlassen zu müssen.

Wichtig

Die Funktion zur Erstellung benutzerdefinierter Verbindungen ist als Satz eigenständiger Bibliotheken in PyPI verfügbar. Um diese Funktionalität nutzen zu können, müssen Sie die folgenden Bibliotheken in Ihrer Umgebung installieren: JupyterLab

Sie können diese Bibliotheken installieren, indem Sie die folgenden Befehle in Ihrem JupyterLab Terminal ausführen:

pip install amazon-sagemaker-sql-editor>=0.1.13 pip install amazon-sagemaker-sql-execution>=0.1.6 pip install amazon-sagemaker-sql-magic>=0.1.3

Nach der Installation der Bibliotheken müssen Sie den JupyterLab Server neu starten, damit die Änderungen wirksam werden.

restart-jupyter-server

Wenn der Zugriff eingerichtet ist, können JupyterLab Benutzer:

  • Vorkonfigurierte Datenquellen anzeigen und durchsuchen.

  • Suchen, filtern und überprüfen Sie Datenbankinformationselemente wie Tabellen, Schemas und Spalten.

  • Generieren Sie automatisch die Verbindungsparameter zu einer Datenquelle.

  • Erstellen Sie komplexe SQL Abfragen mithilfe der Syntaxhervorhebungs-, SQL Autovervollständigungs- und Formatierungsfunktionen des Editors der Erweiterung. SQL

  • Führen Sie SQL Anweisungen von Notebookzellen aus aus. JupyterLab

  • Rufen Sie die Ergebnisse von SQL Abfragen ab als pandas DataFrames für die weitere Verarbeitung, Visualisierung und andere Aufgaben des maschinellen Lernens.

Sie können auf die Erweiterung zugreifen, indem Sie im linken Navigationsbereich Ihrer JupyterLab Anwendung in Studio auf das SQL Erweiterungssymbol ( Icon of the SQL extension feature in JupyterLab. ) klicken. Wenn Sie den Mauszeiger über das Symbol bewegen, wird der zugehörige Data Discovery-Tooltip angezeigt.

Wichtig
  • Das JupyterLab Image in SageMaker Studio enthält standardmäßig die SQL Erweiterung, beginnend mit SageMaker AI Distribution 1.6. Die Erweiterung funktioniert nur mit Python und SparkMagic Kerneln.

  • Die Benutzeroberfläche der Erweiterung zum Erkunden von Verbindungen und Daten ist nur JupyterLab in Studio verfügbar. Es ist kompatibel mit Amazon Redshift, Amazon Athena und Snowflake.