在 Studio SQL中使用 準備資料 - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

在 Studio SQL中使用 準備資料

Amazon SageMaker Studio 提供內建SQL擴充功能。此擴充功能可讓資料科學家直接在 JupyterLab 筆記本中執行取樣、探索性分析和特徵工程等任務。它利用 AWS Glue 連線來維護集中式資料來源目錄。目錄會儲存各種資料來源的中繼資料。透過此SQL環境,資料科學家可以瀏覽資料目錄、探索其資料、撰寫複雜的SQL查詢,以及進一步處理 Python 中的結果。

本節會逐步解說在 Studio 中設定SQL延伸模組。它描述了此SQL整合啟用的功能,並提供在 JupyterLab 筆記本中執行SQL查詢的指示。

若要啟用SQL資料分析,管理員首先需要設定 AWS Glue 連線以選取資料來源。這些連線可讓資料科學家從 內無縫存取授權的資料集 JupyterLab。設定存取後, JupyterLab 使用者可以:

  • 檢視和瀏覽預先設定的資料來源。

  • 搜尋、篩選和檢查資料庫資訊元素,例如資料表、結構描述和資料欄。

  • 自動將連線參數產生至資料來源。

  • 使用擴充功能SQL編輯器的語法強調、自動完成和SQL格式化功能建立複雜的SQL查詢。

  • 從 JupyterLab 筆記本儲存格執行SQL陳述式。

  • 擷取SQL查詢的結果作為 pandas DataFrames 用於進一步處理、視覺化和其他機器學習任務。

您可以在 JupyterLab Studio 的應用程式左側導覽窗格中選擇SQL延伸圖示 ( ) 來存取延伸。將滑鼠暫留在 圖示上會顯示其資料探索工具提示。

重要
  • 如果您是想要設定SQL延伸模組的資料來源連線的管理員,請遵循下列步驟:

  • 如果您是希望使用SQL延伸模組瀏覽和查詢資料來源的資料科學家,請確定您的管理員已設定與資料來源的連線,然後遵循下列步驟:

    • 使用 SageMaker 分佈映像 1.6 版或更新版本,在 Studio 中建立私有空間以啟動 JupyterLab 應用程式。

    • 如果您是 SageMaker 分佈映像 1.6 版的使用者,請在 JupyterLab 筆記本儲存格中執行,以載入筆記本%load_ext amazon_sagemaker_sql_magic中的SQL擴充功能。

      對於 SageMaker 分佈映像 1.7 版及更新版本的使用者,不需要採取任何動作,SQL擴充功能會自動載入。

    • 熟悉 中SQL延伸模組的功能SQL 延伸功能和用量