本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
在 Studio SQL中使用 準備資料
Amazon SageMaker Studio 提供內建SQL擴充功能。此擴充功能可讓資料科學家直接在 JupyterLab 筆記本中執行取樣、探索性分析和特徵工程等任務。它利用 AWS Glue 連線來維護集中式資料來源目錄。目錄會儲存各種資料來源的中繼資料。透過此SQL環境,資料科學家可以瀏覽資料目錄、探索其資料、撰寫複雜的SQL查詢,以及進一步處理 Python 中的結果。
本節會逐步解說在 Studio 中設定SQL延伸模組。它描述了此SQL整合啟用的功能,並提供在 JupyterLab 筆記本中執行SQL查詢的指示。
若要啟用SQL資料分析,管理員首先需要設定 AWS Glue 連線以選取資料來源。這些連線可讓資料科學家從 內無縫存取授權的資料集 JupyterLab。設定存取後, JupyterLab 使用者可以:
-
檢視和瀏覽預先設定的資料來源。
-
搜尋、篩選和檢查資料庫資訊元素,例如資料表、結構描述和資料欄。
-
自動將連線參數產生至資料來源。
-
使用擴充功能SQL編輯器的語法強調、自動完成和SQL格式化功能建立複雜的SQL查詢。
-
從 JupyterLab 筆記本儲存格執行SQL陳述式。
-
擷取SQL查詢的結果作為 pandas DataFrames 用於進一步處理、視覺化和其他機器學習任務。
您可以在 JupyterLab Studio 的應用程式左側導覽窗格中選擇SQL延伸圖示 ( ) 來存取延伸。將滑鼠暫留在 圖示上會顯示其資料探索工具提示。
重要
-
SageMaker Studio 中的 JupyterLab 映像預設包含SQL延伸模組,從 SageMaker Distribution
1.6 開始。延伸模組僅適用於 Python 和 SparkMagic 核心。 -
用於探索連線和資料的延伸模組的使用者介面僅在 Studio JupyterLab 中可用。它與 Amazon Redshift、
Amazon Athena 和 Snowflake 相容 。
-
如果您是想要設定SQL延伸模組的資料來源連線的管理員,請遵循下列步驟:
-
啟用 Studio 網域與要在 中連線的資料來源之間的網路通訊設定 Studio 和資料來源之間的網路存取 (適用於管理員)。
-
啟用此通訊後,請建立與資料來源的 AWS Glue 連線,然後在 中授予 SageMaker 網域或使用者設定檔的執行角色所需的許可SQL 延伸資料來源連線 (適用於管理員)。
-
-
如果您是希望使用SQL延伸模組瀏覽和查詢資料來源的資料科學家,請確定您的管理員已設定與資料來源的連線,然後遵循下列步驟:
-
使用 SageMaker 分佈映像 1.6 版或更新版本,在 Studio 中建立私有空間以啟動 JupyterLab 應用程式。
-
如果您是 SageMaker 分佈映像 1.6 版的使用者,請在 JupyterLab 筆記本儲存格中執行,以載入筆記本
%load_ext amazon_sagemaker_sql_magic
中的SQL擴充功能。對於 SageMaker 分佈映像 1.7 版及更新版本的使用者,不需要採取任何動作,SQL擴充功能會自動載入。
-
熟悉 中SQL延伸模組的功能SQL 延伸功能和用量。
-