本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
SQL在 Studio 中使用准备数据
Amazon SageMaker Studio 提供了一个内置SQL扩展。此扩展允许数据科学家直接在 JupyterLab 笔记本中执行采样、探索性分析和特征工程等任务。它利用 AWS Glue 连接来维护集中的数据源目录。该目录存储有关各种数据源的元数据。通过这种SQL环境,数据科学家可以在 Python 中浏览数据目录、浏览数据、撰写复杂SQL查询并进一步处理结果。
本节介绍如何在 Studio 中配置SQL扩展。它描述了此SQL集成所启用的功能,并提供了在 JupyterLab 笔记本中运行SQL查询的说明。
要启用SQL数据分析,管理员首先需要配置 AWS Glue 连接以选择数据源。这些连接使数据科学家能够从内部无缝访问授权的数据集 JupyterLab。设置访问权限后, JupyterLab 用户可以:
-
查看和浏览预配置的数据源。
-
搜索、筛选和检查数据库信息元素,例如表、架构和列。
-
自动生成数据源的连接参数。
-
使用扩展编辑器的语法突出显示、自动完成和SQL格式化功能创建复杂SQL查询。SQL
-
从 JupyterLab 笔记本单元格中运行SQL语句。
-
将SQL查询结果检索为 pandas DataFrames 用于进一步的处理、可视化和其他机器学习任务。
在 Studio 中,您可以通过在 JupyterLab 应用程序的左侧导航窗格中选择SQL扩展程序图标 ( ) 来访问该扩展程序。将鼠标悬停在该图标上会显示其数据发现工具提示。
重要
-
默认情况下, SageMaker Studio 中的 JupyterLab 图像包含从SageMaker发行版
1.6 开始的SQL扩展名。该扩展仅适用于 Python 和 SparkMagic 内核。 -
该扩展程序用于浏览连接和数据的用户界面仅在 Studio JupyterLab 中可用。它与亚马逊 Redshift、亚马逊 Athena 和 Snowf
lake 兼容。
-
如果您是管理员,希望为SQL扩展程序配置数据源的连接,请按照以下步骤操作:
-
启用 Studio 域与您要连接的数据源之间的网络通信配置 Studio 和数据源之间的网络访问权限(适用于管理员)。
-
启用此通信后,创建与您的数据源的 AWS Glue 连接,然后在中向您的 SageMaker 域或用户配置文件的执行角色授予所需的权限SQL扩展数据源连接(适用于管理员)。
-
-
如果您是一名数据科学家,希望使用SQL扩展程序浏览和查询您的数据源,请确保您的管理员已配置与您的数据源的连接,然后按照以下步骤操作:
-
使用 SageMaker 发行映像版本 1.6 或更高版本创建私有空间,以便在 Studio 中启动您的 JupyterLab 应用程序。
-
如果您是 SageMaker 分发映像版本 1.6 的用户,请通过在 JupyterLab 笔记本单元中运行将SQL扩展程序加载到笔记本
%load_ext amazon_sagemaker_sql_magic
中。对于 SageMaker 分发映像版本 1.7 及更高版本的用户,无需执行任何操作,SQL扩展程序会自动加载。
-
熟悉中SQL扩展程序的功能。SQL扩展功能和用法
-