SQL在 Studio 中使用准备数据 - Amazon SageMaker

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

SQL在 Studio 中使用准备数据

Amazon SageMaker Studio 提供了一个内置SQL扩展。此扩展允许数据科学家直接在 JupyterLab 笔记本中执行采样、探索性分析和特征工程等任务。它利用 AWS Glue 连接来维护集中的数据源目录。该目录存储有关各种数据源的元数据。通过这种SQL环境,数据科学家可以在 Python 中浏览数据目录、浏览数据、撰写复杂SQL查询并进一步处理结果。

本节介绍如何在 Studio 中配置SQL扩展。它描述了此SQL集成所启用的功能,并提供了在 JupyterLab 笔记本中运行SQL查询的说明。

要启用SQL数据分析,管理员首先需要配置 AWS Glue 连接以选择数据源。这些连接使数据科学家能够从内部无缝访问授权的数据集 JupyterLab。设置访问权限后, JupyterLab 用户可以:

  • 查看和浏览预配置的数据源。

  • 搜索、筛选和检查数据库信息元素,例如表、架构和列。

  • 自动生成数据源的连接参数。

  • 使用扩展编辑器的语法突出显示、自动完成和SQL格式化功能创建复杂SQL查询。SQL

  • 从 JupyterLab 笔记本单元格中运行SQL语句。

  • 将SQL查询结果检索为 pandas DataFrames 用于进一步的处理、可视化和其他机器学习任务。

在 Studio 中,您可以通过在 JupyterLab 应用程序的左侧导航窗格中选择SQL扩展程序图标 ( ) 来访问该扩展程序。将鼠标悬停在该图标上会显示其数据发现工具提示。

重要
  • 如果您是管理员,希望为SQL扩展程序配置数据源的连接,请按照以下步骤操作:

  • 如果您是一名数据科学家,希望使用SQL扩展程序浏览和查询您的数据源,请确保您的管理员已配置与您的数据源的连接,然后按照以下步骤操作:

    • 使用 SageMaker 发行映像版本 1.6 或更高版本创建私有空间,以便在 Studio 中启动您的 JupyterLab 应用程序。

    • 如果您是 SageMaker 分发映像版本 1.6 的用户,请通过在 JupyterLab 笔记本单元中运行将SQL扩展程序加载到笔记本%load_ext amazon_sagemaker_sql_magic中。

      对于 SageMaker 分发映像版本 1.7 及更高版本的用户,无需执行任何操作,SQL扩展程序会自动加载。

    • 熟悉中SQL扩展程序的功能。SQL扩展功能和用法