本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
使用 SQL 自定义数据
当您创建数据集或准备数据用于分析时,可以在查询编辑器中自定义数据。
查询编辑器由多个组件构成,如下所示:
-
查询模式-在左上角,您可以选择直接查询或 SPICE 查询模式:
-
直接查询 – 直接对数据库运行 SELECT 语句
-
SPICE – 对以前存储在内存中的数据运行 SELECT 语句
-
-
字段 – 使用此部分可禁用希望从最终数据集中删除的字段。您可以在此部分中添加计算字段,并使用 SageMaker AI 增强数据
-
查询归档 – 使用此部分查找先前版本的 SQL 查询。
-
筛选条件 – 使用此部分可添加、编辑或删除筛选条件。
-
Schema Explorer – 此部分仅在您编辑 SQL 时显示。可以使用它来浏览架构、表、字段和数据类型。
-
SQL 编辑器 – 使用此工具可以编辑 SQL。SQL 编辑器,提供语法突出显示、基本语法自动完成、自动缩进和行号等功能。只能为与 SQL 兼容的数据源中的数据集指定一个 SQL 查询。SQL 必须符合有关语法、大写、命令终止等的目标数据库要求。如果您愿意,可以改为从另一个编辑器粘贴 SQL。
-
数据工作区 – 关闭 SQL 编辑器时,将在右上角显示带有网格背景的数据工作区。您可以在此处看到数据对象的图形表示形式,包括在联接编辑器中创建的查询、表、文件和联接。
要查看每个表的详细信息,请使用数据来源选项菜单并选择表详细信息或编辑 SQL 查询。显示表名和别名、架构、数据源名称和数据源类型的详细信息。对于文件的上传设置,请从数据源选项菜单中选择配置上传设置,以查看或更改以下设置:
-
格式 – 文件格式、CSV、CUSTOM、CLF 等
-
开始行 – 作为开头的行
-
文本限定符 – 双引号或单引号
-
标题 – 指示文件是否包含标题行
-
-
预览行 – 未使用联接配置编辑器时,将在右下角显示采样行预览。
-
联接配置编辑器 – 数据工作区中有多个数据对象时,会打开联接编辑器。要编辑联接,请选择两个表(或文件)之间的联接图标。通过使用屏幕底部的联接配置面板,选择联接类型以及要联接的字段。然后,选择应用以创建联接。必须先完成所有联接,然后才能保存您的工作。
要添加更多查询、表或文件,请使用工作区上方的添加数据选项。
创建基本 SQL 查询
使用以下过程,通过自定义 SQL 查询连接到数据源。
创建基本 SQL 查询
-
创建新的数据源,并验证连接。
-
填写连接所必需的选项,但不需要选择架构或表。
-
选择使用自定义 SQL。
-
(可选)可以在 SQL 编辑器中输入查询,或者继续执行下一步以使用全屏版本。要立即输入查询,请为该查询创建一个名称。然后,键入 SQL 查询或粘贴到编辑器中。SQL 编辑器提供语法突出显示、基本语法自动完成、自动缩进和行号等功能。
(可选)选择 “确认查询” 以对其进行验证并查看直接查询的设置,SPICE 内存和 SageMaker AI 设置。
-
选择编辑/预览数据。此时将显示完整的查询编辑器,并且会显示 SQL 编辑器。系统将处理查询并在数据预览窗格中显示查询结果的示例。可以对 SQL 进行更改,并通过选择应用进行确认。完成 SQL 后,选择关闭以继续。
-
在顶部区域输入数据集的名称。然后选择保存并可视化。
修改现有查询
更新 SQL 查询
-
打开您希望使用的数据集。
-
在带网格的工作区中,找到表示现有查询的方形对象。
-
打开查询对象上的选项菜单,然后选择编辑 SQL 查询。如果此选项未显示在列表中,则查询对象不基于 SQL。
要查看以前版本的查询,请打开左侧的查询存档。