Preparar dados com SQL no Studio
O Amazon SageMaker Studio fornece uma extensão SQL integrada. Essa extensão permite que cientistas de dados realizem tarefas como amostragem, análise exploratória e engenharia de atributos diretamente em seus cadernos JupyterLab. Ela aproveita as conexões AWS Glue para manter um catálogo centralizado de fontes de dados. O catálogo armazena metadados sobre várias fontes de dados. Por meio desse ambiente SQL, os cientistas de dados podem navegar pelos catálogos de dados, explorar seus dados, criar consultas SQL complexas e processar ainda mais os resultados em Python.
Esta seção explica como configurar a extensão SQL no Studio. Ela descreve os recursos habilitados pela integração SQL e fornece instruções para executar consultas SQL nos cadernos JupyterLab.
Para habilitar a análise de dados SQL, os administradores precisam primeiro configurar conexões AWS Glue para selecionar fontes de dados. Essas conexões permitem que cientistas de dados acessem facilmente conjuntos de dados autorizados de dentro do JupyterLab. Com o acesso configurado, os usuários do JupyterLab podem:
-
Visualizar e navegar em fontes de dados pré-configuradas.
-
Pesquisar, filtrar e inspecionar elementos de informações do banco de dados, como tabelas, esquemas e colunas.
-
Gerar automaticamente os parâmetros de conexão para uma fonte de dados.
-
Criar consultas SQL complexas usando os atributos de realce de sintaxe, preenchimento automático e formatação SQL do editor de SQL da extensão.
-
Executar instruções SQL a partir das células do caderno JupyterLab.
-
Recuperar os resultados das consultas SQL como DataFrames pandas para processamento adicional, visualização e outras tarefas de machine learning.
Você pode acessar a extensão escolhendo o ícone da extensão SQL (
) no painel de navegação à esquerda da sua aplicação JupyterLab no Studio. Passar o mouse sobre o ícone exibe a dica da ferramenta Data Discovery.
Importante
-
A imagem do JupyterLab no SageMaker Studio contém a extensão SQL por padrão, começando com SageMaker Distribution
1.6. A extensão funciona somente com kernels do Python e SparkMagic. -
A interface de usuário da extensão para explorar conexões e dados só está disponível no JupyterLab dentro do Studio. É compatível com Amazon Redshift
, Amazon Athena e Snowflake .
-
Se você for um administrador que deseja configurar conexões com fontes de dados para a extensão SQL, siga estas etapas:
-
Ative a comunicação de rede entre o domínio do seu Studio e as fontes de dados às quais você deseja se conectar na Configurar o acesso à rede entre o Studio e as fontes de dados (para administradores).
-
Depois que a comunicação estiver ativada, crie as conexões AWS Glue com suas fontes de dados e, em seguida, conceda ao perfil de execução do seu domínio ou perfis de usuário do SageMaker as permissões necessárias em Conexões de fonte de dados da extensão de SQL (para administradores).
-
-
Se você é um cientista de dados que deseja navegar e consultar suas fontes de dados usando a extensão SQL, verifique se o administrador configurou as conexões com suas fontes de dados e, depois, siga estas etapas:
-
Crie um espaço privado para iniciar sua aplicação JupyterLab no Studio usando a imagem de distribuição de versão 1.6 ou superior do SageMaker.
-
Se você for usuário da imagem de distribuição da versão 1.6 do SageMaker, carregue a extensão SQL em um caderno do JupyterLab executando
%load_ext amazon_sagemaker_sql_magic
em uma célula do caderno.Para usuários das versões 1.7 e posteriores da imagem de distribuição do SageMaker, nenhuma ação é necessária, a extensão SQL é carregada automaticamente.
-
Familiarize-se com os recursos da extensão SQL em Atributos e uso da extensão SQL.
-