Preparação de dados com SQL no Studio

O Amazon SageMaker Studio fornece uma extensão SQL integrada. Essa extensão permite que cientistas de dados realizem tarefas como amostragem, análise exploratória e engenharia de recursos diretamente em seus JupyterLab notebooks. Ele aproveita as AWS Glue conexões para manter um catálogo centralizado de fontes de dados. O catálogo armazena metadados sobre várias fontes de dados. Por meio desse ambiente SQL, os cientistas de dados podem navegar pelos catálogos de dados, explorar seus dados, criar consultas SQL complexas e processar ainda mais os resultados em Python.

Esta seção explica como configurar a extensão SQL no Studio. Ele descreve os recursos habilitados por essa integração SQL e fornece instruções para executar consultas SQL em JupyterLab notebooks.

Para habilitar a análise de dados SQL, os administradores devem primeiro configurar AWS Glue as conexões com as fontes de dados relevantes. Essas conexões permitem que os cientistas de dados acessem facilmente conjuntos de dados autorizados internamente. JupyterLab

Além das AWS Glue conexões configuradas pelo administrador, a extensão SQL permite que cientistas de dados individuais criem suas próprias conexões de fonte de dados. Essas conexões criadas pelo usuário podem ser gerenciadas de forma independente e definidas de acordo com o perfil do usuário por meio de políticas de controle de acesso baseadas em tags. Esse modelo de conexão de dois níveis, com conexões configuradas pelo administrador e criadas pelo usuário, oferece aos cientistas de dados um acesso mais amplo aos dados necessários para as tarefas de análise e modelagem. Os usuários podem configurar as conexões necessárias com suas próprias fontes de dados na interface de usuário (UI) do JupyterLab ambiente, sem depender apenas das conexões centralizadas estabelecidas pelo administrador.

Importante

O recurso de criação de conexões definidas pelo usuário está disponível como um conjunto de bibliotecas independentes no PyPI. Para usar essa funcionalidade, você precisa instalar as seguintes bibliotecas em seu JupyterLab ambiente:

Você pode instalar essas bibliotecas executando os seguintes comandos em seu JupyterLab terminal:


pip install amazon-sagemaker-sql-editor>=0.1.13
pip install amazon-sagemaker-sql-execution>=0.1.6
pip install amazon-sagemaker-sql-magic>=0.1.3

Depois de instalar as bibliotecas, você precisará reiniciar o JupyterLab servidor para que as alterações entrem em vigor.


restart-jupyter-server

Com o acesso configurado, JupyterLab os usuários podem:

Visualizar e navegar em fontes de dados pré-configuradas.
Pesquisar, filtrar e inspecionar elementos de informações do banco de dados, como tabelas, esquemas e colunas.
Auto-generate os parâmetros de conexão com uma fonte de dados.
Criar consultas SQL complexas usando os atributos de realce de sintaxe, preenchimento automático e formatação SQL do editor de SQL da extensão.
Execute instruções SQL a partir de células do JupyterLab notebook.
Recupere os resultados das consultas SQL pandas DataFrames para processamento adicional, visualização e outras tarefas de aprendizado de máquina.

Você pode acessar a extensão escolhendo o ícone da extensão SQL ( ) no painel de navegação esquerdo do seu JupyterLab aplicativo no Studio. Passar o mouse sobre o ícone exibe a dica da ferramenta Data Discovery.

Importante

A JupyterLab imagem no SageMaker Studio contém a extensão SQL por padrão, começando com o SageMaker AI Distribution 1.6. A extensão funciona somente com Python e SparkMagic kernels.
A interface de usuário da extensão para explorar conexões e dados só está disponível JupyterLab no Studio. É compatível com Amazon Redshift, Amazon Athena e Snowflake.

Se você for um administrador que deseja criar conexões genéricas com fontes de dados para a extensão de SQL, siga estas etapas:
1. Habilite a comunicação de rede entre o domínio do Studio e as fontes de dados às quais você deseja se conectar. Para saber quais são os requisitos de rede, consulte Configurar o acesso à rede entre o Studio e as fontes de dados (para administradores).
2. Consulte Criar segredos no Secrets Manager para credenciais de acesso de banco de dados para verificar as propriedades e instruções de conexão para criar um segredo para sua fonte de dados.
3. Crie as AWS Glue conexões com suas fontes de dados emCriar AWS Glue conexões (para administradores).
4. Conceda à função de execução de seu SageMaker domínio ou perfis de usuário as permissões necessárias emConfigurar as permissões do IAM para acessar as fontes de dados (para administradores).
Se você é cientista de dados e deseja criar suas próprias conexões com fontes de dados para a extensão de SQL, siga estas etapas:
1. Faça com que seu administrador:
  - Habilite a comunicação de rede entre o domínio do Studio e as fontes de dados às quais você deseja se conectar. Para saber quais são os requisitos de rede, consulte Configurar o acesso à rede entre o Studio e as fontes de dados (para administradores).
  - Conceda à função de execução de seu SageMaker domínio ou perfis de usuário as permissões necessárias emConfigurar as permissões do IAM para acessar as fontes de dados (para administradores).
    
    nota
    Os administradores podem restringir o acesso do usuário às conexões criadas no JupyterLab aplicativo configurando o controle de acesso baseado em tags na função de execução.
2. Consulte Criar segredos no Secrets Manager para credenciais de acesso de banco de dados para verificar as propriedades e instruções de conexão para criar um segredo para sua fonte de dados.
3. Crie sua conexão na JupyterLab interface do usuário usando as instruções emCriar definido pelo usuário AWS Glue conexões.
Se você é cientista de dados e deseja navegar e consultar suas fontes de dados usando a extensão de SQL, primeiro você ou o administrador deve configurar as conexões com suas fontes de dados. Depois, siga estas etapas:
1. Crie um espaço privado para iniciar seu JupyterLab aplicativo no Studio usando a imagem SageMaker de distribuição versão 1.6 ou superior.
2. Se você for um usuário da imagem de SageMaker distribuição versão 1.6, carregue a extensão SQL em um JupyterLab notebook executando %load_ext amazon_sagemaker_sql_magic em uma célula do notebook.
  
  Para usuários das versões 1.7 e posteriores da imagem de SageMaker distribuição, nenhuma ação é necessária, a extensão SQL é carregada automaticamente.
3. Familiarize-se com os recursos da extensão de SQL em Atributos e uso da extensão SQL.

Tópicos

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Preparar dados

Início rápido: consultar dados no Amazon S3

Preparação de dados com SQL no Studio

Importante

Importante

nota

Tópicos