As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Preparação de dados com SQL no Studio
O Amazon SageMaker Studio fornece uma extensão SQL integrada. Essa extensão permite que cientistas de dados realizem tarefas como amostragem, análise exploratória e engenharia de recursos diretamente em seus JupyterLab notebooks. Ele aproveita as AWS Glue conexões para manter um catálogo centralizado de fontes de dados. O catálogo armazena metadados sobre várias fontes de dados. Por meio desse ambiente SQL, os cientistas de dados podem navegar pelos catálogos de dados, explorar seus dados, criar consultas SQL complexas e processar ainda mais os resultados em Python.
Esta seção explica como configurar a extensão SQL no Studio. Ele descreve os recursos habilitados por essa integração SQL e fornece instruções para executar consultas SQL em JupyterLab notebooks.
Para habilitar a análise de dados SQL, os administradores devem primeiro configurar AWS Glue as conexões com as fontes de dados relevantes. Essas conexões permitem que os cientistas de dados acessem facilmente conjuntos de dados autorizados internamente. JupyterLab
Além das AWS Glue conexões configuradas pelo administrador, a extensão SQL permite que cientistas de dados individuais criem suas próprias conexões de fonte de dados. Essas conexões criadas pelo usuário podem ser gerenciadas de forma independente e definidas de acordo com o perfil do usuário por meio de políticas de controle de acesso baseadas em tags. Esse modelo de conexão de dois níveis, com conexões configuradas pelo administrador e criadas pelo usuário, fornece aos cientistas de dados um acesso mais amplo aos dados necessários para suas tarefas de análise e modelagem. Os usuários podem configurar as conexões necessárias com suas próprias fontes de dados na interface de usuário (UI) do JupyterLab ambiente, sem depender apenas das conexões centralizadas estabelecidas pelo administrador.
Importante
O recurso de criação de conexões definidas pelo usuário está disponível como um conjunto de bibliotecas independentes no PyPI. Para usar essa funcionalidade, você precisa instalar as seguintes bibliotecas em seu JupyterLab ambiente:
Você pode instalar essas bibliotecas executando os seguintes comandos em seu JupyterLab terminal:
pip install amazon-sagemaker-sql-editor>=0.1.13 pip install amazon-sagemaker-sql-execution>=0.1.6 pip install amazon-sagemaker-sql-magic>=0.1.3
Depois de instalar as bibliotecas, você precisará reiniciar o JupyterLab servidor para que as alterações entrem em vigor.
restart-jupyter-server
Com o acesso configurado, JupyterLab os usuários podem:
-
Visualizar e navegar em fontes de dados pré-configuradas.
-
Pesquisar, filtrar e inspecionar elementos de informações do banco de dados, como tabelas, esquemas e colunas.
-
Gerar automaticamente os parâmetros de conexão para uma fonte de dados.
-
Criar consultas SQL complexas usando os atributos de realce de sintaxe, preenchimento automático e formatação SQL do editor de SQL da extensão.
-
Execute instruções SQL a partir de células do JupyterLab notebook.
-
Recupere os resultados das consultas SQL como pandas DataFrames para processamento adicional, visualização e outras tarefas de aprendizado de máquina.
Você pode acessar a extensão escolhendo o ícone da extensão SQL (
) no painel de navegação esquerdo do seu JupyterLab aplicativo no Studio. Passar o mouse sobre o ícone exibe a dica da ferramenta Data Discovery.
Importante
-
A JupyterLab imagem no SageMaker Studio contém a extensão SQL por padrão, começando com o SageMaker AI Distribution
1.6. A extensão funciona somente com Python e SparkMagic kernels. -
A interface de usuário da extensão para explorar conexões e dados só está disponível JupyterLab no Studio. É compatível com Amazon Redshift
, Amazon Athena e Snowflake .
-
Se você for um administrador que deseja criar conexões genéricas com fontes de dados para a extensão SQL, siga estas etapas:
-
Ative a comunicação de rede entre seu domínio do Studio e as fontes de dados às quais você deseja se conectar. Para saber mais sobre os requisitos de rede, consulteConfigurar o acesso à rede entre o Studio e as fontes de dados (para administradores).
-
Verifique as propriedades e instruções da conexão para criar um segredo para sua fonte de dados emCrie segredos para credenciais de acesso ao banco de dados no Secrets Manager.
-
Crie as AWS Glue conexões com suas fontes de dados emCrie AWS Glue conexões (para administradores).
-
Conceda à função de execução de seu SageMaker domínio ou perfis de usuário as permissões necessárias emConfigure as permissões do IAM para acessar as fontes de dados (para administradores).
-
-
Se você é um cientista de dados que deseja criar suas próprias conexões com fontes de dados para a extensão SQL, siga estas etapas:
-
Faça com que seu administrador:
-
Ative a comunicação de rede entre seu domínio do Studio e as fontes de dados às quais você deseja se conectar. Para saber mais sobre os requisitos de rede, consulteConfigurar o acesso à rede entre o Studio e as fontes de dados (para administradores).
-
Conceda à função de execução de seu SageMaker domínio ou perfis de usuário as permissões necessárias emConfigure as permissões do IAM para acessar as fontes de dados (para administradores).
nota
Os administradores podem restringir o acesso do usuário às conexões criadas no JupyterLab aplicativo configurando o controle de acesso baseado em tags na função de execução.
-
-
Verifique as propriedades e instruções da conexão para criar um segredo para sua fonte de dados emCrie segredos para credenciais de acesso ao banco de dados no Secrets Manager.
-
Crie sua conexão na JupyterLab interface do usuário usando as instruções emCrie conexões definidas pelo usuário AWS Glue.
-
-
Se você é um cientista de dados que deseja navegar e consultar suas fontes de dados usando a extensão SQL, certifique-se de que você ou seu administrador tenham configurado primeiro as conexões com suas fontes de dados. Em seguida, siga estas etapas:
-
Crie um espaço privado para iniciar seu JupyterLab aplicativo no Studio usando a imagem SageMaker de distribuição versão 1.6 ou superior.
-
Se você for um usuário da imagem de SageMaker distribuição versão 1.6, carregue a extensão SQL em um JupyterLab notebook executando
%load_ext amazon_sagemaker_sql_magic
em uma célula do notebook.Para usuários das versões 1.7 e posteriores da imagem de SageMaker distribuição, nenhuma ação é necessária, a extensão SQL carrega automaticamente.
-
Familiarize-se com os recursos da extensão SQL emAtributos e uso da extensão SQL.
-