As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Prepare dados com SQL o Studio
O Amazon SageMaker Studio fornece uma SQL extensão integrada. Essa extensão permite que cientistas de dados realizem tarefas como amostragem, análise exploratória e engenharia de recursos diretamente em seus JupyterLab notebooks. Ele aproveita as AWS Glue conexões para manter um catálogo centralizado de fontes de dados. O catálogo armazena metadados sobre várias fontes de dados. Por meio desse SQL ambiente, os cientistas de dados podem pesquisar catálogos de dados, explorar seus dados, criar SQL consultas complexas e processar ainda mais os resultados em Python.
Esta seção explica como configurar a SQL extensão no Studio. Ele descreve os recursos habilitados por essa SQL integração e fornece instruções para executar SQL consultas em JupyterLab notebooks.
Para habilitar a análise de SQL dados, os administradores precisam primeiro configurar AWS Glue conexões para selecionar fontes de dados. Essas conexões permitem que os cientistas de dados acessem facilmente conjuntos de dados autorizados internamente. JupyterLab Com o acesso configurado, JupyterLab os usuários podem:
-
Visualize e navegue em fontes de dados pré-configuradas.
-
Pesquise, filtre e inspecione elementos de informações do banco de dados, como tabelas, esquemas e colunas.
-
Gere automaticamente os parâmetros de conexão com uma fonte de dados.
-
Crie SQL consultas complexas usando os recursos de realce de sintaxe, preenchimento automático e SQL formatação do editor da extensão. SQL
-
Execute SQL instruções a partir de células do JupyterLab notebook.
-
Recupere os resultados das SQL consultas como pandas DataFrames para processamento adicional, visualização e outras tarefas de aprendizado de máquina.
Você pode acessar a extensão escolhendo o ícone da SQL extensão ( ) no painel de navegação esquerdo do seu JupyterLab aplicativo no Studio. Passar o mouse sobre o ícone exibe a dica da ferramenta Data Discovery.
Importante
-
A JupyterLab imagem no SageMaker Studio contém a SQL extensão por padrão, começando com SageMakerDistribution
1.6. A extensão funciona somente com Python e SparkMagic kernels. -
A interface de usuário da extensão para explorar conexões e dados só está disponível JupyterLab no Studio. É compatível com Amazon Redshift, Amazon
Athena e Snowflake .
-
Se você for um administrador que deseja configurar conexões com fontes de dados para a SQL extensão, siga estas etapas:
-
Ative a comunicação de rede entre seu domínio do Studio e as fontes de dados às quais você deseja se conectarConfigurar o acesso à rede entre o Studio e as fontes de dados (para administradores).
-
Depois que essa comunicação estiver ativada, crie as AWS Glue conexões com suas fontes de dados e, em seguida, conceda à função de execução do seu SageMaker domínio ou dos perfis de usuário as permissões necessárias emSQLconexões de fonte de dados de extensão (para administradores).
-
-
Se você é um cientista de dados que deseja navegar e consultar suas fontes de dados usando a SQL extensão, verifique se o administrador configurou as conexões com suas fontes de dados e siga estas etapas:
-
Crie um espaço privado para iniciar seu JupyterLab aplicativo no Studio usando a imagem SageMaker de distribuição versão 1.6 ou superior.
-
Se você for usuário da imagem de SageMaker distribuição versão 1.6, carregue a SQL extensão em um JupyterLab notebook executando
%load_ext amazon_sagemaker_sql_magic
em uma célula de notebook.Para usuários das versões 1.7 e posteriores da imagem de SageMaker distribuição, nenhuma ação é necessária, a SQL extensão é carregada automaticamente.
-
Familiarize-se com os recursos da SQL extensão emSQLrecursos e uso da extensão.
-