Preparação de dados com SQL no Studio - SageMaker IA da Amazon

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Preparação de dados com SQL no Studio

O Amazon SageMaker Studio fornece uma extensão SQL integrada. Essa extensão permite que cientistas de dados realizem tarefas como amostragem, análise exploratória e engenharia de recursos diretamente em seus JupyterLab notebooks. Ele aproveita as AWS Glue conexões para manter um catálogo centralizado de fontes de dados. O catálogo armazena metadados sobre várias fontes de dados. Por meio desse ambiente SQL, os cientistas de dados podem navegar pelos catálogos de dados, explorar seus dados, criar consultas SQL complexas e processar ainda mais os resultados em Python.

Esta seção explica como configurar a extensão SQL no Studio. Ele descreve os recursos habilitados por essa integração SQL e fornece instruções para executar consultas SQL em JupyterLab notebooks.

Para habilitar a análise de dados SQL, os administradores devem primeiro configurar AWS Glue as conexões com as fontes de dados relevantes. Essas conexões permitem que os cientistas de dados acessem facilmente conjuntos de dados autorizados internamente. JupyterLab

Além das AWS Glue conexões configuradas pelo administrador, a extensão SQL permite que cientistas de dados individuais criem suas próprias conexões de fonte de dados. Essas conexões criadas pelo usuário podem ser gerenciadas de forma independente e definidas de acordo com o perfil do usuário por meio de políticas de controle de acesso baseadas em tags. Esse modelo de conexão de dois níveis, com conexões configuradas pelo administrador e criadas pelo usuário, fornece aos cientistas de dados um acesso mais amplo aos dados necessários para suas tarefas de análise e modelagem. Os usuários podem configurar as conexões necessárias com suas próprias fontes de dados na interface de usuário (UI) do JupyterLab ambiente, sem depender apenas das conexões centralizadas estabelecidas pelo administrador.

Importante

O recurso de criação de conexões definidas pelo usuário está disponível como um conjunto de bibliotecas independentes no PyPI. Para usar essa funcionalidade, você precisa instalar as seguintes bibliotecas em seu JupyterLab ambiente:

Você pode instalar essas bibliotecas executando os seguintes comandos em seu JupyterLab terminal:

pip install amazon-sagemaker-sql-editor>=0.1.13 pip install amazon-sagemaker-sql-execution>=0.1.6 pip install amazon-sagemaker-sql-magic>=0.1.3

Depois de instalar as bibliotecas, você precisará reiniciar o JupyterLab servidor para que as alterações entrem em vigor.

restart-jupyter-server

Com o acesso configurado, JupyterLab os usuários podem:

  • Visualizar e navegar em fontes de dados pré-configuradas.

  • Pesquisar, filtrar e inspecionar elementos de informações do banco de dados, como tabelas, esquemas e colunas.

  • Gerar automaticamente os parâmetros de conexão para uma fonte de dados.

  • Criar consultas SQL complexas usando os atributos de realce de sintaxe, preenchimento automático e formatação SQL do editor de SQL da extensão.

  • Execute instruções SQL a partir de células do JupyterLab notebook.

  • Recupere os resultados das consultas SQL como pandas DataFrames para processamento adicional, visualização e outras tarefas de aprendizado de máquina.

Você pode acessar a extensão escolhendo o ícone da extensão SQL ( Icon of the SQL extension feature in JupyterLab. ) no painel de navegação esquerdo do seu JupyterLab aplicativo no Studio. Passar o mouse sobre o ícone exibe a dica da ferramenta Data Discovery.

Importante
  • A JupyterLab imagem no SageMaker Studio contém a extensão SQL por padrão, começando com o SageMaker AI Distribution 1.6. A extensão funciona somente com Python e SparkMagic kernels.

  • A interface de usuário da extensão para explorar conexões e dados só está disponível JupyterLab no Studio. É compatível com Amazon Redshift, Amazon Athena e Snowflake.