Preparação de dados usando sessões AWS Glue interativas - SageMaker IA da Amazon

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Preparação de dados usando sessões AWS Glue interativas

As sessões interativas do AWS Glue são um serviço sem servidor ao qual você pode recorrer para coletar, transformar, limpar e preparar dados para armazenamento em seus data lakes e pipelines de dados. As sessões interativas do AWS Glue fornecem um ambiente de runtime do Apache Spark sob demanda e sem servidor que você pode inicializar em segundos em uma unidade de processamento de dados (DPU) dedicada sem precisar provisionar e gerenciar uma infraestrutura complexa de clusters de computação. Após a inicialização, você pode navegar pelo catálogo de AWS Glue dados, executar grandes consultas, acessar dados controlados e analisar e preparar dados de forma interativa usando o Spark, diretamente em seus notebooks Studio ou Studio Classic. AWS Lake Formation Em seguida, você pode usar os dados preparados para treinar, ajustar e implantar modelos usando as ferramentas de ML criadas especificamente no SageMaker Studio ou no Studio Classic. Você deve considerar as sessões AWS Glue interativas para suas cargas de trabalho de preparação de dados quando quiser um serviço Spark sem servidor com controle moderado de configurabilidade e flexibilidade.

Você pode iniciar uma sessão AWS Glue interativa iniciando um JupyterLab notebook no Studio ou no Studio Classic. Ao iniciar seu caderno, escolha o kernel integrado Glue PySpark and Ray ou Glue Spark. Isso inicia automaticamente uma sessão interativa sem servidor do Spark. Não é necessário provisionar nem gerenciar nenhum cluster ou infraestrutura de computação. Após a inicialização, você pode explorar e interagir com seus dados a partir dos seus cadernos do Studio ou Studio Classic.

Antes de iniciar sua sessão AWS Glue interativa no Studio ou no Studio Classic, você precisa definir as funções e políticas apropriadas. Além disso, talvez seja necessário dar acesso a recursos adicionais, como um bucket de armazenamento do Amazon S3. Para ver mais informações sobre as políticas do IAM necessárias, consulte Permissões para sessões AWS Glue interativas no Studio ou no Studio Classic.

O Studio e o Studio Classic fornecem uma configuração padrão para sua sessão AWS Glue interativa, no entanto, você pode usar o catálogo completo AWS Glue de comandos mágicos do Jupyter para personalizar ainda mais seu ambiente. Para obter informações sobre as magias padrão e adicionais do Jupyter que você pode usar em sua sessão AWS Glue interativa, consulte. Configure sua sessão AWS Glue interativa no Studio ou no Studio Classic

  • Para usuários do Studio Classic que iniciam uma sessão AWS Glue interativa, eles podem selecionar entre as seguintes imagens e kernels:

    • Imagens: SparkAnalytics 1.0, SparkAnalytics 2.0

    • Kernel: Glue Python [PySpark and Ray] e Glue Spark

  • Para usuários do Studio, use a imagem SageMaker de distribuição padrão e selecione um Glue Python [PySpark and Ray] ou um Glue Spark kernel.