AWS Glue: como funciona

Modo de foco

AWS Glue: como funciona - AWS Glue

Trabalhos de ETL com tecnologia sem servidor executados em isolamento

O AWS Glue usa outros produtos da AWS para orquestrar seus trabalhos de ETL (extração, transformação e carregamento) para criar data warehouses e data lakes e gerar transmissões de saída. O AWS Glue chama operações de API para transformar seus dados, criar logs de runtime, armazenar a lógica do trabalho e criar notificações para ajudar você a monitorar as execuções de trabalhos. O console do AWS Glue conecta esses serviços em um aplicativo gerenciado, para que você possa se concentrar na criação e no monitoramento do seu trabalho de ETL. O console executa operações de desenvolvimento de trabalhos e administrativas em seu nome. Você fornece credenciais e outras propriedades para que o AWS Glue acesse suas fontes de dados e grave nos destinos de dados.

O AWS Glue provisiona e gerencia os recursos necessários para executar sua workload. Não é necessário criar a infraestrutura para uma ferramenta de ETL porque o AWS Glue faz isso por você. Quando recursos são necessários, o AWS Glue usa uma instância do grupo de instâncias para executar sua workload e reduzir o tempo de inicialização.

Com o AWS Glue, você cria trabalhos usando definições de tabela no Data Catalog. Os trabalhos consistem em scripts com as instruções que executam as tarefas de transformação de dados desejadas. Você usa gatilhos para iniciar trabalhos em uma programação ou como resultado de um evento especificado. Você determina onde seus dados de destino residirão e quais dados de origem que preencherão seu destino. Com base em suas entradas, o AWS Glue transforma os dados do formato de origem para o de destino. Como alternativa, também é possível fornecer scripts personalizados no console do AWS Glue ou na API para processar os dados de acordo com seus requisitos específicos.

Fontes e destinos de dados

O AWS Glue para Sparks permite que você leia e grave dados de vários sistemas e bancos de dados, incluindo:

Amazon S3
Amazon DynamoDB
Amazon Redshift
Amazon Relational Database Service (Amazon RDS)
Bancos de dados acessíveis a JDBC de terceiros
MongoDB e Amazon DocumentDB (compatível com MongoDB)
Outros conectores do Marketplace e plug-ins do Apache Spark

Streams de dados

O AWS Glue para Sparks pode transmitir dados dos seguintes sistemas:

Amazon Kinesis Data Streams
Apache Kafka

O AWS Glue está disponível em diversas regiões da AWS. Para obter mais informações, consulte Regiões e endpoints do AWS no Referência geral da Amazon Web Services.

Tópicos

Trabalhos de ETL com tecnologia sem servidor executados em isolamento

O AWS Glue executa trabalhos de ETL em um ambiente de tecnologia sem servidor com sua escolha de mecanismo, Spark ou Ray. O AWS Glue executa esses trabalhos em recursos virtuais que ele provisiona e gerencia na sua própria conta de serviço.

O AWS Glue é projetado para fazer o seguinte:

Diferenciar dados de clientes.
Proteger os dados do cliente em trânsito e em repouso.
Acesse os dados dos clientes apenas quando necessário, em resposta às solicitações deles, usando credenciais temporárias com escopo ou com o consentimento dos clientes para funções do IAM na conta deles.

Durante o provisionamento de um trabalho de ETL, você fornece fontes de dados de entrada e destinos de dados de saída na sua nuvem virtual privada (VPC). Além disso, você fornece a função do IAM, o ID da VPC, o ID da sub-rede e o grupo de segurança necessários para acessar fontes e destinos de dados. Para cada tupla (ID da conta do cliente, perfil do IAM, ID da sub-rede e grupo de segurança), o AWS Glue cria um novo ambiente, que é isolado na rede, e um nível de gerenciamento de todos os outros ambientes dentro da conta de serviço do AWS Glue.

Você cria e configura recursos do AWS Glue, como catálogos de dados, trabalhos e rastreadores em sua conta AWS. Esses recursos são então associados ao perfil do IAM e às configurações de rede (sub-rede e grupo de segurança) que você especifica durante o processo de criação.

O AWS Glue cria interfaces de rede elástica na sua sub-rede usando endereços IP privados. Os trabalhos usam essas interfaces de rede elástica para acessar as fontes de dados e os destinos de dados. O tráfego de entrada e saída e dentro do ambiente de execução do trabalho é regido pelas políticas de VPC e de rede com uma exceção: as chamadas feitas para as bibliotecas do AWS Glue podem transmitir tráfego para as operações da API do AWS Glue por meio da VPC do AWS Glue. Todas as chamadas de API do AWS Glue são registradas. Dessa forma, os proprietários de dados podem auditar o acesso da API habilitando o AWS CloudTrail, que fornece logs de auditoria à sua conta.

Os ambientes gerenciados pelo AWS Glue que executam seus trabalhos de ETL são protegidos com as mesmas práticas de segurança seguidas por outros serviços da AWS. Para obter uma visão geral das práticas e responsabilidades de segurança compartilhadas, consulte o whitepaper Introduction to AWS Security Processes.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

O que é o AWS Glue?

Conceitos

Próximo tópico:

Conceitos

Tópico anterior:

O que é o AWS Glue?

Precisa de ajuda?

Nesta página

Selecione suas preferências de cookies

Personalizar preferências de cookies

Essenciais

Desempenho

Funcionais

Publicidade

Não foi possível salvar as preferências de cookie

AWS Glue: como funciona

Fontes e destinos de dados

Streams de dados

Tópicos

Trabalhos de ETL com tecnologia sem servidor executados em isolamento

Próximo tópico:

Tópico anterior:

Precisa de ajuda?

Nesta página

Related resources

Esta página foi útil?

Related resources