O que é o AWS Glue? - AWS Glue

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

O que é o AWS Glue?

O AWS Glue é um serviço de integração de dados com tecnologia sem servidor que facilita aos usuários de análise a descoberta, preparação, transferência e integração de dados de várias fontes. Você pode usá-lo para análise, machine learning e desenvolvimento de aplicações. Também inclui outras ferramentas de produtividade e operações de dados para criação, execução de trabalhos e implementação de fluxos de trabalho de negócios.

Com o AWS Glue, você pode detectar e se conectar a mais de 70 fontes de dados diversas e gerenciar seus dados em um catálogo de dados centralizado. Você pode criar, executar e monitorar visualmente pipelines de extração, transformação e carregamento (ETL) para carregar dados em seus data lakes. Além disso, é possível pesquisar e consultar imediatamente os dados catalogados usando o Amazon Athena, o Amazon EMR e o Amazon Redshift Spectrum.

O AWS Glue consolida os principais recursos de integração de dados em um único serviço. Isso inclui descoberta de dados, ETL moderno, limpeza, transformação e catalogação centralizada. Também conta com tecnologia sem servidor, o que significa que não há infraestrutura para gerenciar. Com suporte flexível para todas as workloads, como ETL, ELT e transmissão em um único serviço, o AWS Glue oferece suporte a usuários em várias workloads e tipos de usuários.

Além disso, o AWS Glue facilita a integração de dados em sua arquitetura. Ele se integra aos serviços de análise da AWS e a data lakes do Amazon S3. O AWS Glue tem interfaces de integração e ferramentas de criação de trabalhos que são descomplicadas para todos os usuários, de desenvolvedores a usuários corporativos, com soluções personalizadas para conjuntos variados de habilidades técnicas.

Com a capacidade de escalar sob demanda, AWS Glue ajuda você a se concentrar em atividades de alto valor que maximizam o valor de seus dados. Ele pode ser escalado para qualquer tamanho de dados e oferece suporte a todos os tipos de dados e variações de esquema. Para aumentar a agilidade e otimizar custos, o AWS Glue fornece alta disponibilidade integrada e cobrança com pagamento conforme o uso.

Para obter informações sobre preços, consulte AWS Glue preços.

AWS Glue Studio

O AWS Glue Studio é uma interface gráfica que facilita a criação, a execução e o monitoramento de trabalhos de integração de dados no AWS Glue. Você pode compor visualmente fluxos de trabalho de transformação de dados e executá-los perfeitamente no mecanismo de ETL com tecnologia sem servidor baseado no Apache Spark do AWS Glue.

Com o AWS Glue Studio, você pode criar e gerenciar trabalhos que coletam, transformam e limpam dados. Use também o AWS Glue Studio para solucionar problemas e editar scripts de trabalho.

Recursos do AWS Glue

Os recursos do AWS Glue se enquadram em três categorias principais:

  • Descobrir e organizar dados

  • Transformar, preparar e limpar dados para análise

  • Criar e monitorar pipelines de dados

Descobrir e organizar dados

  • Unifique e pesquise em vários armazenamentos de dados: armazene, indexe e pesquise em várias fontes e coletores de dados catalogando todos os seus dados na AWS.

  • Descubra dados automaticamente: use os crawlers do AWS Glue para inferir automaticamente as informações do esquema e integrá-las ao AWS Glue Data Catalog.

  • Gerencie esquemas e permissões: valide e controle o acesso a bancos de dados e tabelas.

  • Conecte-se a uma ampla variedade de fontes de dados: acesse várias fontes de dados, tanto on-premises como na AWS, usando conexões do AWS Glue para criar seu data lake.

Transformar, preparar e limpar dados para análise

  • Transforme visualmente dados com uma interface de tela de trabalho: defina seu processo de ETL no editor de trabalhos visuais e gere automaticamente o código para extrair, transformar e carregar dados.

  • Crie pipelines de ETL complexos com agendamento de tarefas simples: invoque trabalhos do AWS Glue em um cronograma, sob demanda ou com base em um evento.

  • Limpe e transforme a transmissão de dados em trânsito: possibilite o consumo contínuo de dados, limpe-os e transforme-os em trânsito. Isso os disponibiliza para análise em segundos no datastore de destino.

  • Elimine a duplicação e limpe dados com machine learning integrado: limpe e prepare dados para análise sem se tornar um especialista em machine learning usando o recurso FindMatches. Esse recurso elimina a duplicação e encontra registros que são correspondências imperfeitas entre si.

  • Blocos de anotação de trabalho integrados: os blocos de anotação de trabalho do AWS Glue fornecem blocos de anotação com tecnologia sem servidor com configuração mínima no AWS Glue para que você comece a usar rapidamente.

  • Edite, depure e teste o código ETL: com as sessões interativas do AWS Glue, você pode explorar e preparar dados de forma interativa. Você pode explorar, experimentar e processar dados de forma interativa usando o IDE ou o bloco de anotações de sua preferência.

  • Defina, detecte e corrija dados sigilosos: a detecção de dados sigilosos AWS Glue permite definir, identificar e processar dados sigilosos no pipeline de dados e no data lake.

Criar e monitorar pipelines de dados

  • Escale automaticamente de acordo com a workload: de maneira dinâmica, aumente e diminua verticalmente a escala dos recursos de acordo com a workload. Isso atribui operadores a trabalhos somente quando necessário.

  • Automatize trabalhos com acionadores baseados em eventos: inicie os crawlers ou trabalhos do AWS Glue com acionadores baseados em eventos e crie uma cadeia de trabalhos e crawlers dependentes.

  • Execute e monitore trabalhos: Execute trabalhos do AWS Glue com o mecanismo de sua escolha, Spark ou Ray. Monitore-os com ferramentas de monitoramento automatizadas, insights de execução de trabalhos do AWS Glue e o AWS CloudTrail. Aprimore o seu monitoramento de trabalhos apoiados pelo Spark com a interface do usuário do Apache Spark.

  • Defina fluxos de trabalho para atividades de ETL e integração: defina fluxos de trabalho para ETL e atividades de integração para vários crawlers, trabalhos e acionadores.

Aprender sobre inovações no AWS Glue

Saiba mais sobre as inovações mais recentes no AWS Glue e ouça como os clientes usam o AWS Glue para permitir a preparação de dados de autoatendimento em toda a organização.

Saiba mais sobre como os clientes escalam o AWS Glue além da configuração tradicional e como eles configuram o AWS Glue para monitoramento de trabalho e a performance.

Conceitos básicos do AWS Glue

Recomendamos que você inicie por estas seções:

Como acessar o AWS Glue

Você pode criar, visualizar e gerenciar seus trabalhos do AWS Glue usando as seguintes interfaces:

  • Console do AWS Glue: fornece uma interface da Web para você criar, visualizar e gerenciar trabalhos do AWS Glue. Para acessar o console, acesse AWS Glue.

  • AWS Glue Studio: fornece uma interface gráfica para criar e editar seus trabalhos do AWS Glue visualmente. Para ter mais informações, consulte Criar trabalhos ETL visuais com o AWS Glue Studio.

  • Seção sobre o AWS Glue na referência da AWS CLI: fornece comandos da AWS CLI que você pode usar com o AWS Glue. Para obter mais informações, consulte a referência da AWS CLI para o AWS Glue.

  • API do AWS Glue: fornece uma referência de API completa para desenvolvedores. Para obter mais informações, consulte a API do AWS Glue.

Os usuários do AWS Glue também utilizam:

  • AWS Lake Formation : serviço que é uma camada de autorização que fornece controle de acesso detalhado a recursos do AWS Glue Data Catalog.

  • AWS Glue DataBrew : uma ferramenta de preparação de dados visuais que pode ser usada para limpar e normalizar dados sem escrever nenhum código.