As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
O que é o AWS Glue?
O AWS Glue é um serviço de integração de dados com tecnologia sem servidor que facilita aos usuários de análise a descoberta, preparação, transferência e integração de dados de várias fontes. Você pode usá-lo para análise, machine learning e desenvolvimento de aplicações. Também inclui outras ferramentas de produtividade e operações de dados para criação, execução de trabalhos e implementação de fluxos de trabalho de negócios.
Com o AWS Glue, você pode detectar e se conectar a mais de 70 fontes de dados diversas e gerenciar seus dados em um catálogo de dados centralizado. Você pode criar, executar e monitorar visualmente pipelines de extração, transformação e carregamento (ETL) para carregar dados em seus data lakes. Além disso, é possível pesquisar e consultar imediatamente os dados catalogados usando o Amazon Athena, o Amazon EMR e o Amazon Redshift Spectrum.
O AWS Glue consolida os principais recursos de integração de dados em um único serviço. Isso inclui descoberta de dados, ETL moderno, limpeza, transformação e catalogação centralizada. Também conta com tecnologia sem servidor, o que significa que não há infraestrutura para gerenciar. Com suporte flexível para todas as workloads, como ETL, ELT e transmissão em um único serviço, o AWS Glue oferece suporte a usuários em várias workloads e tipos de usuários.
Além disso, o AWS Glue facilita a integração de dados em sua arquitetura. Ele se integra aos serviços de análise da AWS e a data lakes do Amazon S3. O AWS Glue tem interfaces de integração e ferramentas de criação de trabalhos que são descomplicadas para todos os usuários, de desenvolvedores a usuários corporativos, com soluções personalizadas para conjuntos variados de habilidades técnicas.
Com a capacidade de escalar sob demanda, AWS Glue ajuda você a se concentrar em atividades de alto valor que maximizam o valor de seus dados. Ele pode ser escalado para qualquer tamanho de dados e oferece suporte a todos os tipos de dados e variações de esquema. Para aumentar a agilidade e otimizar custos, o AWS Glue fornece alta disponibilidade integrada e cobrança com pagamento conforme o uso.
Para obter informações sobre preços, consulte AWS Glue preços
AWS Glue Studio
O AWS Glue Studio é uma interface gráfica que facilita a criação, a execução e o monitoramento de trabalhos de integração de dados no AWS Glue. Você pode compor visualmente fluxos de trabalho de transformação de dados e executá-los perfeitamente no mecanismo de ETL com tecnologia sem servidor baseado no Apache Spark do AWS Glue.
Com o AWS Glue Studio, você pode criar e gerenciar trabalhos que coletam, transformam e limpam dados. Use também o AWS Glue Studio para solucionar problemas e editar scripts de trabalho.
Tópicos
Recursos do AWS Glue
Os recursos do AWS Glue se enquadram em três categorias principais:
-
Descobrir e organizar dados
-
Transformar, preparar e limpar dados para análise
-
Criar e monitorar pipelines de dados
Descobrir e organizar dados
-
Unifique e pesquise em vários armazenamentos de dados: armazene, indexe e pesquise em várias fontes e coletores de dados catalogando todos os seus dados na AWS.
-
Descubra dados automaticamente: use os crawlers do AWS Glue para inferir automaticamente as informações do esquema e integrá-las ao AWS Glue Data Catalog.
-
Gerencie esquemas e permissões: valide e controle o acesso a bancos de dados e tabelas.
-
Conecte-se a uma ampla variedade de fontes de dados: acesse várias fontes de dados, tanto on-premises como na AWS, usando conexões do AWS Glue para criar seu data lake.
Transformar, preparar e limpar dados para análise
-
Transforme visualmente dados com uma interface de tela de trabalho: defina seu processo de ETL no editor de trabalhos visuais e gere automaticamente o código para extrair, transformar e carregar dados.
-
Crie pipelines de ETL complexos com agendamento de tarefas simples: invoque trabalhos do AWS Glue em um cronograma, sob demanda ou com base em um evento.
-
Limpe e transforme a transmissão de dados em trânsito: possibilite o consumo contínuo de dados, limpe-os e transforme-os em trânsito. Isso os disponibiliza para análise em segundos no datastore de destino.
-
Elimine a duplicação e limpe dados com machine learning integrado: limpe e prepare dados para análise sem se tornar um especialista em machine learning usando o recurso
FindMatches
. Esse recurso elimina a duplicação e encontra registros que são correspondências imperfeitas entre si. -
Blocos de anotação de trabalho integrados: os blocos de anotação de trabalho do AWS Glue fornecem blocos de anotação com tecnologia sem servidor com configuração mínima no AWS Glue para que você comece a usar rapidamente.
-
Edite, depure e teste o código ETL: com as sessões interativas do AWS Glue, você pode explorar e preparar dados de forma interativa. Você pode explorar, experimentar e processar dados de forma interativa usando o IDE ou o bloco de anotações de sua preferência.
-
Defina, detecte e corrija dados sigilosos: a detecção de dados sigilosos AWS Glue permite definir, identificar e processar dados sigilosos no pipeline de dados e no data lake.
Criar e monitorar pipelines de dados
-
Escale automaticamente de acordo com a workload: de maneira dinâmica, aumente e diminua verticalmente a escala dos recursos de acordo com a workload. Isso atribui operadores a trabalhos somente quando necessário.
-
Automatize trabalhos com acionadores baseados em eventos: inicie os crawlers ou trabalhos do AWS Glue com acionadores baseados em eventos e crie uma cadeia de trabalhos e crawlers dependentes.
-
Execute e monitore trabalhos: Execute trabalhos do AWS Glue com o mecanismo de sua escolha, Spark ou Ray. Monitore-os com ferramentas de monitoramento automatizadas, insights de execução de trabalhos do AWS Glue e o AWS CloudTrail. Aprimore o seu monitoramento de trabalhos apoiados pelo Spark com a interface do usuário do Apache Spark.
-
Defina fluxos de trabalho para atividades de ETL e integração: defina fluxos de trabalho para ETL e atividades de integração para vários crawlers, trabalhos e acionadores.
Aprender sobre inovações no AWS Glue
Saiba mais sobre as inovações mais recentes no AWS Glue e ouça como os clientes usam o AWS Glue para permitir a preparação de dados de autoatendimento em toda a organização.
Saiba mais sobre como os clientes escalam o AWS Glue além da configuração tradicional e como eles configuram o AWS Glue para monitoramento de trabalho e a performance.
Conceitos básicos do AWS Glue
Recomendamos que você inicie por estas seções:
Como acessar o AWS Glue
Você pode criar, visualizar e gerenciar seus trabalhos do AWS Glue usando as seguintes interfaces:
-
Console do AWS Glue: fornece uma interface da Web para você criar, visualizar e gerenciar trabalhos do AWS Glue. Para acessar o console, acesse AWS Glue
. -
AWS Glue Studio: fornece uma interface gráfica para criar e editar seus trabalhos do AWS Glue visualmente. Para ter mais informações, consulte Criar trabalhos ETL visuais com o AWS Glue Studio.
-
Seção sobre o AWS Glue na referência da AWS CLI: fornece comandos da AWS CLI que você pode usar com o AWS Glue. Para obter mais informações, consulte a referência da AWS CLI para o AWS Glue.
-
API do AWS Glue: fornece uma referência de API completa para desenvolvedores. Para obter mais informações, consulte a API do AWS Glue.
Serviços relacionados
Os usuários do AWS Glue também utilizam:
-
AWS Lake Formation : serviço que é uma camada de autorização que fornece controle de acesso detalhado a recursos do AWS Glue Data Catalog.
-
AWS Glue DataBrew : uma ferramenta de preparação de dados visuais que pode ser usada para limpar e normalizar dados sem escrever nenhum código.