Usar conectores e conexões personalizados com o AWS Glue Studio - AWS Glue

Usar conectores e conexões personalizados com o AWS Glue Studio

O AWS Glue oferece suporte integrado aos armazenamentos de dados usados com frequência (como Amazon Redshift, Amazon Aurora, Microsoft SQL Server, MySQL, MongoDB e PostgreSQL) usando conexões JDBC. O AWS Glue também permite usar drivers do JDBC personalizados em seus trabalhos de extração, transformação e carregamento (ETL). Para armazenamentos de dados que não são suportados nativamente, como aplicações SaaS, você pode usar conectores.

Um conector é um pacote de código opcional que ajuda a acessar armazenamentos de dados no AWS Glue Studio. Você pode assinar vários conectores oferecidos no AWS Marketplace.

Ao criar trabalhos de ETL, você pode usar um datastore com suporte nativo, um conector do AWS Marketplace ou seus próprios conectores personalizados. Se você usar um conector, primeiro deve criar uma conexão para ele. Uma conexão que contém as propriedades necessárias para se conectar a um datastore específico. Você usa a conexão com suas origens e destinos de dados no trabalho de ETL. Conectores e conexões trabalham juntos para facilitar o acesso aos armazenamentos de dados.

As conexões a seguir estão disponíveis ao criar conexões para conectores:

  • Amazon Aurora: um mecanismo de banco de dados relacional escalável e de alta performance com segurança, backup e restauração integrados e aceleração na memória.

  • Amazon DocumentDB: um serviço de banco de dados de documentos escalável, altamente disponível e totalmente gerenciado que oferece suporte às APIs do MongoDB e SQL.

  • Amazon Redshift: um serviço de banco de dados de documentos escalável, altamente disponível e totalmente gerenciado que oferece suporte às APIs do MongoDB e SQL.

  • Azure SQL: um serviço de banco de dados relacional baseado em nuvem do Microsoft Azure que fornece recursos de armazenamento e gerenciamento de dados escaláveis, confiáveis e seguros.

  • Cosmos DB: um serviço de banco de dados em nuvem distribuído globalmente do Microsoft Azure que fornece recursos de consulta e armazenamento de dados escaláveis e de alta performance.

  • Google BigQuery: um data warehouse na nuvem com tecnologia sem servidor para executar consultas SQL rápidas em grandes conjuntos de dados.

  • JDBC: um sistema de gerenciamento de banco de dados relacional (RDBMS) que usa uma API Java para se conectar e interagir com conexões de dados.

  • Kafka: uma plataforma de processamento de fluxo de código aberto usada para streaming de dados e mensagens em tempo real.

  • MariaDB: um fork do MySQL desenvolvido pela comunidade que oferece performance, escalabilidade e recursos aprimorados.

  • MongoDB: um banco de dados multiplataforma orientado a documentos que fornece alta escalabilidade, flexibilidade e performance.

  • MongoDB Atlas: uma oferta de banco de dados como serviço (DBaaS) baseada em nuvem do MongoDB que simplifica o gerenciamento e o dimensionamento das implantações do MongoDB.

  • Microsoft SQL Server: um sistema de gerenciamento de banco de dados relacional (RDBMS) da Microsoft que fornece recursos robustos de armazenamento, análise e geração de relatórios de dados.

  • MySQL: um sistema de gerenciamento de banco de dados relacional (RDBMS) de código aberto que é amplamente usado em aplicações Web e é conhecido por sua confiabilidade e escalabilidade.

  • Rede: uma fonte de dados de rede representa um recurso ou serviço acessível pela rede que pode ser acessado por uma plataforma de integração de dados.

  • OpenSearch: uma fonte de dados do OpenSearch é uma aplicação à qual o OpenSearch pode se conectar e ingerir dados.

  • Oracle: um sistema de gerenciamento de banco de dados relacional (RDBMS) da Oracle Corporation que fornece recursos robustos de armazenamento, análise e geração de relatórios de dados.

  • PostgreSQL: um sistema de gerenciamento de banco de dados relacional (RDBMS) de código aberto que fornece recursos robustos de armazenamento, análise e geração de relatórios de dados.

  • Salesforce: o Salesforce fornece software de gerenciamento de relacionamento com o cliente (CRM) que ajuda nas atividades de vendas, atendimento ao cliente, comércio eletrônico e muito mais. Se você usa o Salesforce, pode conectar o AWS Glue à sua conta do Salesforce. Em seguida, você pode usar o Salesforce como fonte de dados ou destino em suas tarefas de ETL. Execute esses trabalhos para transferir dados entre os serviços do Salesforce e do AWS ou de outros aplicativos compatíveis.

  • SAP HANA: uma plataforma de análise e banco de dados na memória que fornece processamento rápido de dados, análises avançadas e integração de dados em tempo real.

  • Snowflake: um data warehouse baseado em nuvem que fornece serviços de análise e armazenamento de dados escaláveis e de alta performance.

  • Teradata: um sistema de gerenciamento de banco de dados relacional (RDBMS) que fornece recursos de armazenamento, análise e geração de relatórios de dados de alta performance.

  • Vertica: um data warehouse analítico orientado por colunas projetado para análise de big data que oferece performance rápida de consultas, análises avançadas e escalabilidade.