Trabalhar com integrações ETL zero do Aurora com o Amazon Redshift
Uma integração ETL zero do Aurora com o Amazon Redshift permite análise e machine learning (ML) quase em tempo real usando o Amazon Redshift em petabytes de dados transacionais do Aurora. É uma solução totalmente gerenciada para disponibilizar dados transacionais no Amazon Redshift depois de gravados em um cluster de banco de dados do Aurora. Extração, transformação e carregamento (ETL) é o processo de combinar dados de várias fontes em um grande data warehouse central.
Uma integração ETL zero torna os dados no cluster de banco de dados do Aurora disponíveis no Amazon Redshift quase em tempo real. Quando esses dados estiverem no Amazon Redshift, você poderá potencializar suas workloads de análise, ML e IA usando os recursos integrados do Amazon Redshift, como machine learning, visões materializadas, compartilhamento de dados, acesso federado a vários datastores e data lakes e integrações com Amazon SageMaker, Amazon QuickSight e outros Serviços da AWS.
Para criar uma Integração ETL zero, especifique um cluster de banco de dados do Auroracomo a origem e um data warehouse do Amazon Redshift como destino. A integração replica os dados do banco de dados de origem no data warehouse de destino.
O diagrama a seguir ilustra essa funcionalidade:
A integração monitora a integridade do pipeline de dados e se recupera de problemas quando possível. É possível criar integrações de vários clusters de banco de dados do Aurora em um único namespace do Amazon Redshift, o que permite que você obtenha insights em várias aplicações.
Para ter informações sobre preços de integrações ETL zero, consulte Definição de preço do Amazon Aurora
Tópicos
- Benefícios
- Principais conceitos
- Limitações
- Cotas
- Regiões compatíveis
- Conceitos básicos das integrações ETL zero do Aurora com o Amazon Redshift
- Criar integrações ETL zero do Amazon Aurora com o Amazon Redshift
- Filtragem de dados para integrações ETL zero do Aurora com o Amazon Redshift.
- Adicionar dados a um cluster de banco de dados do Aurora de origem e consultá-los no Amazon Redshift
- Visualizar e monitorar integrações ETL zero do Aurora com o Amazon Redshift
- Modificar integrações ETL zero do Aurora com o Amazon Redshift
- Excluir integrações ETL zero do Aurora com o Amazon Redshift
- Solução de problemas em integrações ETL zero do Aurora com o Amazon Redshift
Benefícios
As integrações ETL zero do Aurora com o Amazon Redshift apresentam os seguintes benefícios:
-
Ajudam você a obter insights holísticos de várias fontes de dados.
-
Eliminam a necessidade de criar e manter canais de dados complexos que executam operações de extração, transformação e carregamento (ETL). As integrações ETL zero eliminam os desafios que surgem com a criação e o gerenciamento de pipelines, provisionando-os e gerenciando-os para você.
-
Reduzem a carga e os custos operacionais para que você possa se concentrar em melhorar as aplicações.
-
Permitem que você aproveite os recursos de análise e ML do Amazon Redshift para obter insights de dados transacionais e outros dados, a fim de responder de forma eficaz a eventos críticos e urgentes.
Principais conceitos
Ao começar a usar integrações ETL zero, considere os seguintes conceitos:
- Integração
-
Um pipeline de dados totalmente gerenciado que replica automaticamente dados e esquemas transacionais de um cluster de banco de dados do Aurora em um data warehouse do Amazon Redshift.
- Cluster de banco de dados de origem
-
O cluster de banco de dados do Aurora do qual os dados são replicados. No caso do Aurora MySQL, é possível especificar um cluster de banco de dados que use instâncias de bancos de dados provisionadas ou instâncias de banco de dados do Aurora Serverless v2 como origem. Para a pré-visualização do Aurora PostgreSQL, só é possível especificar um cluster que use instâncias de banco de dados provisionadas.
- Data warehouse de destino
-
O data warehouse do Amazon Redshift para o qual os dados são replicados. Há dois tipos de data warehouse: um data warehouse de cluster provisionado e um data warehouse sem servidor. Um data warehouse de cluster provisionado é um conjunto de recursos computacionais chamados nós, que são organizados em um grupo chamado cluster. Um data warehouse sem servidor é composto por um grupo de trabalho que armazena recursos computacionais e um namespace que abriga os objetos e usuários do banco de dados. Ambos os data warehouses executam um mecanismo do Amazon Redshift e contêm um ou mais bancos de dados.
Vários clusters de banco de dados de origem podem gravar no mesmo destino.
Para obter mais informações, consulte Arquitetura do sistema de data warehouse no Guia do desenvolvedor do Amazon Redshift.
Limitações
As limitações a seguir se aplicam às Integrações ETL zero do Aurora com o Amazon Redshift.
Tópicos
Limitações gerais
-
O cluster de banco de dados de origem deve estar na mesma região do data warehouse do Amazon Redshift de destino.
-
Não será possível renomear um cluster de banco de dados ou qualquer uma de suas instâncias se o cluster tiver integrações existentes.
-
Não é possível criar várias integrações entre os mesmos bancos de dados de origem e destino.
-
Você não pode excluir um cluster de banco de dados que tenha integrações existentes. É necessário excluir todas as integrações correspondentes primeiro.
-
Se você interromper o cluster de banco de dados de origem, as últimas transações provavelmente não serão replicadas no data warehouse de destino enquanto você não retomar o cluster.
-
Se o cluster for a origem de uma implantação azul/verde, os ambientes azul e verde não poderão ter integrações ETL zero existentes durante a transição. Você deve excluir a integração primeiro, alternar e, depois, recriá-la.
-
Um cluster de banco de dados deve conter pelo menos uma instância de banco de dados para ser a origem de uma integração.
-
Se o cluster de origem for o cluster de banco de dados primário em um banco de dados global do Aurora e fizer o failover em um de seus clusters secundários, a integração se tornará inativa. Você precisa excluir e recriar a integração.
-
Não é possível criar uma integração para um banco de dados de origem que tenha outra integração sendo criada ativamente.
-
Quando você cria inicialmente uma integração ou quando uma tabela está sendo ressincronizada, a propagação de dados da origem para o destino pode levar de 20 a 25 minutos ou mais, dependendo do tamanho do banco de dados de origem. Esse atraso pode levar a um maior atraso na réplica.
-
Alguns tipos de dados não compatíveis. Para ter mais informações, consulte Diferenças de tipos de dados entre os bancos de dados Aurora e Amazon Redshift.
-
Transações XA não são compatíveis.
-
Os identificadores de objetos (incluindo nome do banco de dados, nome da tabela, nomes de colunas e outros) só podem conter caracteres alfanuméricos, números, $ e _ (sublinhado).
-
As tabelas do sistema, tabelas temporárias e visualizações não são replicadas no Amazon Redshift.
Limitações do Aurora MySQL
-
Seu cluster de banco de dados de origem deve estar executando uma versão compatível do Aurora MySQL. Para ver uma lista das versões com suporte, consulte Regiões e mecanismos de banco de dados do Aurora compatíveis com integrações ETL zero com o Amazon Redshift.
-
As integrações ETL zero dependem do registro em log binário (binlog) do MySQL para capturar alterações contínuas de dados. Não use a filtragem de dados baseada em log binário, pois isso pode causar inconsistências de dados entre os bancos de dados de origem e de destino.
-
As integrações ETL zero são compatíveis apenas com bancos de dados configurados para usar o mecanismo de armazenamento InnoDB.
-
Referências de chave externa com atualizações de tabelas predefinidas não são compatíveis. Especificamente, as regras
ON DELETE
eON UPDATE
não são compatíveis com as açõesCASCADE
,SET NULL
eSET DEFAULT
. A tentativa de criar ou atualizar uma tabela com essas referências a outra tabela colocará a tabela em um estado de falha. -
Operações de partição
ALTER TABLE
fazem com que a tabela seja ressincronizada para recarregar dados do Aurora no Amazon Redshift. A tabela não estará disponível para consulta durante a ressincronização. Para ter mais informações, consulte Uma ou mais das minhas tabelas do Amazon Redshift exigem ressincronização..
Limitações da pré-visualização do Aurora PostgreSQL
Importante
Término da pré-visualização: a pré-visualização das integrações ETL zero do Aurora PostgreSQL com o Amazon Redshift terminou. Agradecemos sua participação e feedback. Fique ligado para mais atualizações sobre a disponibilidade e os aprimoramentos do recurso.
-
O cluster de banco de dados de origem deve estar executando o Aurora PostgreSQL (compatível com o PostgreSQL 15.4 e suporte a ETL zero).
-
É possível criar e gerenciar integrações ETL zero para o Aurora PostgreSQL somente no Ambiente de Pré-visualização do Banco de Dados do Amazon RDS
, na Região da AWS do Leste dos EUA (Ohio) (us-east-2). É possível usar o ambiente de pré-visualização para testar as versões beta, candidata a lançamento e de produção inicial do software de mecanismo de banco de dados do PostgreSQL. -
Só é possível criar e gerenciar integrações para o Aurora PostgreSQL usando o AWS Management Console. Não é possível usar a AWS Command Line Interface (AWS CLI), a API do Amazon RDS nem os SDKs da AWS.
-
Ao criar um cluster de banco de dados de origem, o grupo de parâmetros escolhido já deve ter os valores de parâmetros necessários do cluster de banco de dados configurados. Não é possível criar um grupo de parâmetros posteriormente e depois associá-lo ao cluster. Para ter uma lista dos parâmetros necessários, consulte Etapa 1: Criar um grupo de parâmetros de cluster de banco de dados personalizado.
-
Após a criação de uma integração, não é possível modificá-la. Se você precisar alterar determinadas configurações, será necessário excluí-la e recriar a integração.
-
No momento, os clusters de banco de dados do Aurora PostgreSQL que são a origem de uma integração não realizam coleta de resíduos de dados de replicação lógica.
-
Todos os bancos de dados criados no cluster de banco de dados do Aurora PostgreSQL de origem devem usar a codificação UTF-8.
-
As integrações ETL zero com o Aurora PostgreSQL não são compatíveis com o seguinte:
-
Instâncias de banco de dados do Aurora Serverless v2. O cluster de banco de dados de origem deve usar instâncias de banco de dados provisionadas.
-
Tipos de dados personalizados ou tipos de dados criados por extensões.
-
Subtransações
no cluster de banco de dados de origem. -
Renomeação de esquemas ou bancos de dados em um cluster de banco de dados de origem.
-
Restauração a partir de um snapshot de cluster de banco de dados ou uso da clonagem do Aurora para criar um cluster de banco de dados de origem. Se você quiser trazer os dados existentes para um cluster de pré-visualização, use os utilitários
pg_dump
oupg_restore
. -
Criação de slots de replicação lógica na instância de gravador do cluster de banco de dados de origem.
-
Valores de campos grandes que exigem TOAST (The Oversized-Attribute Storage Technique).
-
Operações de partição
ALTER TABLE
. Essas operações podem fazer com que a tabela seja ressincronizada e entre no estadoFailed
. Se uma tabela falhar, você deverá descartá-la e recriá-la.
-
Limitações do Amazon Redshift
Para ter uma lista das limitações do Amazon Redshift relacionadas às integrações ETL zero, consulte Considerações no Guia de gerenciamento do Amazon Redshift.
Cotas
Sua conta tem as seguintes cotas relacionadas às integrações ETL zero do Aurora com o Amazon Redshift. Salvo indicação em contrário, cada cota aplica-se por região.
Nome | Padrão | Descrição |
---|---|---|
Integrações | 100 | O número total de integrações em uma Conta da AWS. |
Integrações por data warehouse de destino | 50 | O número de integrações que enviam dados para um único data warehouse de destino do Amazon Redshift. |
Integrações por cluster de origem | 5 para Aurora MySQL, 1 para Aurora PostgreSQL | O número de integrações que enviam dados de um único cluster de banco de dados de origem. |
Além disso, o Amazon Redshift impõe certos limites ao número de tabelas permitidas em cada instância de banco de dados ou nó de cluster. Para obter mais informações, consulte “Cotas e limites no Amazon Redshift” no Guia de gerenciamento de clusters do Amazon Redshift.
Regiões compatíveis
As integrações ETL zero do Aurora com o Amazon Redshift estão disponíveis em um subconjunto de Regiões da AWS. Para obter uma lista de regiões compatíveis, consulte Regiões e mecanismos de banco de dados do Aurora compatíveis com integrações ETL zero com o Amazon Redshift.