Migre cargas de trabalho locais da Cloudera para a Cloudera Data Platform em AWS - Recomendações da AWS

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Migre cargas de trabalho locais da Cloudera para a Cloudera Data Platform em AWS

Criado por Battulga Purevragchaa (AWS), Nijjwol Lamsal (sócio) e Nidhi Gupta () AWS

Ambiente: PoC ou piloto

Origem: workloads da Cloudera

Alvo: Cloudera Data Platform (CDP) Nuvem pública

Tipo R: N/A

Workload: todas as outras workloads

Tecnologias: migração; big data; bancos de dados; análise

AWSserviços: AmazonEC2; AmazonEKS; AWS Identity and Access Management; Amazon S3; Amazon RDS

Resumo

Esse padrão descreve as etapas de alto nível para migrar suas cargas de trabalho locais do Cloudera Distributed Hadoop (CDH), Hortonworks Data Platform () e Cloudera Data Platform (HDP) para o Public Cloud on. CDP CDP AWS Recomendamos que você faça parceria com o Cloudera Professional Services e um integrador de sistemas (SI) para implementar essas etapas.

Há muitos motivos pelos quais os clientes da Cloudera desejam mover suas CDP cargas de trabalho e locais CDH para a nuvem. HDP Alguns motivos típicos incluem:

  • Simplificar a adoção de novos paradigmas de plataforma de dados, como data lakehouse ou data mesh

  • Aumentar a agilidade dos negócios, democratizar o acesso e a inferência sobre os ativos de dados existentes

  • Reduza o custo total de propriedade (TCO)

  • Melhorar a elasticidade da workload

  • Permitir maior escalabilidade; reduzir drasticamente o tempo de provisionamento de serviços de dados em comparação com a base de instalação legada no on-premises

  • Remover o hardware antigo; reduzir significativamente os ciclos de atualização de hardware

  • Aproveite os pay-as-you-go preços, que são estendidos às cargas de trabalho da Cloudera AWS com o modelo de licenciamento da Cloudera () CCU

  • Aproveite a implantação mais rápida e a integração aprimorada com plataformas de integração contínua e entrega contínua (CI/CD)

  • Use uma única plataforma unificada (CDP) para várias cargas de trabalho

O Cloudera oferece suporte a todas as principais cargas de trabalho, incluindo Machine Learning, Data Engineering, Data Warehouse, Operational Database, Stream Processing (CSP) e segurança e governança de dados. A Cloudera oferece essas cargas de trabalho no local há muitos anos, e você pode migrá-las para a AWS nuvem usando a nuvem CDP pública com o Workload Manager e o Replication Manager. 

O Cloudera Shared Data Experience (SDX) fornece um catálogo compartilhado de metadados entre essas cargas de trabalho para facilitar o gerenciamento e as operações consistentes de dados. SDXtambém inclui segurança abrangente e granular para proteção contra ameaças e governança unificada para recursos de auditoria e pesquisa para conformidade com padrões como Payment Card Industry Data Security Standard (PCIDSS) e. GDPR 

CDPmigração em um piscar de olhos

 

 

 

Workload

Workload de origem

CDH,HDP, e nuvem CDP privada

Ambiente de origem

  • Windows, Linux

  • No local, em um local compartilhado ou em qualquer outro ambiente AWS

Workload de destino

CDPNuvem pública ativada AWS

Ambiente do destino

  • Modelo de implantação: conta de cliente

  • Modelo operacional: ambiente de gerenciamento Cliente/Cloudera

 

 

Migração

Estratégia de migração (7Rs)

Redefinir a hospedagem, redefinir a plataforma ou refatorar

Isso é um upgrade na versão da workload?

Sim

Duração da migração

  • Implantação: cerca de 1 semana para criar uma conta de cliente, nuvem privada virtual (VPC) e ambiente gerenciado pelo cliente em nuvem CDP pública.

  • Duração da migração: de 1 a 4 meses, dependendo da complexidade e do tamanho da workload.

Custos

Custo da execução da carga de trabalho em AWS

  • Em um alto nível, o custo de uma migração de CDH carga de trabalho AWS pressupõe que você estabelecerá um novo ambiente em. AWS Isso inclui a contabilização do tempo e do esforço da equipe, bem como o provisionamento de recursos de computação e software de licenciamento para o novo ambiente.

  • O modelo de preços baseado no consumo de nuvem Cloudera oferece a flexibilidade de aproveitar os recursos de escalabilidade automática e de intermitência. Para obter mais informações, consulte as taxas de serviço de nuvem CDP pública no site da Cloudera.

  • O Cloudera Enterprise Data Hub é baseado no Amazon Elastic Compute Cloud (AmazonEC2) e modela de perto os clusters tradicionais. O Data Hub pode ser personalizado, mas isso afetará os custos.

  • CDPO Public Cloud Data Warehouse, o Cloudera Machine Learning e o Cloudera Data Engineering (CDE) são baseados em contêineres e podem ser configurados para escalar automaticamente.

 

 

Acordos e estrutura de infraestrutura

Requisitos do sistema

Consulte a seção Pré-requisitos.

SLA

Consulte o Acordo de Nível de Serviço da Cloudera para nuvem CDP pública.

DR

Consulte Recuperação de desastres na documentação da Cloudera.

Modelo operacional e de licenciamento (para a AWS conta de destino)

Modelo Bring Your Own License (BYOL)

 

Conformidade

Requisitos de segurança

Consulte Visão geral da segurança da Cloudera na documentação da Cloudera.

Outras certificações de conformidade

Veja as informações no site da Cloudera sobre a conformidade com o Regulamento Geral de Proteção de Dados (GDPR) e o CDPTrust Center.

Pré-requisitos e limitações

Pré-requisitos

A migração exige as seguintes funções e conhecimentos:

Função

Habilidades e responsabilidades

Líder de migração

Garante suporte executivo, colaboração em equipe, planejamento, implementação e avaliação

Cloudera SME

Habilidades especializadas em CDH CDP administração, administração de sistemas e arquitetura HDP

Arquiteto AWS

Habilidades em AWS serviços, redes, segurança e arquiteturas

Arquitetura

Desenvolver a arquitetura adequada é uma etapa essencial para garantir que a migração e o desempenho atendam às suas expectativas. Para que seu esforço de migração atenda às suposições desse manual, seu ambiente de dados de destino na AWS nuvem, seja em instâncias hospedadas na nuvem privada virtual (VPC) ouCDP, deve ser equivalente ao seu ambiente de origem em termos de sistema operacional e versões de software, bem como das principais especificações da máquina.

O diagrama a seguir (reproduzido com permissão da planilha de dados do Cloudera Shared Data Experience) mostra os componentes de infraestrutura do CDP ambiente e como os níveis ou componentes da infraestrutura interagem.

CDPcomponentes do ambiente

A arquitetura inclui os seguintes CDP componentes:

  • O Data Hub é um serviço para lançar e gerenciar clusters de workload desenvolvido pelo Cloudera Runtime. Você pode usar as definições de cluster no Data Hub para provisionar e acessar clusters de workload para casos de uso personalizados e definir configurações de cluster personalizadas. ,Para obter mais informações, consulte o site da Cloudera.

  • O fluxo e o streaming de dados abordam os principais desafios que as empresas enfrentam com os dados em movimento. Ele gerencia o seguinte:

    • Processamento de fluxo de dados em tempo real em alto volume e alta escala

    • Rastreando a proveniência dos dados e a linhagem dos dados de streaming

    • Gerenciando e monitorando aplicativos periféricos e fontes de streaming

    Para obter mais informações, consulte Cloudera DataFlow e CSPno site da Cloudera.

  • A engenharia de dados inclui integração de dados, qualidade de dados e governança de dados, que ajudam as organizações a criar e manter fluxos de trabalho e pipelines de dados. ,Para obter mais informações, consulte o site da Cloudera. Saiba mais sobre o suporte para instâncias spot para facilitar a redução de custos nas AWS cargas de trabalho da Cloudera Data Engineering.

  • O Data Warehouse permite que você crie data warehouses e data marts independentes que se escalam automaticamente para atender às demandas de workload. Esse serviço fornece instâncias de computação isoladas e otimização automatizada para cada data warehouse e data mart, além de ajudar você a economizar custos durante as reuniõesSLAs. ,Para obter mais informações, consulte o site da Cloudera. Saiba mais sobre o gerenciamento de custos e o auto-scaling do Cloudera Data Warehouse em. AWS

  • O banco de dados operacional CDP fornece uma base confiável e flexível para aplicativos escaláveis e de alto desempenho. Ele fornece um banco de dados escalável, sempre disponível e em tempo real, que serve dados estruturados tradicionais, juntamente com dados novos e não estruturados, em uma plataforma operacional e de armazenamento unificada. ,Para obter mais informações, consulte o site da Cloudera.

  • O Machine Learning é uma plataforma de machine learning nativa de nuvem que combina recursos de autoatendimento de ciência de dados e engenharia de dados em um único serviço portátil em uma nuvem de dados corporativa. Ele permite a implantação escalável de machine learning e inteligência artificial (IA) em dados em qualquer lugar. ,Para obter mais informações, consulte o site da Cloudera.

CDPem AWS

O diagrama a seguir (adaptado com permissão do site da Cloudera) mostra a arquitetura de alto nível do on. CDP AWS CDPimplementa seu próprio modelo de segurança para gerenciar contas e fluxo de dados. Eles são integrados por IAMmeio do uso de funções entre contas

CDPem arquitetura AWS de alto nível

O plano CDP de controle reside em uma conta principal própria da Cloudera. VPC Cada conta de cliente tem sua própria subconta e é exclusivaVPC. As IAM funções e SSL tecnologias entre contas direcionam o tráfego de gerenciamento de e para o plano de controle para os serviços ao cliente que residem em sub-redes públicas roteáveis pela Internet dentro de cada cliente. VPC Para o clienteVPC, o Cloudera Shared Data Experience (SDX) fornece segurança corporativa com governança e conformidade unificadas para que você possa obter insights de seus dados com mais rapidez. SDXé uma filosofia de design incorporada a todos os produtos da Cloudera. Para obter mais informações sobre SDXe a arquitetura de rede CDP Public Cloud para AWS, consulte a documentação do Cloudera.

Ferramentas

AWSserviços

Automação e ferramentas

Épicos

TarefaDescriçãoHabilidades necessárias

Envolva a equipe da Cloudera.

A Cloudera busca um modelo padronizado de engajamento com seus clientes e pode trabalhar com seu integrador de sistemas (SI) para promover a mesma abordagem. Entre em contato com a equipe de clientes da Cloudera para que eles possam fornecer orientações e os recursos técnicos necessários para iniciar o projeto. Entrar em contato com a equipe da Cloudera garante que todas as equipes necessárias possam se preparar para a migração à medida que a data se aproxima. 

Você pode entrar em contato com os Serviços Profissionais da Cloudera para mover sua implantação do Cloudera do piloto para a produção rapidamente, a um custo menor e com desempenho máximo. Para obter uma lista completa de ofertas, consulte o site da Cloudera.

Líder de migração

Crie um ambiente de nuvem CDP pública AWS para vocêVPC.

Trabalhe com o Cloudera Professional Services ou com seu SI para planejar e implantar a nuvem CDP pública em umVPC. AWS

Arquiteto de nuvem, Cloudera SME

Priorize e avalie as workloads para migração.

Avalie todas as suas workloads on-premises para determinar as workloads mais fáceis de migrar. Os aplicativos que não são essenciais são os melhores a serem implantados primeiro, pois terão um impacto mínimo em seus clientes. Guarde as workloads essenciais para o final, depois de migrar com sucesso outras workloads.

Observação: cargas de trabalho transitórias (engenharia de CDP dados) são mais fáceis de migrar do que cargas de trabalho persistentes (CDPData Warehouse). Também é importante considerar o volume e os locais dos dados ao migrar. Os desafios podem incluir a replicação contínua de dados de um ambiente on-premises para a nuvem e a alteração dos canais de ingestão de dados para importar dados diretamente para a nuvem.

Líder de migração

DiscutaCDH,HDP,CDP, e as atividades de migração de aplicativos legados.

Considere e comece a planejar as seguintes atividades com o Cloudera Workload Manager:

  • Dados e cargas de trabalho para copiar para seu AWS ambiente

  • Dados prontos para a nuvem

  • Vizinhos barulhentos, que consomem recursos e criam problemas para outros inquilinos

  • workloads elásticas

  • Clusters pequenos com alta sobrecarga operacional

Líder de migração

Preencha os requisitos e recomendações do Cloudera Replication Manager.

Trabalhe com o Cloudera Professional Services e seu SI para se preparar para migrar cargas de trabalho para seu ambiente de nuvem CDP pública em. AWS Compreender os requisitos e recomendações a seguir pode ajudá-lo a evitar problemas comuns durante e após a instalação do serviço Replication Manager.

  • Analise os documentos de suporte do Replication Manager para confirmar se você atende aos requisitos do ambiente e do sistema. Para obter mais informações, consulte a matriz de suporte do CDP Public Cloud Replication Manager no site da Cloudera.

  • Você não precisa de acesso root aos nós nos quais o aplicativo Replication Manager e o mecanismo Data Lifecycle Manager (DLM) serão instalados.

  • Instale o Apache Hive durante a instalação inicial do Replication Manager, a menos que tenha certeza de que não usará a replicação do Hive no futuro. Se você decidir instalar o Hive depois de criar políticas de HDFS replicação no Replication Manager, precisará excluir e recriar todas as políticas de HDFS replicação depois de adicionar o Hive.

  • Os clusters usados no Replication Manager devem ter configurações simétricas. Cada cluster em uma relação de replicação deve ser configurado exatamente da mesma forma para segurança (Kerberos), gerenciamento de usuários (LDAP/AD) e Knox Proxy. Serviços de cluster, como Hadoop Distributed File System (HDFS), Apache Hive, Apache Knox, Apache Ranger e Apache Atlas, podem ter configurações diferentes para alta disponibilidade (HA). Por exemplo, os clusters de origem e de destino podem ter configurações separadas de HA e não HA.

Líder de migração
TarefaDescriçãoHabilidades necessárias

Migre a primeira workload para ambientes de dev/teste usando o Cloudera Workload Manager.

Seu SI pode ajudá-lo a migrar sua primeira carga de trabalho para a AWS nuvem. Esse deve ser um aplicativo que não seja voltado para o cliente nem essencial. Os candidatos ideais para a migração de desenvolvimento/teste são aplicativos que têm dados que a nuvem pode ingerir facilmente, como cargas de trabalho de engenharia de CDP dados. Essa é uma carga de trabalho transitória que geralmente tem menos usuários acessando-a, em comparação com uma carga de trabalho persistente, como uma carga de trabalho do CDP Data Warehouse, que pode ter muitos usuários que precisam de acesso ininterrupto. As workloads de engenharia de dados não são persistentes, o que minimiza o impacto nos negócios se algo der errado. No entanto, esses trabalhos podem ser essenciais para a geração de relatórios de produção, portanto, priorize as workloads de engenharia de dados de baixo impacto.

Líder de migração

Repita as etapas de migração conforme necessário.

O Cloudera Workload Manager ajuda a identificar as workloads mais adequadas para a nuvem. Ele fornece métricas como classificações de desempenho da nuvem, planos de tamanho/capacidade para o ambiente de destino e planos de replicação. Os melhores candidatos para migração são workloads sazonais, relatórios ad hoc e trabalhos intermitentes que não consomem muitos recursos.

O Cloudera Replication Manager move dados on-premises para a nuvem e da nuvem para on-premises.

Otimize proativamente workloads, aplicativos, desempenho e capacidade de infraestrutura para armazenamento de dados, engenharia de dados e machine learning usando o Workload Manager. Para obter um guia completo sobre como modernizar um data warehouse, consulte o site da Cloudera.

Cloudera SME

Recursos relacionados

Documentação da Cloudera:

AWSdocumentação: