Migre dados do Hadoop para o Amazon S3 usando o WANdisco Migrator LiveData - Recomendações da AWS

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Migre dados do Hadoop para o Amazon S3 usando o WANdisco Migrator LiveData

Criado por Tony Velcich

Origem: Cluster Hadoop on-premises

Destino: Amazon S3

Tipo R: redefinir a hospedagem

Ambiente: produção

Tecnologias: data lakes; big data; migração para a nuvem híbrida

Workload: todas as outras workloads

Serviços da AWS: Amazon S3

Resumo

Esse padrão descreve o processo de migração de dados do Apache Hadoop de um Sistema de Arquivos Distribuído do Hadoop (HDFS) para o Amazon Simple Storage Service (Amazon S3). Ele usa o WANdisco LiveData Migrator para automatizar o processo de migração de dados.

Pré-requisitos e limitações

Pré-requisitos

  • Nó de borda do cluster Hadoop onde o LiveData Migrator será instalado. O nó deve atender aos seguintes requisitos:

    • Especificação mínima: 4 CPUs, 16 GB de RAM, 100 GB de armazenamento.

    • Rede mínima de 2 Gbps.

    • Porta 8081 acessível em seu nó de borda para acessar a interface do usuário do WANdisco.

    • Java 1.8 de 64 bits.

    • Bibliotecas de cliente do Hadoop instaladas no nó periférico.

    • Capacidade de se autenticar como superusuário do HDFS (por exemplo, “hdfs”).

    • Se o Kerberos estiver habilitado em seu cluster do Hadoop, um keytab válido que contenha uma entidade principal adequada para o superusuário do HDFS deverá estar disponível no nó de borda.

    • Consulte as notas de versão para obter uma lista de sistemas operacionais suportados.

  • Uma conta ativa da AWS com acesso a um bucket do S3.

  • Um link do AWS Direct Connect estabelecido entre seu cluster do Hadoop on-premises (especificamente o nó de borda) e a AWS.

Versões do produto

  • LiveData Migrador 1.8.6

  • WANdisco UI (OneUI) 5.8.0

Arquitetura

Pilha de tecnologia de origem

  • Cluster Hadoop on-premises

Pilha de tecnologias de destino

  • Amazon S3

Arquitetura

O diagrama a seguir mostra a arquitetura da solução LiveData Migrator.

Usando o WANdisco LiveData Migrator para automatizar o processo de migração de dados do Hadoop para o Amazon S3.

O fluxo de trabalho consiste em quatro componentes principais para a migração de dados do HDFS on-premises para o Amazon S3.

  • LiveData Migrador — automatiza a migração de dados do HDFS para o Amazon S3 e reside em um nó periférico do cluster Hadoop.

  • HDFS: um sistema de arquivos distribuído que fornece acesso de alto throughput dos dados do aplicativo.

  • Amazon S3: um serviço de armazenamento de objetos que oferece escalabilidade, disponibilidade de dados, segurança e performance líderes do setor.

  • AWS Direct Connect: um serviço que estabelece uma conexão de rede dedicada entre seus datacenters on-premises e a AWS.

Automação e escala

Normalmente, você cria várias migrações para poder selecionar conteúdo específico do sistema de arquivos de origem por caminho ou diretório. Você também pode migrar dados para vários sistemas de arquivos independentes ao mesmo tempo definindo vários recursos de migração.

Épicos

TarefaDescriçãoHabilidades necessárias

Faça login na sua conta da AWS.

Faça login no Console de Gerenciamento da AWS e abra o console do Amazon S3 em https://console.aws.amazon.com/s3/.

Experiência da AWS

Criar um bucket do S3.

Se você ainda não tiver um bucket do S3 existente para usar como armazenamento de destino, selecione a opção “Criar um bucket” no console do Amazon S3 e especifique o nome do bucket, a região da AWS e as configurações do bucket para bloquear o acesso público. A AWS e a WANdisco recomendam que você habilite as opções de bloqueio de acesso público para o bucket do S3 e configure as políticas de acesso ao bucket e de permissão de usuário para atender aos requisitos da sua organização. Um exemplo da AWS é fornecido em https://docs.aws.amazon.com/AmazonS3/latest/dev/ example-walkthroughs-managing-access -example1.html.

Experiência da AWS
TarefaDescriçãoHabilidades necessárias

Baixe o LiveData instalador do Migrator.

Faça o download do LiveData instalador do Migrator e carregue-o no nó de borda do Hadoop. Você pode baixar uma versão de avaliação gratuita do LiveData Migrator em https://www2.wandisco.com/ldm-trial. Você também pode obter acesso ao LiveData Migrator no AWS Marketplace, em https://aws.amazon.com/marketplace/pp/B07B8SZND9.

Administrador do Hadoop, proprietário do aplicativo

Instale o LiveData Migrator.

Use o instalador baixado e instale o LiveData Migrator como superusuário do HDFS em um nó periférico em seu cluster Hadoop. Consulte a seção “Informações adicionais” para ver os comandos de instalação.

Administrador do Hadoop, proprietário do aplicativo

Verifique o status do LiveData Migrator e de outros serviços.

Verifique o status do LiveData Migrator, do Hive migrator e da interface do usuário do WANdisco usando os comandos fornecidos na seção “Informações adicionais”.

Administrador do Hadoop, proprietário do aplicativo
TarefaDescriçãoHabilidades necessárias

Registre sua conta do LiveData Migrator.

Faça login na interface do usuário do WANdisco por meio de um navegador da web na porta 8081 (no nó de borda do Hadoop) e forneça suas informações para registro. Por exemplo, se você estiver executando o LiveData Migrator em um host chamado myldmhost.example.com, a URL seria: http://myldmhost.example.com:8081

Proprietário do aplicativo

Configure seu armazenamento do HDFS de origem.

Forneça os detalhes de configuração necessários para seu armazenamento do HDFS de origem. Isso incluirá o valor “fs.defaultFS” e um nome de armazenamento definido pelo usuário. Se o Kerberos estiver ativado, forneça a localização principal e a tecla para o LiveData Migrator usar. Se o NameNode HA estiver habilitado no cluster, forneça um caminho para os arquivos core-site.xml e hdfs-site.xml no nó de borda.

Administrador do Hadoop, proprietário do aplicativo

Configure seu armazenamento do Amazon S3 de destino.

Adicione seu armazenamento de destino como o tipo S3a. Forneça o nome de armazenamento definido pelo usuário e o nome do bucket do S3. Insira “org.apache.hadoop.fs.s3a.SimpleAWSCredentialsProvider" para a opção Credentials Provider e forneça as chaves secretas e de acesso da AWS para o bucket do S3. Propriedades adicionais do S3a também serão necessárias. Para obter detalhes, consulte a seção “Propriedades do S3a” na documentação do LiveData Migrator em https://docs.wandisco.com/ live-data-migrator /docs/command-reference/ # 3a. filesystem-add-s

AWS, proprietário do aplicativo
TarefaDescriçãoHabilidades necessárias

Adicione exclusões (se necessário).

Se quiser excluir conjuntos de dados específicos da migração, adicione exclusões para o armazenamento de origem do HDFS. Essas exclusões podem ser baseadas no tamanho do arquivo, nos nomes dos arquivos (com base nos padrões regex) e na data de modificação.

Administrador do Hadoop, proprietário do aplicativo
TarefaDescriçãoHabilidades necessárias

Crie e configure a migração.

Crie uma migração no painel da interface do usuário do WANdisco. Selecione sua origem (HDFS) e destino (o bucket S3). Adicione as novas exclusões que você definiu na etapa anterior. Selecione a opção “Substituir” ou “Ignorar se o tamanho for correspondente”. Crie a migração quando todos os campos estiverem preenchidos.

Administrador do Hadoop, proprietário do aplicativo

Inicie a migração.

No painel, selecione a migração que você criou. Clique para iniciar a migração. Você também pode iniciar uma migração automaticamente escolhendo a opção de início automático ao criar a migração.

Proprietário do aplicativo
TarefaDescriçãoHabilidades necessárias

Defina um limite de largura de banda da rede entre a origem e o destino.

Na lista Armazenamentos no painel, selecione seu armazenamento de origem e selecione “Gerenciamento de largura de banda” na lista de agrupamento. Limpe a opção ilimitada e defina o limite máximo de largura de banda e a unidade. Escolha “Aplicar”.

Proprietário do aplicativo, Rede
TarefaDescriçãoHabilidades necessárias

Visualize as informações de migração usando a interface do usuário do WANdisco.

Use a interface do usuário do WANdisco para visualizar informações de licença, largura de banda, armazenamento e migração. A interface do usuário também fornece um sistema de notificação para que você possa receber notificações sobre erros, avisos ou marcos importantes em seu uso.

Administrador do Hadoop, proprietário do aplicativo

Suspenda, retome e exclua migrações.

Você pode impedir que uma migração transfira conteúdo para seu destino colocando-a no estado INTERROMPIDO. Migrações suspensas podem ser retomadas. As migrações no estado INTERROMPIDO também podem ser excluídas.

Administrador do Hadoop, proprietário do aplicativo

Recursos relacionados

Mais informações

Instalando o LiveData Migrator

Você pode usar os seguintes comandos para instalar o LiveData Migrator, supondo que o instalador esteja dentro do seu diretório de trabalho:

su – hdfs chmod +x livedata-migrator.sh && sudo ./livedata-migrator.sh

Verificando o status do LiveData Migrator e de outros serviços após a instalação

Use os comandos a seguir para verificar o status do LiveData Migrator, do Hive migrator e da interface do usuário do WANdisco:

service livedata-migrator status service hivemigrator status service livedata-ui status