As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Migre dados do Hadoop para o Amazon S3 usando o WANdisco Migrator LiveData
Criado por Tony Velcich
Origem: Cluster Hadoop on-premises | Destino: Amazon S3 | Tipo R: redefinir a hospedagem |
Ambiente: produção | Tecnologias: data lakes; big data; migração para a nuvem híbrida | Workload: todas as outras workloads |
Serviços da AWS: Amazon S3 |
Resumo
Esse padrão descreve o processo de migração de dados do Apache Hadoop de um Sistema de Arquivos Distribuído do Hadoop (HDFS) para o Amazon Simple Storage Service (Amazon S3). Ele usa o WANdisco LiveData Migrator para automatizar o processo de migração de dados.
Pré-requisitos e limitações
Pré-requisitos
Nó de borda do cluster Hadoop onde o LiveData Migrator será instalado. O nó deve atender aos seguintes requisitos:
Especificação mínima: 4 CPUs, 16 GB de RAM, 100 GB de armazenamento.
Rede mínima de 2 Gbps.
Porta 8081 acessível em seu nó de borda para acessar a interface do usuário do WANdisco.
Java 1.8 de 64 bits.
Bibliotecas de cliente do Hadoop instaladas no nó periférico.
Capacidade de se autenticar como superusuário do HDFS
(por exemplo, “hdfs”). Se o Kerberos estiver habilitado em seu cluster do Hadoop, um keytab válido que contenha uma entidade principal adequada para o superusuário do HDFS deverá estar disponível no nó de borda.
Consulte as notas de versão
para obter uma lista de sistemas operacionais suportados.
Uma conta ativa da AWS com acesso a um bucket do S3.
Um link do AWS Direct Connect estabelecido entre seu cluster do Hadoop on-premises (especificamente o nó de borda) e a AWS.
Versões do produto
LiveData Migrador 1.8.6
WANdisco UI (OneUI) 5.8.0
Arquitetura
Pilha de tecnologia de origem
Cluster Hadoop on-premises
Pilha de tecnologias de destino
Amazon S3
Arquitetura
O diagrama a seguir mostra a arquitetura da solução LiveData Migrator.
![Usando o WANdisco LiveData Migrator para automatizar o processo de migração de dados do Hadoop para o Amazon S3.](images/pattern-img/e7b6b567-0ffc-4838-9654-c3f301bbbfe7/images/64a38e87-6f9b-485d-afb0-33b3b851d8ef.png)
O fluxo de trabalho consiste em quatro componentes principais para a migração de dados do HDFS on-premises para o Amazon S3.
LiveData Migrador
— automatiza a migração de dados do HDFS para o Amazon S3 e reside em um nó periférico do cluster Hadoop. HDFS
: um sistema de arquivos distribuído que fornece acesso de alto throughput dos dados do aplicativo. Amazon S3
: um serviço de armazenamento de objetos que oferece escalabilidade, disponibilidade de dados, segurança e performance líderes do setor. AWS Direct Connect: um serviço que estabelece uma conexão de rede dedicada entre seus datacenters on-premises e a AWS.
Automação e escala
Normalmente, você cria várias migrações para poder selecionar conteúdo específico do sistema de arquivos de origem por caminho ou diretório. Você também pode migrar dados para vários sistemas de arquivos independentes ao mesmo tempo definindo vários recursos de migração.
Épicos
Tarefa | Descrição | Habilidades necessárias |
---|---|---|
Faça login na sua conta da AWS. | Faça login no Console de Gerenciamento da AWS e abra o console do Amazon S3 em https://console.aws.amazon.com/s3/. | Experiência da AWS |
Criar um bucket do S3. | Se você ainda não tiver um bucket do S3 existente para usar como armazenamento de destino, selecione a opção “Criar um bucket” no console do Amazon S3 e especifique o nome do bucket, a região da AWS e as configurações do bucket para bloquear o acesso público. A AWS e a WANdisco recomendam que você habilite as opções de bloqueio de acesso público para o bucket do S3 e configure as políticas de acesso ao bucket e de permissão de usuário para atender aos requisitos da sua organização. Um exemplo da AWS é fornecido em https://docs.aws.amazon.com/AmazonS3/latest/dev/ example-walkthroughs-managing-access -example1.html. | Experiência da AWS |
Tarefa | Descrição | Habilidades necessárias |
---|---|---|
Baixe o LiveData instalador do Migrator. | Faça o download do LiveData instalador do Migrator e carregue-o no nó de borda do Hadoop. Você pode baixar uma versão de avaliação gratuita do LiveData Migrator em https://www2.wandisco.com/ldm-trial. Você também pode obter acesso ao LiveData Migrator no AWS Marketplace, em https://aws.amazon.com/marketplace/pp/B07B8SZND9. | Administrador do Hadoop, proprietário do aplicativo |
Instale o LiveData Migrator. | Use o instalador baixado e instale o LiveData Migrator como superusuário do HDFS em um nó periférico em seu cluster Hadoop. Consulte a seção “Informações adicionais” para ver os comandos de instalação. | Administrador do Hadoop, proprietário do aplicativo |
Verifique o status do LiveData Migrator e de outros serviços. | Verifique o status do LiveData Migrator, do Hive migrator e da interface do usuário do WANdisco usando os comandos fornecidos na seção “Informações adicionais”. | Administrador do Hadoop, proprietário do aplicativo |
Tarefa | Descrição | Habilidades necessárias |
---|---|---|
Registre sua conta do LiveData Migrator. | Faça login na interface do usuário do WANdisco por meio de um navegador da web na porta 8081 (no nó de borda do Hadoop) e forneça suas informações para registro. Por exemplo, se você estiver executando o LiveData Migrator em um host chamado myldmhost.example.com, a URL seria: http://myldmhost.example.com:8081 | Proprietário do aplicativo |
Configure seu armazenamento do HDFS de origem. | Forneça os detalhes de configuração necessários para seu armazenamento do HDFS de origem. Isso incluirá o valor “fs.defaultFS” e um nome de armazenamento definido pelo usuário. Se o Kerberos estiver ativado, forneça a localização principal e a tecla para o LiveData Migrator usar. Se o NameNode HA estiver habilitado no cluster, forneça um caminho para os arquivos core-site.xml e hdfs-site.xml no nó de borda. | Administrador do Hadoop, proprietário do aplicativo |
Configure seu armazenamento do Amazon S3 de destino. | Adicione seu armazenamento de destino como o tipo S3a. Forneça o nome de armazenamento definido pelo usuário e o nome do bucket do S3. Insira “org.apache.hadoop.fs.s3a.SimpleAWSCredentialsProvider" para a opção Credentials Provider e forneça as chaves secretas e de acesso da AWS para o bucket do S3. Propriedades adicionais do S3a também serão necessárias. Para obter detalhes, consulte a seção “Propriedades do S3a” na documentação do LiveData Migrator em https://docs.wandisco.com/ live-data-migrator /docs/command-reference/ # 3a. filesystem-add-s | AWS, proprietário do aplicativo |
Tarefa | Descrição | Habilidades necessárias |
---|---|---|
Adicione exclusões (se necessário). | Se quiser excluir conjuntos de dados específicos da migração, adicione exclusões para o armazenamento de origem do HDFS. Essas exclusões podem ser baseadas no tamanho do arquivo, nos nomes dos arquivos (com base nos padrões regex) e na data de modificação. | Administrador do Hadoop, proprietário do aplicativo |
Tarefa | Descrição | Habilidades necessárias |
---|---|---|
Crie e configure a migração. | Crie uma migração no painel da interface do usuário do WANdisco. Selecione sua origem (HDFS) e destino (o bucket S3). Adicione as novas exclusões que você definiu na etapa anterior. Selecione a opção “Substituir” ou “Ignorar se o tamanho for correspondente”. Crie a migração quando todos os campos estiverem preenchidos. | Administrador do Hadoop, proprietário do aplicativo |
Inicie a migração. | No painel, selecione a migração que você criou. Clique para iniciar a migração. Você também pode iniciar uma migração automaticamente escolhendo a opção de início automático ao criar a migração. | Proprietário do aplicativo |
Tarefa | Descrição | Habilidades necessárias |
---|---|---|
Defina um limite de largura de banda da rede entre a origem e o destino. | Na lista Armazenamentos no painel, selecione seu armazenamento de origem e selecione “Gerenciamento de largura de banda” na lista de agrupamento. Limpe a opção ilimitada e defina o limite máximo de largura de banda e a unidade. Escolha “Aplicar”. | Proprietário do aplicativo, Rede |
Tarefa | Descrição | Habilidades necessárias |
---|---|---|
Visualize as informações de migração usando a interface do usuário do WANdisco. | Use a interface do usuário do WANdisco para visualizar informações de licença, largura de banda, armazenamento e migração. A interface do usuário também fornece um sistema de notificação para que você possa receber notificações sobre erros, avisos ou marcos importantes em seu uso. | Administrador do Hadoop, proprietário do aplicativo |
Suspenda, retome e exclua migrações. | Você pode impedir que uma migração transfira conteúdo para seu destino colocando-a no estado INTERROMPIDO. Migrações suspensas podem ser retomadas. As migrações no estado INTERROMPIDO também podem ser excluídas. | Administrador do Hadoop, proprietário do aplicativo |
Recursos relacionados
Mais informações
Instalando o LiveData Migrator
Você pode usar os seguintes comandos para instalar o LiveData Migrator, supondo que o instalador esteja dentro do seu diretório de trabalho:
su – hdfs chmod +x livedata-migrator.sh && sudo ./livedata-migrator.sh
Verificando o status do LiveData Migrator e de outros serviços após a instalação
Use os comandos a seguir para verificar o status do LiveData Migrator, do Hive migrator e da interface do usuário do WANdisco:
service livedata-migrator status service hivemigrator status service livedata-ui status