As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Migre dados de um ambiente Hadoop local para o Amazon S3 usando with for Amazon S3 DistCp AWS PrivateLink
Criado por Jason Owens (AWS), Andres Cantor (), Jeff Klopfenstein (AWS), Bruno Rocha Oliveira (AWS) e Samuel Schmidt () AWS AWS
Ambiente: produção | Origem: Hadoop | Destino: Qualquer |
Tipo R: redefinir a plataforma | Workload: código aberto | Tecnologias: armazenamento e backup; análise |
AWSserviços: Amazon S3; Amazon EMR |
Resumo
Esse padrão demonstra como migrar praticamente qualquer quantidade de dados de um ambiente Apache Hadoop local para a nuvem Amazon Web Services (AWS) usando a ferramenta de código aberto Apache DistCp
Este guia fornece instruções de uso DistCp para migrar dados para a AWS nuvem. DistCp é a ferramenta mais usada, mas outras ferramentas de migração estão disponíveis. Por exemplo, você pode usar AWS ferramentas off-line, como AWSSnowball ou AWSSnowmobile, ou ferramentas on-line, como AWS Storage Gateway AWS ou. AWS DataSync
Pré-requisitos e limitações
Pré-requisitos
Uma AWS conta ativa com uma conexão de rede privada entre seu data center local e a nuvem AWS
Um usuário do Hadoop com acesso aos dados de migração no Hadoop Distributed File System () HDFS
AWSInterface de linha de comando (AWSCLI), instalada e configurada
Permissões para colocar objetos em um bucket do S3
Limitações
As limitações da nuvem privada virtual (VPC) se aplicam AWS PrivateLink ao Amazon S3. Para obter mais informações, consulte Propriedades e limitações do endpoint de interface e AWS PrivateLink cotas (AWS PrivateLink documentação).
AWS PrivateLink para Amazon S3 não oferece suporte ao seguinte:
Arquitetura
Pilha de tecnologia de origem
Cluster Hadoop com instalação DistCp
Pilha de tecnologias de destino
Amazon S3
Amazon VPC
Arquitetura de destino
O diagrama mostra como o administrador do Hadoop usa DistCp para copiar dados de um ambiente local por meio de uma conexão de rede privada, como o AWS Direct Connect, para o Amazon S3 por meio de um endpoint de interface do Amazon S3.
Ferramentas
AWSserviços
AWSO Identity and Access Management (IAM) ajuda você a gerenciar com segurança o acesso aos seus AWS recursos controlando quem está autenticado e autorizado a usá-los.
O Amazon Simple Storage Service (Amazon S3) é um serviço de armazenamento de objetos baseado na nuvem que ajuda você a armazenar, proteger e recuperar qualquer quantidade de dados.
A Amazon Virtual Private Cloud (AmazonVPC) ajuda você a lançar AWS recursos em uma rede virtual que você definiu. Essa rede virtual se assemelha a uma rede tradicional que você operaria em seu próprio data center, com os benefícios de usar a infraestrutura escalável do. AWS
Outras ferramentas
O Apache Hadoop DistCp
(cópia distribuída) é uma ferramenta usada para copiar grandes interclusters e intra-clusters. DistCp usa o Apache MapReduce para distribuição, tratamento e recuperação de erros e geração de relatórios.
Épicos
Tarefa | Descrição | Habilidades necessárias |
---|---|---|
Crie um endpoint AWS PrivateLink para o Amazon S3. |
| AWSadministrador |
Verifique os endpoints e encontre as DNS entradas. |
| AWSadministrador |
Verifique as regras do firewall e as configurações de roteamento. | Para confirmar se suas regras de firewall estão abertas e se sua configuração de rede está configurada corretamente, use o Telnet para testar o endpoint na porta 443. Por exemplo:
Nota: Se você usar a entrada Regional, um teste bem-sucedido mostra que DNS há alternância entre os dois endereços IP que você pode ver na guia Sub-redes do seu endpoint selecionado no console da Amazon. VPC | Administrador de rede, AWS administrador |
Configure a resolução de nomes. | Você deve configurar a resolução de nomes para permitir que o Hadoop acesse o endpoint da interface Amazon S3. Não é possível usar o nome do endpoint em si. Em vez disso, você deve resolver Escolha uma das seguintes opções de configuração:
| AWSadministrador |
Configure a autenticação para o Amazon S3. | Para se autenticar no Amazon S3 por meio do Hadoop, recomendamos que você exporte credenciais de função temporárias para o ambiente do Hadoop. Para obter mais informações, consulte Autenticação com o S3 Para usar credenciais temporárias, adicione as credenciais temporárias ao seu arquivo de credenciais ou execute os seguintes comandos para exportar as credenciais para o seu ambiente:
Se você tiver uma combinação tradicional de chave de acesso e chave secreta, execute os seguintes comandos:
Observação: se você usar uma combinação de chave de acesso e chave secreta, altere o provedor de credenciais nos DistCp comandos de | AWSadministrador |
Transfira dados usando DistCp. | Para usar DistCp para transferir dados, execute os seguintes comandos:
Observação: a AWS região do endpoint não é descoberta automaticamente quando você usa o DistCp comando com AWS PrivateLink para o Amazon S3. O Hadoop 3.3.2 e versões posteriores resolvem esse problema ativando a opção de definir explicitamente a AWS região do bucket do S3. Para obter mais informações, consulte S3A para adicionar a opção fs.s3a.endpoint.region para Para obter mais informações sobre provedores S3A adicionais, consulte Configuração geral do cliente S3A
Nota: Para usar o endpoint da interface com o S3A, você deve criar uma entrada de DNS alias para o nome regional do S3 (por exemplo, Se você tiver problemas de assinatura com o Amazon S3, adicione uma opção de usar a Signature Version 4 (SigV4):
| Engenheiro de migração, AWS administrador |