Criar binários usando o Amazon EMR
Você pode usar o Amazon EMR como um ambiente de criação para compilar programas que serão usados no cluster. Os programas que você usa com o Amazon EMR devem ser compilados em um sistema que executa a mesma versão do Linux usada pelo Amazon EMR. Para uma versão de 32 bits, você deve compilar em uma máquina de 32 bits ou em uma máquina com as opções de compilação cruzada de 32 bits ativadas. Para uma versão de 64 bits, você deve compilar em uma máquina de 64 bits ou em uma máquina com as opções de compilação cruzada de 64 bits ativadas. Para obter mais informações sobre versões de instâncias do EC2, consulte Planejar e configurar instâncias do EC2 no Guia de gerenciamento do Amazon EMR. As linguagens de programação compatíveis incluem C++, Python e C#.
A tabela a seguir descreve as etapas envolvidas na criação e no teste da sua aplicação usando o Amazon EMR.
1 | Conecte-se ao nó principal do seu cluster. |
2 | Copie os arquivos de código-fonte para o nó principal. |
3 | Crie os arquivos binários com as otimizações necessárias. |
4 | Copie os arquivos binários do nó principal para o Amazon S3. |
Os detalhes de cada uma dessas etapas são abordados nas seções a seguir.
Para se conectar ao nó principal do cluster
-
Siga as instruções em Conectar-se ao nó principal usando SSH no Guia de gerenciamento do Amazon EMR.
Para copiar os arquivos de código-fonte para o nó principal
-
Coloque os arquivos de origem em um bucket do Amazon S3. Para aprender como criar buckets e como transferir dados para o Amazon S3, consulte o Guia do usuário do Amazon Simple Storage Service.
-
Crie uma pasta no cluster do Hadoop para seus arquivos de código-fonte digitando um comando semelhante ao seguinte:
mkdir
SourceFiles
-
Copie os arquivos de origem do Amazon S3 para o nó principal digitando um comando semelhante ao seguinte:
hadoop fs -get
s3://amzn-s3-demo-bucket/SourceFiles
SourceFiles
Crie os arquivos binários com as otimizações necessárias
Como você cria seus arquivos binários depende de vários fatores. Siga as instruções específicas das suas ferramentas de criação para instalar e configurar seu ambiente. Você pode usar os comandos de especificação do sistema do Hadoop para obter as informações do cluster que vão determinar como instalar o seu ambiente de criação.
Para identificar as especificações do sistema
-
Use os comandos a seguir para verificar a arquitetura que você está usando para criar seus arquivos binários.
-
Para visualizar a versão do Debian, insira o seguinte comando:
master$ cat /etc/issue
A saída será semelhante à seguinte.
Debian GNU/Linux 5.0
-
Para visualizar o nome DNS público e o tamanho do processador, insira o seguinte comando:
master$ uname -a
A saída será semelhante à seguinte.
Linux domU-12-31-39-17-29-39.compute-1.internal 2.6.21.7-2.fc8xen #1 SMP Fri Feb 15 12:34:28 EST 2008 x86_64 GNU/Linux
-
Para visualizar a velocidade do processador, insira o seguinte comando:
master$ cat /proc/cpuinfo
A saída será semelhante à seguinte.
processor : 0 vendor_id : GenuineIntel model name : Intel(R) Xeon(R) CPU E5430 @ 2.66GHz flags : fpu tsc msr pae mce cx8 apic mca cmov pat pse36 clflush dts acpi mmx fxsr sse sse2 ss ht tm syscall nx lm constant_tsc pni monitor ds_cpl vmx est tm2 ssse3 cx16 xtpr cda lahf_lm ...
-
Após a criação dos binários, você pode copiar os arquivos para o Amazon S3.
Copiar os binários do nó principal para o Amazon S3
-
Digite o comando a seguir para copiar os binários para o bucket do Amazon S3:
hadoop fs -put BinaryFiles
s3://amzn-s3-demo-bucket/BinaryDestination