Tipos de entrada que o Amazon EMR pode aceitar

O formato de entrada padrão para um cluster é um arquivo de texto, com cada linha separada por um caractere de nova linha (\n), que é o formato de entrada mais usado.

Se os seus dados de entrada estiverem em um formato diferente do formato de arquivo de texto padrão, você poderá usar a interface do Hadoop InputFormat para especificar outros tipos de entradas. Você pode até mesmo criar uma subclasse da classe FileInputFormat para tratar os tipos de dados personalizados. Para obter mais informações, consulte http://hadoop.apache.org/docs/current/api/org/apache/hadoop/mapred/InputFormat.html.

Se você estiver usando o Hive, poderá usar a serializer/deserializer (SerDe) para ler dados de um determinado formato no HDFS. Para obter mais informações, consulte https://cwiki.apache.org/confluence/display/Hive/SerDe.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Preparo dos dados de entrada para processamento com o Amazon EMR

Diferentes formas de inserir dados no Amazon EMR