Tipos de entrada que o Amazon EMR pode aceitar - Amazon EMR

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Tipos de entrada que o Amazon EMR pode aceitar

O formato de entrada padrão para um cluster é um arquivo de texto, com cada linha separada por um caractere de nova linha (\n), que é o formato de entrada mais usado.

Se os seus dados de entrada estiverem em um formato diferente do formato de arquivo de texto padrão, você poderá usar a interface do Hadoop InputFormat para especificar outros tipos de entradas. Você pode até mesmo criar uma subclasse da classe FileInputFormat para tratar os tipos de dados personalizados. Para obter mais informações, consulte http://hadoop.apache. org/docs/current/api/org/apache/hadoop/mapred/InputFormat.html.

Se você estiver usando o Hive, poderá usar um serializador/desserializador (SerDe) para ler dados de um determinado formato no HDFS. Para obter mais informações, consulte https://cwiki.apache. org/confluence/display/Hive/SerDe.