As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Tipos de entrada que o Amazon EMR pode aceitar
O formato de entrada padrão para um cluster é um arquivo de texto, com cada linha separada por um caractere de nova linha (\n), que é o formato de entrada mais usado.
Se os seus dados de entrada estiverem em um formato diferente do formato de arquivo de texto padrão, você poderá usar a interface do Hadoop InputFormat
para especificar outros tipos de entradas. Você pode até mesmo criar uma subclasse da classe FileInputFormat
para tratar os tipos de dados personalizados. Para obter mais informações, consulte http://hadoop.apache. org/docs/current/api/org/apache/hadoop/mapred/InputFormat.html
Se você estiver usando o Hive, poderá usar um serializador/desserializador (SerDe) para ler dados de um determinado formato no HDFS. Para obter mais informações, consulte https://cwiki.apache. org/confluence/display/Hive/SerDe