本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
亚马逊EMR可以接受的输入类型
集群的默认输入格式是文本文件,每行都使用换行符 (\n) 分隔,这是最常用的输入格式。
如果您输入的数据格式不是默认的文本文件,可以使用 Hadoop 接口 InputFormat
指定其它输入类型。您甚至可以创建 FileInputFormat
类型的子类,用于处理自定义数据类型。欲了解更多信息,请参阅 http://hadoop.apache。 org/docs/current/api/org/apache/hadoop/mapred/InputFormat.html。
如果您使用的是 Hive,则可以使用序列化器/反序列化器 (SerDe) 将给定格式的数据读入。HDFS欲了解更多信息,请参阅 https://cwiki.apache。 org/confluence/display/Hive/SerDe