Amazon EMR可以接受的輸入類型 - Amazon EMR

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

Amazon EMR可以接受的輸入類型

叢集的預設輸入格式為文字檔,其中每列以換行 (\n) 字元分隔,這是最常用的輸入格式。

如果您的輸入資料是使用預設文字檔案以外的格式,您可以使用 Hadoop 界面 InputFormat 來指定其他輸入類型。您甚至可以建立 FileInputFormat 的子類別,以處理自訂資料類型。如需詳細資訊,請參閱 http://hadoop.apache.org/docs/current/api/org/apache/hadoop/mapred/InputFormat.html

如果您使用的是 Hive,則可以使用序列化器/還原序列化器 (SerDe) 將指定格式中的資料讀取至 HDFS。如需詳細資訊,請參閱 https://https://cwiki.apache.org/confluence/display/Hive/SerDe