Arten von Eingabedaten, die Amazon EMR akzeptieren kann

Das Standardeingabeformat für einen Cluster sind Textdateien, bei denen jede Zeile durch ein Zeilenvorschubzeichen (\ n) getrennt ist. Dies ist das am häufigsten verwendete Eingabeformat.

Wenn Ihre Eingabedaten in einem anderen Format geschrieben werden müssen als Standardtextdateien, können Sie die Hadoop-Benutzeroberfläche InputFormat verwenden, um andere Eingabetypen anzugeben. Sie können auch eine Unterklasse der FileInputFormat-Klasse für den Umgang mit benutzerdefinierten Datentypen verwenden. Weitere Informationen finden Sie unter http://hadoop.apache.org/docs/current/api/org/apache/hadoop/mapred/InputFormat.html.

Wenn Sie Hive verwenden, können Sie a serializer/deserializer (SerDe) verwenden, um Daten aus einem bestimmten Format in HDFS einzulesen. Weitere Informationen finden Sie unter https://cwiki.apache.org/confluence/display/Hive/SerDe.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Eingabedaten für die Verarbeitung mit Amazon EMR vorbereiten

Verschiedene Möglichkeiten, Daten in Amazon EMR zu übertragen