Types de saisie qu'Amazon EMR peut accepter

Le format d'entrée par défaut pour un cluster correspond à des fichiers texte dont chaque ligne est séparée par un caractère de nouvelle ligne (\n), ce qui est le format d'entrée le plus couramment utilisé.

Si vos données d'entrée sont dans un format différent des fichiers texte par défaut, vous pouvez utiliser l'interface Hadoop InputFormat pour spécifier d'autres types d'entrée. Vous pouvez même créer une sous-classe de la classe FileInputFormat pour gérer les types de données personnalisés. Pour de plus amples informations, veuillez consulter http://hadoop.apache.org/docs/current/api/org/apache/hadoop/mapred/InputFormat.html.

Si vous utilisez Hive, vous pouvez utiliser a serializer/deserializer (SerDe) pour lire les données d'un format donné dans HDFS. Pour de plus amples informations, veuillez consulter https://cwiki.apache.org/confluence/display/Hive/SerDe.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Préparer les données d'entrée pour le traitement avec Amazon EMR

Différentes méthodes pour transférer des données vers Amazon EMR