Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Types de saisie qu'Amazon EMR peut accepter
Le format d'entrée par défaut pour un cluster correspond à des fichiers texte dont chaque ligne est séparée par un caractère de nouvelle ligne (\n), ce qui est le format d'entrée le plus couramment utilisé.
Si vos données d'entrée sont dans un format différent des fichiers texte par défaut, vous pouvez utiliser l'interface Hadoop InputFormat
pour spécifier d'autres types d'entrée. Vous pouvez même créer une sous-classe de la classe FileInputFormat
pour gérer les types de données personnalisés. Pour plus d'informations, consultez http://hadoop.apache. org/docs/current/api/org/apache/hadoop/mapred/InputFormat.html
Si vous utilisez Hive, vous pouvez utiliser un sérialiseur/désérialiseur (SerDe) pour lire les données d'un format donné dans HDFS. Pour plus d'informations, consultez https://cwiki.apache. org/confluence/display/Hive/SerDe