Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Préparer les données d'entrée pour le traitement avec Amazon EMR
La plupart des clusters chargent les données d'entrée, puis traitent ces données. Pour pouvoir être chargées, les données doivent être dans un emplacement auquel le cluster peut accéder et dans un format que le cluster peut traiter. Le scénario le plus courant consiste à charger les données d'entrée dans Amazon S3. Amazon EMR fournit des outils permettant à votre cluster d'importer ou de lire des données depuis Amazon S3.
Le format d'entrée par défaut dans Hadoop correspond à des fichiers texte, mais vous pouvez personnaliser Hadoop et utiliser des outils pour importer des données stockées dans d'autres formats.