Préparer les données d'entrée pour le traitement avec Amazon EMR

La plupart des clusters chargent les données d'entrée, puis traitent ces données. Pour pouvoir être chargées, les données doivent être dans un emplacement auquel le cluster peut accéder et dans un format que le cluster peut traiter. Le scénario le plus courant consiste à charger les données d'entrée dans Amazon S3. Amazon EMR fournit des outils permettant à votre cluster d'importer ou de lire des données depuis Amazon S3.

Le format d'entrée par défaut dans Hadoop correspond à des fichiers texte, mais vous pouvez personnaliser Hadoop et utiliser des outils pour importer des données stockées dans d'autres formats.

Rubriques

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Utilisation de systèmes de stockage et de fichiers

Types de saisie qu'Amazon EMR peut accepter