Tipi di input che Amazon EMR può accettare - Amazon EMR

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Tipi di input che Amazon EMR può accettare

Il formato di input predefinito per un cluster è un file di testo con ogni riga separata da un carattere di newline (\n), che è il formato di input più comunemente usato.

Se i dati di input sono in un formato diverso da quello predefinito dei file di testo, è possibile utilizzare l'interfaccia di Hadoop InputFormat per specificare altri tipi di input. Puoi persino creare una sottoclasse della classe FileInputFormat per gestire i tipi di dati personalizzati. Per ulteriori informazioni, consulta http://hadoop.apache. org/docs/current/api/org/apache/hadoop/mapred/InputFormat.html.

Se si utilizza Hive, è possibile utilizzare un serializzatore/deserializzatore (SerDe) per leggere i dati da un determinato formato in. HDFS Per ulteriori informazioni, consultate https://cwiki.apache. org/confluence/display/Hive/SerDe.