Tipi di input che Amazon EMR può accettare

Il formato di input predefinito per un cluster è un file di testo con ogni riga separata da un carattere di newline (\n), che è il formato di input più comunemente usato.

Se i dati di input sono in un formato diverso da quello predefinito dei file di testo, è possibile utilizzare l'interfaccia di Hadoop InputFormat per specificare altri tipi di input. Puoi persino creare una sottoclasse della classe FileInputFormat per gestire i tipi di dati personalizzati. Per ulteriori informazioni, consulta http://hadoop.apache.org/docs/current/api/org/apache/hadoop/mapred/InputFormat.html.

Se utilizzi Hive, puoi usare a serializer/deserializer (SerDe) per leggere i dati da un determinato formato in HDFS. Per ulteriori informazioni, consulta https://cwiki.apache.org/confluence/display/Hive/SerDe.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Prepara i dati di input per l'elaborazione con Amazon EMR

Diversi modi per trasferire dati in Amazon EMR