本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
連接器與公用程式
Amazon EMR 提供多種連接器和公用程式,以存取其他 AWS 服務做為資料來源。您通常可以在某個程式裡存取多項服務的資料。例如,您可以在 Hive 查詢、Pig 指令碼或 MapReduce 應用程式內指定某個 Kinesis 串流,然後對該資料執行操作。
S3DistCp 作業失敗之後清除
若 S3DistCp 無法複製部分或全部的指定檔案,命令或叢集步驟會失敗,並傳回非零的錯誤代碼。若發生此種狀況,S3DistCp 不會清除掉部分複製的檔案。您必須手動刪除這些檔案。
部分複製的檔案會儲存到子目錄 (具有 S3DistCp 任務的唯一識別符) 的 HDFS tmp
目錄中。您可以在任務的標準輸出中找到此 ID。
例如,對於 ID 為 4b1c37bb-91af-4391-aaf8-46a6067085a6
的 S3DistCp 任務,您可以連接到叢集的主節點,並執行以下命令以檢視與該任務相關聯的輸出檔案。
hdfs dfs -ls /tmp/4b1c37bb-91af-4391-aaf8-46a6067085a6/output
該命令會傳回類似如下的檔案清單:
Found 8 items
-rw-r‑‑r‑‑ 1 hadoop hadoop 0 2018-12-10 06:03 /tmp/4b1c37bb-91af-4391-aaf8-46a6067085a6/output/_SUCCESS
-rw-r‑‑r‑‑ 1 hadoop hadoop 0 2018-12-10 06:02 /tmp/4b1c37bb-91af-4391-aaf8-46a6067085a6/output/part-r-00000
-rw-r‑‑r‑‑ 1 hadoop hadoop 0 2018-12-10 06:02 /tmp/4b1c37bb-91af-4391-aaf8-46a6067085a6/output/part-r-00001
-rw-r‑‑r‑‑ 1 hadoop hadoop 0 2018-12-10 06:02 /tmp/4b1c37bb-91af-4391-aaf8-46a6067085a6/output/part-r-00002
-rw-r‑‑r‑‑ 1 hadoop hadoop 0 2018-12-10 06:03 /tmp/4b1c37bb-91af-4391-aaf8-46a6067085a6/output/part-r-00003
-rw-r‑‑r‑‑ 1 hadoop hadoop 0 2018-12-10 06:03 /tmp/4b1c37bb-91af-4391-aaf8-46a6067085a6/output/part-r-00004
-rw-r‑‑r‑‑ 1 hadoop hadoop 0 2018-12-10 06:03 /tmp/4b1c37bb-91af-4391-aaf8-46a6067085a6/output/part-r-00005
-rw-r‑‑r‑‑ 1 hadoop hadoop 0 2018-12-10 06:03 /tmp/4b1c37bb-91af-4391-aaf8-46a6067085a6/output/part-r-00006
然後,您可以執行以下命令來刪除目錄和所有內容。
hdfs dfs rm -rf /tmp/4b1c37bb-91af-4391-aaf8-46a6067085a6