使用 AWS DataSync上傳資料 - Amazon EMR

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

使用 AWS DataSync上傳資料

AWS DataSync 是一種線上資料傳輸服務,可簡化、自動化和加速在內部部署儲存和 AWS 儲存服務之間或在 AWS 儲存服務之間移動資料的程序。 DataSync 支援各種內部部署儲存系統,例如 Hadoop 分散式檔案系統 (HDFS)、NAS檔案伺服器和自我管理物件儲存。

將資料取得到叢集的最常見方法是將資料上傳至 Amazon S3,並使用 Amazon 的內建功能將資料EMR載入叢集。

DataSync 可協助您完成下列任務:

  • 將 Hadoop 叢集HDFS上的 複寫至 Amazon S3,以實現業務連續性

  • HDFS 複製到 Amazon S3 以填入您的資料湖

  • 在 Hadoop 叢集HDFS和 Amazon S3 之間傳輸資料,以供分析和處理

若要將資料上傳至 S3 儲存貯體,請先在與內部部署儲存體相同的網路中部署一或多個 DataSync 代理程式。代理程式是用於對自我管理的位置讀寫資料的虛擬機器 (VM)。然後,您可以在 S3 儲存貯體所在的 AWS 帳戶 和 中啟用 AWS 區域 您的代理程式。

啟用代理程式後,您可以為內部部署儲存建立來源位置、S3 儲存貯體的目的地位置以及任務。任務是一組兩個位置 (來源與目的地) 和一組可用來控制任務行為的預設選項。

最後,您會執行 DataSync 任務,將資料從來源傳輸到目的地。

如需詳細資訊,請參閱 AWS DataSync入門