使WANdisco LiveData 用移轉程式將 Hadoop 資料遷移到 Amazon S3

創建者托尼·韋爾西奇

Summary

此模式描述了將 Apache Hadoop 數據從 Hadoop 分佈式文件系統（HDFS）遷移到 Amazon Simple Storage Service (Amazon S3) 的過程。它使用WANdisco LiveData 移轉程式來自動化資料遷移程序。

先決條件

產品版本

源, 技術, 堆棧

目標技術堆疊

架構

下圖顯示 LiveData 移轉程式解決方案架構。

工作流程包含四個主要元件，用於從現場部署移轉HDFS到 Amazon S3 的資料。

自動化和規模

您通常會建立多個移轉，以便依路徑或目錄從來源檔案系統中選取特定內容。您也可以透過定義多個移轉資源，同時將資料移轉至多個獨立的檔案系統。

任務	描述	所需技能
登入 AWS 帳戶。	登入AWS管理主控台，然後在開啟 Amazon S3 主控台 https://console.aws.amazon.com/s3/。	AWS經驗
建立 S3 儲存貯體。	如果您尚未將現有的 S3 儲存貯體用作目標儲存，請在 Amazon S3 主控台上選擇「建立儲存貯體」選項，然後指定儲存貯體名稱、AWS區域和儲存貯體設定以進行區塊公開存取。AWS並WANdisco建議您啟用 S3 儲存貯體的區塊公開存取選項，並設定儲存貯體存取和使用者權限政策以符合組織的需求。在中提供了一個AWS範例 https://docs.aws.amazon.com/AmazonS3/latest/dev/example-walkthroughs-managing-access-example1.html。	AWS經驗

任務	描述	所需技能
下載 LiveData 移轉程式安裝程式。	下載 LiveData 移轉程式安裝程式，並將其上傳到 Hadoop 邊緣節點。您可以在下載 LiveData 遷移程式的免費試用版，網址為 https://www2.wandisco.com/ldm-trial. You can also obtain access to LiveData Migrator from AWS Marketplace, at https://SZND9AWS.Amazon.com。	Hadoop 管理員，應用程序所有
安裝 LiveData 移轉程式。	使用下載的安裝程式，並將 LiveData Migrate 程式安裝為 Hadoop 叢集中邊緣節點上的HDFS超級使用者。如需安裝指令，請參閱「其他資訊」一節。	Hadoop 管理員，應用程序所有
檢查 LiveData 遷移程式和其他服務的狀態。	使用「其他資訊」部 LiveData 分中提供的命令，檢查移轉程式、Hive 遷移程式和 WANdisco UI 的狀態。	Hadoop 管理員，應用程序所有

任務	描述	所需技能
註冊您的 LiveData 移民帳戶。	通過端口 8081（在 Hadoop 邊緣節點上）上的 Web 瀏覽器登錄到 WANdisco UI，並提供您的詳細信息以進行註冊。例如，如果您在名為 myldmhost.example.com 的主 LiveData 機上執行移轉程式，則會是：http://myldmhost.example.com:8081 URL	應用程式擁
設定來源HDFS儲存裝置。	提供來源儲存所需的組態詳細資HDFS料。這將包括「FS.DefaultFS」值和使用者定義的儲存名稱。如果啟用 Kerberos，請提供主參與者和索引標籤位置供 LiveData 移轉程式使用。如果叢集上已啟用 NameNode HA，請提供邊緣節點上 core-site.xml 和 hdfs-site.xml 檔案的路徑。	Hadoop 管理員，應用程序所有
設定您的目標 Amazon S3 儲存。	將目標儲存區新增為 s3a 類型。提供使用者定義的儲存名稱和 S3 儲存貯體名稱。輸入「登入資料提供者」選項的「impleAWSCredentials提供者」，並提供 S3 儲存貯體的存取權和密碼金鑰。AWS還需要其他 S3a 屬性。如需詳細資訊，請參閱 LiveData 移轉程式文件中的「S3a 屬性」一節，位於 https://docs.wandisco.com/live-data-migrator/ doc filesystem-add-s s/命令參考/# 3a。	AWS，應用程式擁有

任務	描述	所需技能
新增排除項目 (如有需要)。	如果您想要從移轉中排除特定資料集，請為來源HDFS儲存區新增排除項。這些排除可以基於文件大小，文件名（基於正則表達式模式）和修改日期。	Hadoop 管理員，應用程序所有

任務	描述	所需技能
建立和設定移轉。	在 WANdisco UI 的儀表板中創建遷移。選擇您的來源 (HDFS) 和目標 (S3 儲存貯體)。新增您在上一個步驟中定義的新排除項。選取「覆寫」或「大小相符時略過」選項。在所有欄位完成時建立移轉。	Hadoop 管理員，應用程序所有
開始移轉。	在儀表板上，選取您建立的移轉。按一下以開始移轉。您也可以在建立移轉時選擇自動啟動選項，以自動啟動移轉。	應用程式擁

任務	描述	所需技能
設定來源與目標之間的網路頻寬限制。	在儀表板的「儲存空間」清單中，選取您的來源儲存空間，然後在「分組」清單中選取「頻寬管理」。清除無限制選項，並定義最大頻寬限制和單位。選擇「應用」。	應用程式擁有者, 網

任務	描述	所需技能
使用 WANdisco UI 檢視移轉資訊。	使用 WANdisco UI 檢視授權、頻寬、儲存和移轉資訊。使用者介面也提供通知系統，讓您可以接收有關使用中錯誤、警告或重要里程碑的通知。	Hadoop 管理員，應用程序所有
停止、繼續和刪除移轉。	您可以將內容置於STOPPED狀態，以停止移轉將內容傳輸到其目標。停止的遷移可以恢復。STOPPED狀態下的遷移也可以刪除。	Hadoop 管理員，應用程序所有

安裝 LiveData 移轉程式

假設安裝程式位於您的工作目錄中，您可以使用下列指令來安裝 LiveData Migrate 程式：


su – hdfs
chmod +x livedata-migrator.sh && sudo ./livedata-migrator.sh

安裝後檢查 LiveData 移轉程式和其他服務的狀態

使用下列命令來檢查 LiveData 移轉程式、Hive 移轉程式和 WANdisco UI 的狀態：


service livedata-migrator status
service hivemigrator status
service livedata-ui status

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

在上部署和管理無伺服器資料湖 AWS

更多模式