使WANdisco LiveData 用移轉程式將 Hadoop 資料遷移到 Amazon S3 - AWS 方案指引

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

使WANdisco LiveData 用移轉程式將 Hadoop 資料遷移到 Amazon S3

創建者托尼·韋爾西奇

來源:內部部署 Hadoop 群集

目標:Amazon S3

R 類型:重新主機

環境:生產

技術: DataLakes; 大數據; 混合雲; 遷移

工作負載:所有其他工作

AWS服務:Amazon S3

Summary

此模式描述了將 Apache Hadoop 數據從 Hadoop 分佈式文件系統(HDFS)遷移到 Amazon Simple Storage Service (Amazon S3) 的過程。它使用WANdisco LiveData 移轉程式來自動化資料遷移程序。

先決條件和限制

先決條件

  • Hadoop 的集群邊緣節點,其中 LiveData 遷移將被安裝。節點應符合下列需求:

    • 最低規格:4CPUs,16 GBRAM,100 GB 的存儲空間。

    • 最低 2 Gbps 的網路速度。

    • 可在邊緣節點上存取的連接埠 8081 以存取 WANdisco UI。

    • Java 1.8 64 位。

    • 安裝在邊緣節點上的 Hadoop 客戶端庫。

    • 能夠以HDFS超級用戶身份進行身份驗證(例如,「hdfs」)。

    • 如果您的 Hadoop 叢集上已啟用 Kerberos,邊緣節點上必須有包含HDFS超級使用者適合主體的有效金鑰索引標籤。

    • 如需支援的作業系統清單,請參閱版本說明。

  • 可存取 S3 儲存貯體的作用中AWS帳戶。

  • 在內部部署 Hadoop 叢集 (特別是AWS邊緣節點) 和AWS.

產品版本

  • LiveData 移民者

  • WANdisco使用者介面 (單一) 5.8.0

架構

源, 技術, 堆棧

  • 內部部署 Hadoop 叢集

目標技術堆疊

  • Amazon S3

架構

下圖顯示 LiveData 移轉程式解決方案架構。

使用WANdisco LiveData 移轉工具將 Hadoop 資料遷移到 Amazon S3 的程序自動化。

工作流程包含四個主要元件,用於從現場部署移轉HDFS到 Amazon S3 的資料。

  • LiveData 移轉程式 — 自動將資料從 HDFS Amazon S3 遷移,並位於 Hadoop 叢集的邊緣節點上。

  • HDFS— 提供對應用程式資料的高輸送量存取的分散式檔案系統。

  • Amazon S3 — 提供可擴展性、資料可用性、安全性和效能的物件儲存服務。

  • AWS直 Connect 線 — 建立從內部部署資料中心到的專用網路連線的服務AWS。

自動化和規模

您通常會建立多個移轉,以便依路徑或目錄從來源檔案系統中選取特定內容。您也可以透過定義多個移轉資源,同時將資料移轉至多個獨立的檔案系統。

史诗

任務描述所需技能

登入 AWS 帳戶。

登入AWS管理主控台,然後在開啟 Amazon S3 主控台 https://console.aws.amazon.com/s3/。

AWS經驗

建立 S3 儲存貯體。

如果您尚未將現有的 S3 儲存貯體用作目標儲存,請在 Amazon S3 主控台上選擇「建立儲存貯體」選項,然後指定儲存貯體名稱、AWS區域和儲存貯體設定以進行區塊公開存取。AWS並WANdisco建議您啟用 S3 儲存貯體的區塊公開存取選項,並設定儲存貯體存取和使用者權限政策以符合組織的需求。在中提供了一個AWS範例 https://docs.aws.amazon.com/AmazonS3/latest/dev/example-walkthroughs-managing-access-example1.html。

AWS經驗
任務描述所需技能

下載 LiveData 移轉程式安裝程式。

下載 LiveData 移轉程式安裝程式,並將其上傳到 Hadoop 邊緣節點。您可以在下載 LiveData 遷移程式的免費試用版,網址為 https://www2.wandisco.com/ldm-trial. You can also obtain access to LiveData Migrator from AWS Marketplace, at https://SZND9AWS.Amazon.com。

Hadoop 管理員,應用程序所有

安裝 LiveData 移轉程式。

使用下載的安裝程式,並將 LiveData Migrate 程式安裝為 Hadoop 叢集中邊緣節點上的HDFS超級使用者。如需安裝指令,請參閱「其他資訊」一節。

Hadoop 管理員,應用程序所有

檢查 LiveData 遷移程式和其他服務的狀態。

使用「其他資訊」部 LiveData 分中提供的命令,檢查移轉程式、Hive 遷移程式和 WANdisco UI 的狀態。

Hadoop 管理員,應用程序所有
任務描述所需技能

註冊您的 LiveData 移民帳戶。

通過端口 8081(在 Hadoop 邊緣節點上)上的 Web 瀏覽器登錄到 WANdisco UI,並提供您的詳細信息以進行註冊。例如,如果您在名為 myldmhost.example.com 的主 LiveData 機上執行移轉程式,則會是:http://myldmhost.example.com:8081 URL

應用程式擁

設定來源HDFS儲存裝置。

提供來源儲存所需的組態詳細資HDFS料。這將包括「FS.DefaultFS」值和使用者定義的儲存名稱。如果啟用 Kerberos,請提供主參與者和索引標籤位置供 LiveData 移轉程式使用。如果叢集上已啟用 NameNode HA,請提供邊緣節點上 core-site.xml 和 hdfs-site.xml 檔案的路徑。

Hadoop 管理員,應用程序所有

設定您的目標 Amazon S3 儲存。

將目標儲存區新增為 s3a 類型。提供使用者定義的儲存名稱和 S3 儲存貯體名稱。輸入「登入資料提供者」選項的「impleAWSCredentials提供者」,並提供 S3 儲存貯體的存取權和密碼金鑰。AWS還需要其他 S3a 屬性。如需詳細資訊,請參閱 LiveData 移轉程式文件中的「S3a 屬性」一節,位於 https://docs.wandisco.com/live-data-migrator/ doc filesystem-add-s s/命令參考/# 3a。

AWS,應用程式擁有
任務描述所需技能

新增排除項目 (如有需要)。

如果您想要從移轉中排除特定資料集,請為來源HDFS儲存區新增排除項。這些排除可以基於文件大小,文件名(基於正則表達式模式)和修改日期。

Hadoop 管理員,應用程序所有
任務描述所需技能

建立和設定移轉。

在 WANdisco UI 的儀表板中創建遷移。選擇您的來源 (HDFS) 和目標 (S3 儲存貯體)。新增您在上一個步驟中定義的新排除項。選取「覆寫」或「大小相符時略過」選項。在所有欄位完成時建立移轉。

Hadoop 管理員,應用程序所有

開始移轉。

在儀表板上,選取您建立的移轉。按一下以開始移轉。您也可以在建立移轉時選擇自動啟動選項,以自動啟動移轉。

應用程式擁
任務描述所需技能

設定來源與目標之間的網路頻寬限制。

在儀表板的「儲存空間」清單中,選取您的來源儲存空間,然後在「分組」清單中選取「頻寬管理」。清除無限制選項,並定義最大頻寬限制和單位。選擇「應用」。

應用程式擁有者, 網
任務描述所需技能

使用 WANdisco UI 檢視移轉資訊。

使用 WANdisco UI 檢視授權、頻寬、儲存和移轉資訊。使用者介面也提供通知系統,讓您可以接收有關使用中錯誤、警告或重要里程碑的通知。

Hadoop 管理員,應用程序所有

停止、繼續和刪除移轉。

您可以將內容置於STOPPED狀態,以停止移轉將內容傳輸到其目標。停止的遷移可以恢復。STOPPED狀態下的遷移也可以刪除。

Hadoop 管理員,應用程序所有

相關資源

其他資訊

安裝 LiveData 移轉程式

假設安裝程式位於您的工作目錄中,您可以使用下列指令來安裝 LiveData Migrate 程式:

su – hdfs chmod +x livedata-migrator.sh && sudo ./livedata-migrator.sh

安裝後檢查 LiveData 移轉程式和其他服務的狀態

使用下列命令來檢查 LiveData 移轉程式、Hive 移轉程式和 WANdisco UI 的狀態:

service livedata-migrator status service hivemigrator status service livedata-ui status