WANdisco LiveData Migrator を使用して Hadoop データを Amazon S3 に移行する

作成者: Tony Velcich

ソース: オンプレミスの Hadoop クラスター	ターゲット: Amazon S3	R タイプ: リホスト
環境:本稼働	テクノロジー: DataLakes、ビッグデータ、ハイブリッドクラウド、移行	ワークロード：その他すべてのワークロード
AWS サービス: Amazon S3

[概要]

このパターンでは、Apache Hadoop データを Hadoop 分散ファイルシステム (HDFS) から Amazon Simple Storage Service (Amazon S3) に移行するプロセスについて説明します。WANdisco LiveData Migrator を使用してデータ移行プロセスを自動化します。

前提条件と制限

前提条件

LiveData Migrator がインストールされる Hadoop クラスターエッジノード。ノードは、以下の要件を満たしている必要があります。
- 最小仕様: 4 GBCPUs、16 GBRAM、100 GB ストレージ。
- 最低 2 Gbps のネットワーク。
- エッジノードでアクセス可能なポート 8081 は、UI WANdisco にアクセスします。
- Java 1.8 64 ビット。
- Hadoop クライアントライブラリがエッジノードにインストールされていること。
- HDFS スーパーユーザーとして認証する機能 (「hdfs」など）。
- Hadoop クラスターで Kerberos が有効になっている場合、HDFSスーパーユーザーに適したプリンシパルを含む有効なキータブがエッジノードで使用可能である必要があります。
- サポートされるオペレーティングシステムのリストについては、「リリースノート」を参照してください。)
S3 バケットにアクセスできるアクティブなAWSアカウント。
オンプレミスの Hadoop クラスター (特にエッジノード) との間に確立された AWS Direct Connect リンクAWS。

製品バージョン

LiveData 移行者 1.8.6
WANdisco UI (OneUI ) 5.8.0

アーキテクチャ

ソーステクノロジースタック

オンプレミスの Hadoop クラスター

ターゲットテクノロジースタック

Amazon S3

アーキテクチャ

次の図は、 LiveData 移行ソリューションアーキテクチャを示しています。

WANdisco LiveData Migrator を使用して、Hadoop データを Amazon S3 に移行するプロセスを自動化します。

ワークフローは、オンプレミスから Amazon S3 HDFSへのデータ移行用の 4 つの主要コンポーネントで構成されます。

LiveData 移行者 – から Amazon S3 HDFSへのデータの移行を自動化し、Hadoop クラスターのエッジノードに存在します。
HDFS – アプリケーションデータへのハイスループットアクセスを提供する分散ファイルシステム。
Amazon S3 – スケーラビリティ、データ可用性、セキュリティ、パフォーマンスを提供するオブジェクトストレージサービスです。
AWS Direct Connect – オンプレミスデータセンターからへの専用ネットワーク接続を確立するサービスAWS。

自動化とスケール

通常、ソースファイルシステムからパスまたはディレクトリで特定のコンテンツを選択できるように、複数の移行を作成します。また、複数の移行リソースを定義することで、データを複数の独立したファイルシステムに同時に移行することもできます。

エピック

タスク	説明	必要なスキル
AWS アカウントにサインインします。	AWS マネジメントコンソールにサインインし、で Amazon S3 コンソールを開きます https://console.aws.amazon.com/s3/。	AWS エクスペリエンス
S3 バケットを作成する。	ターゲットストレージとして使用する既存の S3 バケットがない場合は、Amazon S3 コンソールで「バケットの作成」オプションを選択し、パブリックアクセスをブロックするためのバケット名、AWSリージョン、バケット設定を指定します。AWS と WANdisco では、S3 バケットのパブリックアクセスブロックオプションを有効にし、バケットアクセスポリシーとユーザーアクセス許可ポリシーを設定して、組織の要件を満たすことをお勧めします。AWS 例は、 https://docs.aws.amazon.com/AmazonS3/latest/dev/example-walkthroughs-managing-access-example1.html で提供されています。	AWS エクスペリエンス

タスク	説明	必要なスキル
LiveData Migrator インストーラをダウンロードします。	LiveData Migrator インストーラをダウンロードし、Hadoop エッジノードにアップロードします。 LiveData マイグレーターの無料トライアルは https://www2.wandisco.com/ldm-trial. You can also obtain access to LiveData Migrator from AWS Marketplace, at https://aws.amazon.com/marketplace/pp/B07B8SZND9 からダウンロードできます。	Hadoop 管理者、アプリ所有者
LiveData Migrator をインストールします。	ダウンロードしたインストーラーを使用して、Hadoop クラスターのエッジノードにHDFSスーパーユーザーとして LiveData Migrator をインストールします。インストールコマンドについては、「追加情報」セクションを参照してください。	Hadoop 管理者、アプリ所有者
LiveData 移行者やその他のサービスのステータスを確認します。	「追加情報」セクションで提供されているコマンドを使用して、 LiveData 移行者、Hive 移行者、UI WANdisco のステータスを確認します。	Hadoop 管理者、アプリ所有者

タスク	説明	必要なスキル
LiveData 移行者アカウントを登録します。	ポート WANdisco 8081 (Hadoop エッジノード) のウェブブラウザを使用して UI にログインし、登録の詳細を入力します。例えば、myldmhost.example.com という名前のホストで LiveData Migrator を実行している場合、は次のURLようになります。http://myldmhost.example.com:8081	アプリ所有者
ソースHDFSストレージを設定します。	ソースHDFSストレージに必要な設定の詳細を入力します。これには「fs.DefaultFS」値とユーザー定義のストレージ名が含まれます。Kerberos が有効になっている場合は、 LiveData 移行者が使用するプリンシパルとキータブの場所を指定します。クラスターで NameNode HA が有効になっている場合は、エッジノードの core-site.xml ファイルと hdfs-site.xml ファイルへのパスを指定します。	Hadoop 管理者、アプリ所有者
ターゲット Amazon S3 ストレージを構成します。	ターゲットストレージを S3a タイプとして追加します。ユーザー定義のストレージ名と、S3 バケット名を指定します。認証情報impleAWSCredentialsプロバイダーオプションに「org.apache.hadoop.fs.s3a.S Provider」と入力し、S3 バケットのAWSアクセスキーとシークレットキーを指定します。その他の S3a プロパティも必要になります。詳細については、 https://docs.wandisco.com/live-data-migrator/docs/command-reference/#3a の LiveData 「移行者ドキュメント」の「Sfilesystem-add-s3a Properties」セクションを参照してください。	AWS、アプリケーション所有者

タスク	説明	必要なスキル
除外を追加 (必要な場合)。	移行から特定のデータセットを除外する場合は、ソースHDFSストレージの除外を追加します。これらの除外は、ファイルサイズ、ファイル名 (正規表現パターンに基づく)、および変更日に基づいて設定できます。	Hadoop 管理者、アプリ所有者

タスク	説明	必要なスキル
移行を作成して構成します。	UI WANdisco のダッシュボードで移行を作成します。ソース (HDFS) とターゲット (S3 バケット) を選択します。前のステップで定義した新しい除外を追加します。[上書き] または [サイズが一致した場合はスキップ] オプションのいずれかを選択します。すべてのフィールドに入力したら、移行を作成します。	Hadoop 管理者、アプリ所有者
移行を開始します。	ダッシュボードで、作成した移行を選択します。クリックして移行を開始します。また、移行の作成時に自動開始オプションを選択して、移行を自動的に開始することもできます。	アプリ所有者

タスク	説明	必要なスキル
送信元とターゲット間のネットワーク帯域幅の制限を設定します。	ダッシュボードのストレージリストでソースストレージを選択し、グループリストで [帯域幅管理] を選択します。無制限オプションを解除して、最大帯域幅制限と単位を指定します。[Apply (適用)] を選択します。	アプリ所有者、ネットワーク

タスク	説明	必要なスキル
UI WANdisco を使用して移行情報を表示します。	WANdisco UI を使用して、ライセンス、帯域幅、ストレージ、移行情報を表示します。この UI には通知システムも装備されているため、エラー、警告、使用状況における重要なマイルストーンに関する通知を受け取ることができます。	Hadoop 管理者、アプリ所有者
移行を停止、再開、削除します。	コンテンツを STOPPED状態にすることで、ターゲットへのコンテンツの転送を停止できます。停止した移行は再開できます。STOPPED 状態の移行も削除できます。	Hadoop 管理者、アプリ所有者

追加情報

LiveData 移行ツールのインストール

インストーラが作業ディレクトリ内にあると仮定して、次のコマンドを使用して LiveData Migrator をインストールできます。


su – hdfs
chmod +x livedata-migrator.sh && sudo ./livedata-migrator.sh

インストール後の LiveData 移行者およびその他のサービスのステータスの確認

次のコマンドを使用して、 LiveData 移行者、Hive 移行者、UI WANdisco のステータスを確認します。


service livedata-migrator status
service hivemigrator status
service livedata-ui status

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

でサーバーレスデータレイクをデプロイおよび管理 AWS

その他のパターン