オンプレミスの Cloudera ワークロードを AWS 上の Cloudera データプラットフォームに移行する - AWS 規範ガイダンス

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

オンプレミスの Cloudera ワークロードを AWS 上の Cloudera データプラットフォームに移行する

環境:PoC またはパイロット

ソース: Cloudera ワークロード

ターゲット: Cloudera データプラットフォーム (CDP) パブリッククラウド

Rタイプ:該当なし

ワークロード:その他すべてのワークロード

テクノロジー:移行、ビッグデータ、データベース、分析

AWS サービス: Amazon EC2、Amazon EKS、AWS Identity and Access Management、Amazon S3、Amazon RDS

[概要]

このパターンでは、オンプレミスの Cloudera 分散 Hadoop (CDH)、Hortonworks データプラットフォーム (HDP)、および Cloudera データプラットフォーム (CDP) のワークロードを AWS 上の CDP パブリッククラウドに移行するための概要レベルの手順を説明しています。Cloudera プロフェッショナルサービスおよびシステムインテグレーター (SI) と提携して、これらのステップを実装することをお勧めします。

Cloudera のお客様がオンプレミスの CDH、HDP、CDP のワークロードをクラウドに移行したいと思う理由はたくさんあります。一般的な理由は以下のとおりです。

  • データレイクハウスやデータメッシュなどの新しいデータプラットフォームパラダイムの採用を効率化します。

  • ビジネスの俊敏性を高め、既存のデータ資産へのアクセスと推論を民主化します。

  • 総保有コスト (TCO) が低くなります

  • ワークロードの伸縮自在性を強化

  • 従来のオンプレミスのインストールベースと比較して、スケーラビリティを高め、データサービスのプロビジョニングにかかる時間を大幅に短縮できます。

  • レガシーハードウェアを廃止、ハードウェアの更新サイクルを大幅に短縮

  • Cloudera ライセンスモデル (CCU) を使用して AWS の Cloudera ワークロードに拡張された pay-as-you-go 料金を利用する

  • 継続的インテグレーションおよび継続的デリバリー (CI/CD) のプラットフォームにより、より迅速な導入や統合の強化を活用する

  • 単一の統合プラットフォーム (CDP) で複数のワークロードに対応

Clouderaは、機械学習、データエンジニアリング、データウェアハウス、オペレーショナルデータベース、ストリーム処理 (CSP)、データセキュリティとガバナンスなど、主要なワークロードをすべてサポートします。Cloudera はこれらのワークロードを長年にわたりオンプレミスで提供してきました。ワークロードマネージャーとレプリケーションマネージャーを備えた CDP パブリッククラウドを使用することで、これらのワークロードを AWS クラウドに移行できます。 

Cloudera Shared Data Experience (SDX) では、これらのワークロード全体で共有メタデータカタログが提供されるため、一貫したデータ管理と運用が容易になります。SDX には、脅威から保護するための包括的できめ細かなセキュリティと、ペイメントカード業界データセキュリティ標準 (PCI DSS) や GDPR などの標準に準拠するための監査および検索機能の統合ガバナンスも含まれています。 

一見してのCDP の移行

 

 

 

ワークロード

ソースワークロード

CDH、HDP、および CDP プライベートクラウド

ソース環境

  • Windows、Linux

  • オンプレミス、コロケーション、または AWS 以外の環境

送信先ワークロード

AWS 上の CDP パブリッククラウド

送信先環境

  • 導入モデル:顧客アカウント

  • 運用モデル:カスタマー/Cloudera コントロールプレーン

 

 

移行

移行戦略 (「7Rs」)

リホスト、リプラットフォーム、リファクタリング

これはワークロードのバージョンアップですか?

はい

移行期間

  • 導入:顧客アカウント、仮想プライベートクラウド (VPC)、CDP Public Cloud 顧客管理環境の作成に約 1 週間かかります。

  • 移行期間:ワークロードの複雑さと規模にもよりますが、1 ~ 4 か月。

コスト

AWS でのワークロードの実行コスト

  • 高いレベルでは、AWS への CDH ワークロード移行のコストは、AWS 上に新しい環境を構築することを前提としている。これには、新しい環境向けのコンピューティングリソースとライセンスソフトウェアのプロビジョニングに加えて、人員の時間と労力を考慮することが含まれます。

  • Cloudera のクラウド使用量ベースの価格モデルでは、バースト機能と自動スケーリング機能を柔軟に活用できます。詳細については、Cloudera ウェブサイトの「CDP パブリッククラウドサービス料金」をご覧ください。

  • Cloudera のエンタープライズ「データハブ」は Amazon Elastic Compute Cloud (Amazon EC2) をベースに、従来のクラスターを忠実にモデル化しています。データハブは「カスタマイズ」可能ですが、これはコストに影響します。

  • CDP パブリッククラウドデータウェアハウス」、「Cloudera 機械学習」、および「Cloudera データエンジニアリング (CDE)」はコンテナベースで、自動的にスケーリングするように設定できます。

 

 

インフラストラクチャー契約とフレームワーク

システム要件

前提条件」セクションを参照してください。

SLA

CDP パブリッククラウドに関する Cloudera サービスレベル契約」を参照してください。

DR

Cloudera ドキュメントの「ディザスタリカバリ」を参照してください。

ライセンスと運用モデル (ターゲット AWSアカウントの場合)

Bring Your Own License (BYOL) モデル

 

コンプライアンス

セキュリティ要件

Cloudera ドキュメントの「Cloudera セキュリティの概要」を参照してください。

その他の「コンプライアンス認証

一般データ保護規則 (GDPR)」の遵守と「CDP トラストセンター」については、Cloudera のウェブサイトに掲載されている情報をご覧ください。

前提条件と制限

前提条件

移行には以下の役割と専門知識が必要です。

ロール

スキルと責任

移行リード

経営陣のサポート、チームコラボレーション、計画、実装、評価を保証する

Cloudera SME

CDH、HDP、CDP の管理、システム管理、アーキテクチャに関する専門スキル

AWS アーキテクト

AWS のサービス、ネットワーク、セキュリティ、アーキテクチャのスキル

アーキテクチャ

適切なアーキテクチャを構築することは、移行とパフォーマンスを確実に期待に応えるための重要なステップです。移行作業がこのプレイブックの前提条件を満たすようにするには、仮想プライベートクラウド (VPC) ホストインスタンスまたは CDP 上の AWS クラウド内のターゲットデータ環境が、オペレーティングシステムとソフトウェアのバージョン、および主要なマシン仕様の点でソース環境と同等である必要があります。

以下の図(「Cloudera Shared Data Experience データシート」から許可を得て複製)は、CDP 環境のインフラストラクチャコンポーネントと、階層またはインフラストラクチャコンポーネントがどのように相互作用するかを示しています。

CDP 環境コンポーネント

アーキテクチャには以下の CDP コンポーネントが含まれます。

  • データハブは Cloudera Runtime を搭載したワークロードクラスターを起動および管理するためのサービスです。データハブのクラスター定義を使用して、カスタムユースケース向けにワークロードクラスターをプロビジョニングしてアクセスしたり、カスタムクラスター構成を定義したりできます。詳細については、「Cloudera のウェブサイト」を参照してください。

  • データフローとストリーミングは、データが移動する中で企業が直面する主な課題に対処します。以下のような管理をしています。

    • 高ボリュームおよび高スケールでのリアルタイムデータストリーミングの処理

    • ストリーミングデータの出所とリネージのトラッキング

    • エッジアプリケーションとストリーミングソースの管理と監視

    詳細については、Cloudera DataFlow ウェブサイトの「Cloudera と CSP」を参照してください。

  • データエンジニアリングには、組織がデータパイプラインとワークフローを構築し維持するのに役立つデータ統合、データ品質、データガバナンスが含まれます。詳細については、「Cloudera のウェブサイト」を参照してください。Cloudera Data Engineering ワークロードの「AWS でのコスト削減を促進するスポットインスタンスのサポート」についてご覧ください。

  • Data Warehouse を利用すると、ワークロードの需要に応じて自動的にスケーリングする独立したデータウェアハウスとデータマートを作成できます。このサービスでは、データウェアハウスとデータマートごとに独立したコンピューティングインスタンスと自動最適化が可能になり、SLA を満たしながらコストを節約できます。詳細については、「Cloudera のウェブサイト」を参照してください。AWS 上の Cloudera データウェアハウスの「コスト管理」と「自動スケーリング」について学びましょう。

  • CDP のオペレーショナルデータベースは、スケーラブルで高性能なアプリケーションのための信頼性が高く柔軟な基盤を提供します。運用とウェアハウジングの統合プラットフォーム内で、従来の構造化データだけでなく新しい非構造化データも提供する、リアルタイムで、いつでも利用可能な、スケーラブルなデータベースを実現します。詳細については、「Cloudera のウェブサイト」を参照してください。

  • Machine Learning は、セルフサービスのデータサイエンスとデータエンジニアリング機能をエンタープライズデータクラウド内の単一のポータブルサービスに統合するクラウドネイティブな機械学習プラットフォームです。機械学習と人工知能 (AI) をどこにでもデータにスケーラブルに展開できます。詳細については、「Cloudera のウェブサイト」を参照してください。

AWS 上の CDP

以下の図 (Cloudera ウェブサイトからの許可を得て改変) は、AWS 上の CDP の大まかなアーキテクチャを示しています。CDP は「独自のセキュリティモデル」を実装して、アカウントとデータフローの両方を管理しています。これらは「クロスアカウントロール」を使用して「IAM」と統合されます。 

CDP on AWS の概要レベルのアーキテクチャ

CDP コントロールプレーンは、独自の VPC の Cloudera マスターアカウントにあります。各顧客アカウントには独自のサブアカウントと固有の VPC があります。クロスアカウントIAMロールとSSLテクノロジーは、コントロールプレーン間の管理トラフィックを、各顧客VPC 内のインターネットでルーティング可能なパブリックサブネットにあるカスタマーサービスにルーティングします。お客様のVPC では、Cloudera Shared Data Experience(SDX)が統合ガバナンスとコンプライアンスを備えたエンタープライズクラスのセキュリティを実現し、データからより迅速に洞察を引き出すことができます。SDX は Cloudera のすべての製品に組み込まれている設計哲学です。「SDX」と「AWS 向けの CDP パブリッククラウドネットワークアーキテクチャ」の詳細については、「Cloudera のドキュメント」を参照してください。

ツール

サービス

  • Amazon Elastic Compute Cloud (Amazon EC2)」は、AWS クラウドでスケーラブルなコンピューティング容量を提供します。必要な数の仮想サーバーを起動することができ、迅速にスケールアップまたはスケールダウンができます。

  • Amazon Elastic Kubernetes Service (Amazon EKS)」は、AWS で Kubernetes を実行する際に役立ち、独自の Kubernetes コントロールプレーンまたはノードをインストールまたは維持する必要はありません。

  • AWS Identity and Access Management (IAM)」は、AWS リソースへのアクセスを安全に管理し、誰が認証され、使用する権限があるかを制御するのに役立ちます。

  • Amazon Relational Database Service (Amazon RDS) を使用して、AWS クラウドでリレーショナルデータベース (DB) をセットアップ、運用、スケーリングできます。

  • Amazon Simple Storage Service (Amazon S3) は、どのようなデータ量であっても、データを保存、保護、取得することを支援するクラウドベースのオブジェクトストレージサービスです。

オートメーションとツール

エピック

タスク説明必要なスキル

Cloudera チームと連携してください。

Cloudera は顧客との標準化されたエンゲージメントモデルを追求しており、貴社のシステムインテグレーター (SI) と協力して同じアプローチを推進することができます。Cloudera のカスタマーチームに連絡すれば、プロジェクトを開始するためのガイダンスや必要な技術リソースを提供してもらえます。Cloudera チームに連絡することで、移行日が近づいたら、必要なすべてのチームが移行の準備を整えることができます。 

Cloudera プロフェッショナルサービスに連絡して、Cloudera の導入をパイロット版から本番環境に迅速に、低コストで、最高のパフォーマンスで移行できます。サービスの詳細なリストについては、「Cloudera ウェブサイト」を参照してください。

移行リード

VPC 用の CDP パブリッククラウド環境を AWS 上に作成します。

Cloudera プロフェッショナルサービスまたは SI と連携して CDP パブリッククラウドを計画し、AWS 上の VPC にデプロイします。

Cloudera 中小企業のクラウドアーキテクト

移行するワークロードに優先順位を付け、評価する。

オンプレミスのすべてのワークロードを評価して、移行が最も簡単なワークロードを決定します。ミッションクリティカルではないアプリケーションは、顧客への影響が最小限になるため、最初に移行するのが最適です。ミッションクリティカルなワークロードは、他のワークロードの移行に成功したら、最後に保存しておきます。

注:一時的な (CDP データエンジニアリング) ワークロードは、永続的な (CDP データウェアハウス) ワークロードよりも移行が簡単です。移行の際には、データ量と場所を考慮することも重要です。課題としては、データをオンプレミス環境からクラウドに継続的に複製することや、データをクラウドに直接インポートするようにデータインジェストパイプラインを変更することが挙げられます。

移行リード

CDH、HDP、CDP、レガシーアプリケーションの移行アクティビティについて話し合う。

Cloudera ワークロードマネージャーを使用して、以下のアクティビティを検討し、計画を開始してください。

  • AWS 環境にコピーするデータとワークロード

  • クラウド対応データ

  • リソースを使い果たし、他のテナントに迷惑をかける騒がしい隣人

  • 伸縮自在なワークロード

  • 運用上のオーバーヘッドが高い小規模クラスター

移行リード

Cloudera レプリケーションマネージャーの要件と推奨事項をすべて記入してください。

Cloudera プロフェッショナルサービスおよび SI と協力して、AWS 上の CDP パブリッククラウド環境にワークロードを移行する準備をしてください。 以下の要件と推奨事項を理解しておくと、Replication Manager サービスのインストール中およびインストール後に発生する一般的な問題を回避するのに役立ちます。

  • Replication Managerのサポートドキュメントを確認して、環境とシステムの要件を満たしていることを確認してください。詳細については、Cloudera ウェブサイトの「CDP パブリッククラウドレプリケーションマネージャーサポートマトリックス」を参照してください。

  • Replication Manager アプリとデータライフサイクルマネージャ (DLM) エンジンがインストールされるノードへのルートアクセスは必要ありません。

  • 将来的に Hive レプリケーションを使用しないことが確実でない限り、Replication Manager の初回インストール時に Apache Hive をインストールします。Replication Manager で HDFS レプリケーションポリシーを作成した後でHive をインストールする場合は、Hive を追加した後ですべての HDFS レプリケーションポリシーを削除してから再作成する必要があります。

  • Replication Manager で使用されるクラスターは、対称的な構成になっている必要があります。レプリケーション・リレーションシップ内の各クラスターは、セキュリティ (Kerberos)、ユーザー管理 (LDAP/AD)、Knox Proxyに関してまったく同じように構成されている必要があります。Hadoop 分散ファイルシステム (HDFS)、Apache Hive、Apache Knox、Apache Ranger、Apache Atlas などのクラスターサービスは、高可用性 (HA) を実現するために異なる構成にすることができます。たとえば、ソースクラスターとターゲットクラスターには HA 構成と非 HA 構成が別々になっている場合があります。

移行リード
タスク説明必要なスキル

Cloudera ワークロードマネージャーを使用して、開発/テスト環境の最初のワークロードを移行します。

SI は、最初のワークロードを AWS クラウドに移行するのに役立ちます。これは、顧客向けのものでもミッションクリティカルなものでもないアプリケーションでなければなりません。開発/テスト移行の理想的な候補は、CDP Data Engineering ワークロードなど、クラウドで簡単にデータを取り込めるアプリケーションです。これは、中断のないアクセスを必要とする多数のユーザーがいる可能性のある CDP データウェアハウスワークロードのような永続的なワークロードと比較して、通常はアクセスするユーザーが少ない一時的なワークロードです。データエンジニアリングのワークロードは永続的ではないため、何か問題が発生した場合のビジネスへの影響を最小限に抑えることができます。ただし、これらのジョブはプロダクションレポートにとって重要になる可能性があるため、影響の少ないデータエンジニアリングのワークロードを最初に優先してください。

移行リード

必要に応じて移行手順を繰り返します。

Cloudera ワークロードマネージャーは、クラウドに最適なワークロードを特定するのに役立ちます。クラウドのパフォーマンス評価、ターゲット環境のサイジング/キャパシティプラン、レプリケーションプランなどの指標を提供します。移行に最適な候補は、季節的なワークロード、臨時のレポート、リソースをあまり消費しない断続的なジョブです。

Cloudera Replication Managerは、データをオンプレミスからクラウドへ、そしてクラウドからオンプレミスへと移動します。

ワークロードマネージャーを使用して、データウェアハウス、データエンジニアリング、機械学習のワークロード、アプリケーション、パフォーマンス、インフラストラクチャ容量をプロアクティブに最適化します。データウェアハウスをモダナイズする方法の詳細なガイドについては、「Cloudera ウェブサイト」をご覧ください。

Cloudera SME

関連リソース

Cloudera ドキュメント

AWS ドキュメント