でオンプレミスの Cloudera ワークロードを Cloudera Data Platform に移行する AWS - AWS 規範ガイダンス

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

でオンプレミスの Cloudera ワークロードを Cloudera Data Platform に移行する AWS

作成者: Battulga Purevragchaa (AWS)、Nijjwol Lamsal (パートナー)、Nidhi Gupta (AWS)

環境:PoC またはパイロット

ソース: Cloudera ワークロード

ターゲット: Cloudera データプラットフォーム (CDP) パブリッククラウド

R タイプ: 該当なし

ワークロード:その他すべてのワークロード

テクノロジー: 移行、ビッグデータ、データベース、分析

AWS サービス: Amazon EC2、Amazon EKS、AWSアイデンティティとアクセス管理、Amazon S3、Amazon RDS

[概要]

このパターンでは、オンプレミスの Cloudera Distributed Hadoop (CDH)、Hortonworks Data Platform (HDP)、および Cloudera Data Platform (CDP) ワークロードを のCDPパブリッククラウドに移行するための大まかな手順について説明しますAWS。Cloudera プロフェッショナルサービスおよびシステムインテグレーター (SI) と提携して、これらのステップを実装することをお勧めします。

Cloudera のお客様がオンプレミスの CDH、HDP、CDPワークロードをクラウドに移行したい理由は多数あります。一般的な理由は以下のとおりです。

  • データレイクハウスやデータメッシュなどの新しいデータプラットフォームパラダイムの採用を効率化します。

  • ビジネスの俊敏性を高め、既存のデータ資産へのアクセスと推論を民主化します。

  • 総所有コストの削減 (TCO)

  • ワークロードの伸縮自在性を強化

  • 従来のオンプレミスのインストールベースと比較して、スケーラビリティを高め、データサービスのプロビジョニングにかかる時間を大幅に短縮できます。

  • レガシーハードウェアを廃止、ハードウェアの更新サイクルを大幅に短縮

  • Cloudera ライセンスモデル (CCU) AWSを使用して の Cloudera ワークロードに拡張される pay-as-you-go 料金を利用する

  • 継続的インテグレーションおよび継続的デリバリー (CI/CD) のプラットフォームにより、より迅速な導入や統合の強化を活用する

  • 複数のワークロードに単一の統合プラットフォーム (CDP) を使用する

Cloudera は、Machine Learning、データエンジニアリング、データウェアハウス、運用データベース、ストリーム処理 (CSP)、データセキュリティとガバナンスなど、すべての主要なワークロードをサポートしています。Cloudera はこれらのワークロードを長年オンプレミスで提供しており、ワークロードマネージャーとレプリケーションマネージャーでCDPパブリッククラウドAWSを使用することで、これらのワークロードをクラウドに移行できます。 

Cloudera Shared Data Experience (SDX) は、一貫したデータ管理とオペレーションを容易にするために、これらのワークロード間で共有メタデータカタログを提供します。SDX には、脅威から保護するための包括的できめ細かなセキュリティ、および Payment Card Industry Data Security Standard (PCI DSS) や などの標準に準拠するための監査および検索機能の統合ガバナンスも含まれていますGDPR。 

CDP 移行の概要

 

 

 

ワークロード

ソースワークロード

CDH、HDP、CDPプライベートクラウド

ソース環境

  • Windows、Linux

  • オンプレミス、コロケーション、または非AWS環境

送信先ワークロード

CDP のパブリッククラウド AWS

送信先環境

  • 導入モデル:顧客アカウント

  • 運用モデル:カスタマー/Cloudera コントロールプレーン

 

 

移行

移行戦略 (「7Rs」)

リホスト、リプラットフォーム、リファクタリング

これはワークロードのバージョンアップですか?

可能

移行期間

  • デプロイ: カスタマーアカウント、仮想プライベートクラウド (VPC)、CDPおよびパブリッククラウドのカスタマーマネージド環境を作成するのに約 1 週間かかります。

  • 移行期間:ワークロードの複雑さと規模にもよりますが、1 ~ 4 か月。

コスト

でワークロードを実行するコスト AWS

  • 大まかに言えば、 のCDHワークロード移行のコストは、 に新しい環境を確立することをAWS前提としていますAWS。これには、新しい環境向けのコンピューティングリソースとライセンスソフトウェアのプロビジョニングに加えて、人員の時間と労力を考慮することが含まれます。

  • Cloudera のクラウド使用量ベースの価格モデルでは、バースト機能と自動スケーリング機能を柔軟に活用できます。詳細については、Cloudera ウェブサイトのCDP「パブリック クラウド サービス料金」を参照してください。

  • Cloudera Enterprise Data Hub は Amazon Elastic Compute Cloud (Amazon EC2) に基づいており、従来のクラスターを綿密にモデル化しています。データハブは「カスタマイズ」可能ですが、これはコストに影響します。

  • CDP Public Cloud Data Warehouse Cloudera Machine Learning Cloudera Data Engineering (CDE) はコンテナベースであり、自動的にスケーリングするように設定できます。

 

 

インフラストラクチャー契約とフレームワーク

システム要件

前提条件」セクションを参照してください。

SLA

「Cloudera Service Level Agreement for CDP Public Cloud」を参照してください。

DR

Cloudera ドキュメントの「ディザスタリカバリ」を参照してください。

ライセンスと運用モデル (ターゲットAWSアカウント用)

Bring Your Own License (BYOL) モデル

 

コンプライアンス

セキュリティ要件

Cloudera ドキュメントの「Cloudera セキュリティの概要」を参照してください。

その他の「コンプライアンス認証

一般データ保護規則 (GDPR) のコンプライアンスとCDPトラストセンターについては、Cloudera ウェブサイトの情報を参照してください。

前提条件と制限

前提条件

移行には以下の役割と専門知識が必要です。

ロール

スキルと責任

移行リード

経営陣のサポート、チームコラボレーション、計画、実装、評価を保証する

Cloudera SME

CDH、HDP、 CDP管理、システム管理、アーキテクチャにおけるエキスパートスキル

AWS アーキテクト

AWS サービス、ネットワーク、セキュリティ、アーキテクチャのスキル

アーキテクチャ

適切なアーキテクチャを構築することは、移行とパフォーマンスを確実に期待に応えるための重要なステップです。このプレイブックの前提条件を満たすための移行の取り組みでは、仮想プライベートクラウド (VPC) ホストインスタンスまたは のいずれかのAWSクラウド内のターゲットデータ環境はCDP、オペレーティングシステムとソフトウェアバージョン、および主要なマシン仕様の観点から、ソース環境と同等である必要があります。

次の図 (Cloudera Shared Data Experience データシート からのアクセス許可で再現) は、CDP環境のインフラストラクチャコンポーネントと、階層またはインフラストラクチャコンポーネントの相互作用を示しています。

CDP 環境コンポーネント

アーキテクチャには、次のCDPコンポーネントが含まれます。

  • データハブは Cloudera Runtime を搭載したワークロードクラスターを起動および管理するためのサービスです。データハブのクラスター定義を使用して、カスタムユースケース向けにワークロードクラスターをプロビジョニングしてアクセスしたり、カスタムクラスター構成を定義したりできます。詳細については、「Cloudera のウェブサイト」を参照してください。

  • データフローとストリーミングは、データが移動する中で企業が直面する主な課題に対処します。以下のような管理をしています。

    • 高ボリュームおよび高スケールでのリアルタイムデータストリーミングの処理

    • ストリーミングデータの出所とリネージのトラッキング

    • エッジアプリケーションとストリーミングソースの管理と監視

    詳細については、Cloudera DataFlow ウェブサイトCSPの「Cloudera と」を参照してください。

  • データエンジニアリングには、組織がデータパイプラインとワークフローを構築し維持するのに役立つデータ統合、データ品質、データガバナンスが含まれます。詳細については、「Cloudera のウェブサイト」を参照してください。Cloudera Data Engineering ワークロードのコスト削減を容易にするためのスポットインスタンスのサポートAWSについて説明します。

  • Data Warehouse を利用すると、ワークロードの需要に応じて自動的にスケーリングする独立したデータウェアハウスとデータマートを作成できます。このサービスは、各データウェアハウスとデータマートに対して分離されたコンピューティングインスタンスと自動最適化を提供し、 を満たしながらコストを削減するのに役立ちますSLAs。詳細については、「Cloudera のウェブサイト」を参照してください。での Cloudera Data Warehouse のコスト管理自動スケーリングについて説明しますAWS。

  • の運用データベースCDPは、スケーラブルで高性能なアプリケーションのための信頼性と柔軟性に優れた基盤を提供します。運用とウェアハウジングの統合プラットフォーム内で、従来の構造化データだけでなく新しい非構造化データも提供する、リアルタイムで、いつでも利用可能な、スケーラブルなデータベースを実現します。詳細については、「Cloudera のウェブサイト」を参照してください。

  • Machine Learning は、セルフサービスのデータサイエンスとデータエンジニアリング機能をエンタープライズデータクラウド内の単一のポータブルサービスに統合するクラウドネイティブな機械学習プラットフォームです。機械学習と人工知能 (AI) をどこにでもデータにスケーラブルに展開できます。詳細については、「Cloudera のウェブサイト」を参照してください。

CDP 上の AWS

次の図 (Cloudera ウェブサイトからのアクセス許可に合わせて適応) は、 CDP上の の高レベルアーキテクチャを示していますAWS。CDP は、独自のセキュリティモデルを実装して、アカウントとデータフローの両方を管理します。これらは、クロスアカウントロール IAM を使用して と統合されます。 

CDP AWS高レベルアーキテクチャ

CDP コントロールプレーンは、独自の の Cloudera マスターアカウントにありますVPC。各カスタマーアカウントには、独自のサブアカウントと一意の がありますVPC。クロスアカウントIAMロールとSSLテクノロジーは、コントロールプレーンとの間で管理トラフィックを、各顧客内のインターネットルーティング可能なパブリックサブネットに存在するカスタマーサービスにルーティングしますVPC。お客様の ではVPC、Cloudera 共有データエクスペリエンス (SDX) は、統合されたガバナンスとコンプライアンスを備えたエンタープライズレベルのセキュリティを提供し、データからより迅速にインサイトを得ることができます。SDX は、すべての Cloudera 製品に組み込まれた設計哲学です。SDX および CDPのパブリッククラウドネットワークアーキテクチャの詳細についてはAWS、「Cloudera ドキュメント」を参照してください。

ツール

AWS サービス

  • Amazon Elastic Compute Cloud (Amazon EC2) は、AWSクラウドでスケーラブルなコンピューティング容量を提供します。必要な数の仮想サーバーを起動することができ、迅速にスケールアップまたはスケールダウンができます。

  • Amazon Elastic Kubernetes Service (Amazon EKS) は、独自の Kubernetes コントロールプレーンやノードをインストールまたは維持AWSすることなく、 で Kubernetes を実行するのに役立ちます。

  • AWS Identity and Access Management (IAM) は、誰が認証され、誰に使用を許可されているかを制御することで、AWSリソースへのアクセスを安全に管理します。

  • Amazon Relational Database Service (Amazon RDS) は、 AWS クラウドでリレーショナルデータベースを設定、運用、スケーリングするのに役立ちます。

  • Amazon Simple Storage Service (Amazon S3) は、どのようなデータ量であっても、データを保存、保護、取得することを支援するクラウドベースのオブジェクトストレージサービスです。

オートメーションとツール

エピック

タスク説明必要なスキル

Cloudera チームと連携してください。

Cloudera は顧客との標準化されたエンゲージメントモデルを追求しており、貴社のシステムインテグレーター (SI) と協力して同じアプローチを推進することができます。Cloudera のカスタマーチームに連絡すれば、プロジェクトを開始するためのガイダンスや必要な技術リソースを提供してもらえます。Cloudera チームに連絡することで、移行日が近づいたら、必要なすべてのチームが移行の準備を整えることができます。 

Cloudera プロフェッショナルサービスに連絡して、Cloudera の導入をパイロット版から本番環境に迅速に、低コストで、最高のパフォーマンスで移行できます。サービスの詳細なリストについては、「Cloudera ウェブサイト」を参照してください。

移行リード

AWS の にCDPパブリック クラウド環境を作成しますVPC。

Cloudera プロフェッショナルサービスまたは SI と協力して、 VPC 上の にCDPパブリッククラウドを計画およびデプロイしますAWS。

クラウドアーキテクト、Cloudera SME

移行するワークロードに優先順位を付け、評価する。

オンプレミスのすべてのワークロードを評価して、移行が最も簡単なワークロードを決定します。ミッションクリティカルではないアプリケーションは、顧客への影響が最小限になるため、最初に移行するのが最適です。ミッションクリティカルなワークロードは、他のワークロードの移行に成功したら、最後に保存しておきます。

: 一時的な (CDPデータエンジニアリング) ワークロードは、永続的な (CDPデータウェアハウス) ワークロードよりも移行が容易です。移行の際には、データ量と場所を考慮することも重要です。課題としては、データをオンプレミス環境からクラウドに継続的に複製することや、データをクラウドに直接インポートするようにデータインジェストパイプラインを変更することが挙げられます。

移行リード

CDH、HDP、CDP、およびレガシーアプリケーションの移行アクティビティについて説明します。

Cloudera ワークロードマネージャーを使用して、以下のアクティビティを検討し、計画を開始してください。

  • AWS 環境にコピーするデータとワークロード

  • クラウド対応データ

  • リソースを使い果たし、他のテナントに迷惑をかける騒がしい隣人

  • 伸縮自在なワークロード

  • 運用上のオーバーヘッドが高い小規模クラスター

移行リード

Cloudera レプリケーションマネージャーの要件と推奨事項をすべて記入してください。

Cloudera プロフェッショナルサービスおよび SI と協力して、 でワークロードをCDPパブリッククラウド環境に移行する準備をしますAWS。以下の要件と推奨事項を理解することで、Replication Manager サービスのインストール中およびインストール後に一般的な問題を回避できます。

  • Replication Managerのサポートドキュメントを確認して、環境とシステムの要件を満たしていることを確認してください。詳細については、Cloudera ウェブサイトの「CDPPublic Cloud Replication Manager のサポートマトリックス」を参照してください。

  • Replication Manager App and Data Lifecycle Manager (DLM) エンジンがインストールされているノードへのルートアクセスは必要ありません。

  • 将来的に Hive レプリケーションを使用しないことが確実でない限り、Replication Manager の初回インストール時に Apache Hive をインストールします。Replication Manager でHDFSレプリケーションポリシーを作成した後に Hive をインストールする場合は、Hive を追加した後にすべてのHDFSレプリケーションポリシーを削除して再作成する必要があります。

  • Replication Manager で使用されるクラスターは、対称的な構成になっている必要があります。レプリケーション関係の各クラスターは、セキュリティ (Kerberos)、ユーザー管理 (LDAP/AD)、および Knox Proxy に対してまったく同じように設定する必要があります。Hadoop Distributed File System (HDFS)、Apache Hive、Apache Knox、Apache Ranger、Apache Atlas などのクラスターサービスでは、高可用性 (HA) の設定を異なる場合があります。たとえば、ソースクラスターとターゲットクラスターには HA 構成と非 HA 構成が別々になっている場合があります。

移行リード
タスク説明必要なスキル

Cloudera ワークロードマネージャーを使用して、開発/テスト環境の最初のワークロードを移行します。

SI は、最初のワークロードを AWS クラウドに移行するのに役立ちます。これは、顧客向けのものでもミッションクリティカルなものでもないアプリケーションでなければなりません。開発/テスト移行の理想的な候補は、CDPデータエンジニアリングワークロードなど、クラウドが簡単に取り込むことができるデータを持つアプリケーションです。これは、通常、アクセスするユーザーが少ない一時的なワークロードであり、中断のないアクセスを必要とする多くのユーザーを持つ可能性のある CDP Data Warehouse ワークロードなどの永続的なワークロードと比較してます。データエンジニアリングのワークロードは永続的ではないため、何か問題が発生した場合のビジネスへの影響を最小限に抑えることができます。ただし、これらのジョブはプロダクションレポートにとって重要になる可能性があるため、影響の少ないデータエンジニアリングのワークロードを最初に優先してください。

移行リード

必要に応じて移行手順を繰り返します。

Cloudera ワークロードマネージャーは、クラウドに最適なワークロードを特定するのに役立ちます。クラウドのパフォーマンス評価、ターゲット環境のサイジング/キャパシティプラン、レプリケーションプランなどの指標を提供します。移行に最適な候補は、季節的なワークロード、臨時のレポート、リソースをあまり消費しない断続的なジョブです。

Cloudera Replication Managerは、データをオンプレミスからクラウドへ、そしてクラウドからオンプレミスへと移動します。

ワークロードマネージャーを使用して、データウェアハウス、データエンジニアリング、機械学習のワークロード、アプリケーション、パフォーマンス、インフラストラクチャ容量をプロアクティブに最適化します。データウェアハウスをモダナイズする方法の詳細なガイドについては、「Cloudera ウェブサイト」をご覧ください。

Cloudera SME

関連リソース

Cloudera ドキュメント

AWS ドキュメント: