翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
でオンプレミスの Cloudera ワークロードを Cloudera Data Platform に移行する AWS
作成者: Battulga Purevragchaa (AWS)、Nijjwol Lamsal (パートナー)、Nidhi Gupta (AWS)
環境:PoC またはパイロット | ソース: Cloudera ワークロード | ターゲット: Cloudera データプラットフォーム (CDP) パブリッククラウド |
R タイプ: 該当なし | ワークロード:その他すべてのワークロード | テクノロジー: 移行、ビッグデータ、データベース、分析 |
AWS サービス: Amazon EC2、Amazon EKS、AWSアイデンティティとアクセス管理、Amazon S3、Amazon RDS |
[概要]
このパターンでは、オンプレミスの Cloudera Distributed Hadoop (CDH)、Hortonworks Data Platform (HDP)、および Cloudera Data Platform (CDP) ワークロードを のCDPパブリッククラウドに移行するための大まかな手順について説明しますAWS。Cloudera プロフェッショナルサービスおよびシステムインテグレーター (SI) と提携して、これらのステップを実装することをお勧めします。
Cloudera のお客様がオンプレミスの CDH、HDP、CDPワークロードをクラウドに移行したい理由は多数あります。一般的な理由は以下のとおりです。
データレイクハウスやデータメッシュなどの新しいデータプラットフォームパラダイムの採用を効率化します。
ビジネスの俊敏性を高め、既存のデータ資産へのアクセスと推論を民主化します。
総所有コストの削減 (TCO)
ワークロードの伸縮自在性を強化
従来のオンプレミスのインストールベースと比較して、スケーラビリティを高め、データサービスのプロビジョニングにかかる時間を大幅に短縮できます。
レガシーハードウェアを廃止、ハードウェアの更新サイクルを大幅に短縮
Cloudera ライセンスモデル (CCU) AWSを使用して の Cloudera ワークロードに拡張される pay-as-you-go 料金を利用する
継続的インテグレーションおよび継続的デリバリー (CI/CD) のプラットフォームにより、より迅速な導入や統合の強化を活用する
複数のワークロードに単一の統合プラットフォーム (CDP) を使用する
Cloudera は、Machine Learning、データエンジニアリング、データウェアハウス、運用データベース、ストリーム処理 (CSP)、データセキュリティとガバナンスなど、すべての主要なワークロードをサポートしています。Cloudera はこれらのワークロードを長年オンプレミスで提供しており、ワークロードマネージャーとレプリケーションマネージャーでCDPパブリッククラウドAWSを使用することで、これらのワークロードをクラウドに移行できます。
Cloudera Shared Data Experience (SDX) は、一貫したデータ管理とオペレーションを容易にするために、これらのワークロード間で共有メタデータカタログを提供します。SDX には、脅威から保護するための包括的できめ細かなセキュリティ、および Payment Card Industry Data Security Standard (PCI DSS) や などの標準に準拠するための監査および検索機能の統合ガバナンスも含まれていますGDPR。
CDP 移行の概要
ワークロード | ソースワークロード | CDH、HDP、CDPプライベートクラウド |
ソース環境 |
| |
送信先ワークロード | CDP のパブリッククラウド AWS | |
送信先環境 |
| |
移行 | 移行戦略 (「7Rs」) | リホスト、リプラットフォーム、リファクタリング |
これはワークロードのバージョンアップですか? | 可能 | |
移行期間 |
| |
コスト | でワークロードを実行するコスト AWS |
|
インフラストラクチャー契約とフレームワーク | システム要件 | 「前提条件」セクションを参照してください。 |
SLA | 「Cloudera Service Level Agreement for CDP Public Cloud」を参照してください。 | |
DR | Cloudera ドキュメントの「ディザスタリカバリ | |
ライセンスと運用モデル (ターゲットAWSアカウント用) | Bring Your Own License (BYOL) モデル | |
コンプライアンス | セキュリティ要件 | Cloudera ドキュメントの「Cloudera セキュリティの概要 |
その他の「コンプライアンス認証 | 一般データ保護規則 (GDPR |
前提条件と制限
前提条件
AWS Identity and Access Management (IAM) ロールやポリシーの設定など、アカウント、リソース、サービス、アクセス許可を含むAWSアカウント要件
Cloudera ウェブサイトからデプロイするための前提条件 CDP
移行には以下の役割と専門知識が必要です。
ロール | スキルと責任 |
移行リード | 経営陣のサポート、チームコラボレーション、計画、実装、評価を保証する |
Cloudera SME | CDH、HDP、 CDP管理、システム管理、アーキテクチャにおけるエキスパートスキル |
AWS アーキテクト | AWS サービス、ネットワーク、セキュリティ、アーキテクチャのスキル |
アーキテクチャ
適切なアーキテクチャを構築することは、移行とパフォーマンスを確実に期待に応えるための重要なステップです。このプレイブックの前提条件を満たすための移行の取り組みでは、仮想プライベートクラウド (VPC) ホストインスタンスまたは のいずれかのAWSクラウド内のターゲットデータ環境はCDP、オペレーティングシステムとソフトウェアバージョン、および主要なマシン仕様の観点から、ソース環境と同等である必要があります。
次の図 (Cloudera Shared Data Experience データシート からのアクセス許可で再現
アーキテクチャには、次のCDPコンポーネントが含まれます。
データハブは Cloudera Runtime を搭載したワークロードクラスターを起動および管理するためのサービスです。データハブのクラスター定義を使用して、カスタムユースケース向けにワークロードクラスターをプロビジョニングしてアクセスしたり、カスタムクラスター構成を定義したりできます。詳細については、「Cloudera のウェブサイト
」を参照してください。 データフローとストリーミングは、データが移動する中で企業が直面する主な課題に対処します。以下のような管理をしています。
高ボリュームおよび高スケールでのリアルタイムデータストリーミングの処理
ストリーミングデータの出所とリネージのトラッキング
エッジアプリケーションとストリーミングソースの管理と監視
詳細については、Cloudera DataFlow
ウェブサイトCSP の「Cloudera と」を参照してください。 データエンジニアリングには、組織がデータパイプラインとワークフローを構築し維持するのに役立つデータ統合、データ品質、データガバナンスが含まれます。詳細については、「Cloudera のウェブサイト
」を参照してください。Cloudera Data Engineering ワークロードのコスト削減を容易にするためのスポットインスタンスのサポートAWS について説明します。 Data Warehouse を利用すると、ワークロードの需要に応じて自動的にスケーリングする独立したデータウェアハウスとデータマートを作成できます。このサービスは、各データウェアハウスとデータマートに対して分離されたコンピューティングインスタンスと自動最適化を提供し、 を満たしながらコストを削減するのに役立ちますSLAs。詳細については、「Cloudera のウェブサイト
」を参照してください。での Cloudera Data Warehouse のコスト管理 と自動スケーリング について説明しますAWS。 の運用データベースCDPは、スケーラブルで高性能なアプリケーションのための信頼性と柔軟性に優れた基盤を提供します。運用とウェアハウジングの統合プラットフォーム内で、従来の構造化データだけでなく新しい非構造化データも提供する、リアルタイムで、いつでも利用可能な、スケーラブルなデータベースを実現します。詳細については、「Cloudera のウェブサイト
」を参照してください。 Machine Learning は、セルフサービスのデータサイエンスとデータエンジニアリング機能をエンタープライズデータクラウド内の単一のポータブルサービスに統合するクラウドネイティブな機械学習プラットフォームです。機械学習と人工知能 (AI) をどこにでもデータにスケーラブルに展開できます。詳細については、「Cloudera のウェブサイト
」を参照してください。
CDP 上の AWS
次の図 (Cloudera ウェブサイトからのアクセス許可に合わせて適応) は、 CDP上の の高レベルアーキテクチャを示していますAWS。CDP は、独自のセキュリティモデル
CDP コントロールプレーンは、独自の の Cloudera マスターアカウントにありますVPC。各カスタマーアカウントには、独自のサブアカウントと一意の がありますVPC。クロスアカウントIAMロールとSSLテクノロジーは、コントロールプレーンとの間で管理トラフィックを、各顧客内のインターネットルーティング可能なパブリックサブネットに存在するカスタマーサービスにルーティングしますVPC。お客様の ではVPC、Cloudera 共有データエクスペリエンス (SDX) は、統合されたガバナンスとコンプライアンスを備えたエンタープライズレベルのセキュリティを提供し、データからより迅速にインサイトを得ることができます。SDX は、すべての Cloudera 製品に組み込まれた設計哲学です。SDX
ツール
AWS サービス
Amazon Elastic Compute Cloud (Amazon EC2) は、AWSクラウドでスケーラブルなコンピューティング容量を提供します。必要な数の仮想サーバーを起動することができ、迅速にスケールアップまたはスケールダウンができます。
Amazon Elastic Kubernetes Service (Amazon EKS) は、独自の Kubernetes コントロールプレーンやノードをインストールまたは維持AWSすることなく、 で Kubernetes を実行するのに役立ちます。
AWS Identity and Access Management (IAM) は、誰が認証され、誰に使用を許可されているかを制御することで、AWSリソースへのアクセスを安全に管理します。
Amazon Relational Database Service (Amazon RDS) は、 AWS クラウドでリレーショナルデータベースを設定、運用、スケーリングするのに役立ちます。
Amazon Simple Storage Service (Amazon S3) は、どのようなデータ量であっても、データを保存、保護、取得することを支援するクラウドベースのオブジェクトストレージサービスです。
オートメーションとツール
追加のツールについては、Cloudera Backup Data Recovery (BDR)
、AWSSnowball 、AWSSnowmobile を使用してHDP、オンプレミス CDH、、および AWSからホストされた CDPにデータを移行できますCDP。 新しいデプロイでは、 AWS のパートナーソリューションCDP
を使用することをお勧めします。
エピック
タスク | 説明 | 必要なスキル |
---|---|---|
Cloudera チームと連携してください。 | Cloudera は顧客との標準化されたエンゲージメントモデルを追求しており、貴社のシステムインテグレーター (SI) と協力して同じアプローチを推進することができます。Cloudera のカスタマーチームに連絡すれば、プロジェクトを開始するためのガイダンスや必要な技術リソースを提供してもらえます。Cloudera チームに連絡することで、移行日が近づいたら、必要なすべてのチームが移行の準備を整えることができます。 Cloudera プロフェッショナルサービスに連絡して、Cloudera の導入をパイロット版から本番環境に迅速に、低コストで、最高のパフォーマンスで移行できます。サービスの詳細なリストについては、「Cloudera ウェブサイト | 移行リード |
AWS の にCDPパブリック クラウド環境を作成しますVPC。 | Cloudera プロフェッショナルサービスまたは SI と協力して、 VPC 上の にCDPパブリッククラウドを計画およびデプロイしますAWS。 | クラウドアーキテクト、Cloudera SME |
移行するワークロードに優先順位を付け、評価する。 | オンプレミスのすべてのワークロードを評価して、移行が最も簡単なワークロードを決定します。ミッションクリティカルではないアプリケーションは、顧客への影響が最小限になるため、最初に移行するのが最適です。ミッションクリティカルなワークロードは、他のワークロードの移行に成功したら、最後に保存しておきます。 注: 一時的な (CDPデータエンジニアリング) ワークロードは、永続的な (CDPデータウェアハウス) ワークロードよりも移行が容易です。移行の際には、データ量と場所を考慮することも重要です。課題としては、データをオンプレミス環境からクラウドに継続的に複製することや、データをクラウドに直接インポートするようにデータインジェストパイプラインを変更することが挙げられます。 | 移行リード |
CDH、HDP、CDP、およびレガシーアプリケーションの移行アクティビティについて説明します。 | Cloudera ワークロードマネージャーを使用して、以下のアクティビティを検討し、計画を開始してください。
| 移行リード |
Cloudera レプリケーションマネージャーの要件と推奨事項をすべて記入してください。 | Cloudera プロフェッショナルサービスおよび SI と協力して、 でワークロードをCDPパブリッククラウド環境に移行する準備をしますAWS。以下の要件と推奨事項を理解することで、Replication Manager サービスのインストール中およびインストール後に一般的な問題を回避できます。
| 移行リード |
タスク | 説明 | 必要なスキル |
---|---|---|
Cloudera ワークロードマネージャーを使用して、開発/テスト環境の最初のワークロードを移行します。 | SI は、最初のワークロードを AWS クラウドに移行するのに役立ちます。これは、顧客向けのものでもミッションクリティカルなものでもないアプリケーションでなければなりません。開発/テスト移行の理想的な候補は、CDPデータエンジニアリングワークロードなど、クラウドが簡単に取り込むことができるデータを持つアプリケーションです。これは、通常、アクセスするユーザーが少ない一時的なワークロードであり、中断のないアクセスを必要とする多くのユーザーを持つ可能性のある CDP Data Warehouse ワークロードなどの永続的なワークロードと比較してます。データエンジニアリングのワークロードは永続的ではないため、何か問題が発生した場合のビジネスへの影響を最小限に抑えることができます。ただし、これらのジョブはプロダクションレポートにとって重要になる可能性があるため、影響の少ないデータエンジニアリングのワークロードを最初に優先してください。 | 移行リード |
必要に応じて移行手順を繰り返します。 | Cloudera ワークロードマネージャーは、クラウドに最適なワークロードを特定するのに役立ちます。クラウドのパフォーマンス評価、ターゲット環境のサイジング/キャパシティプラン、レプリケーションプランなどの指標を提供します。移行に最適な候補は、季節的なワークロード、臨時のレポート、リソースをあまり消費しない断続的なジョブです。 Cloudera Replication Managerは、データをオンプレミスからクラウドへ、そしてクラウドからオンプレミスへと移動します。 ワークロードマネージャーを使用して、データウェアハウス、データエンジニアリング、機械学習のワークロード、アプリケーション、パフォーマンス、インフラストラクチャ容量をプロアクティブに最適化します。データウェアハウスをモダナイズする方法の詳細なガイドについては、「Cloudera ウェブサイト | Cloudera SME |
関連リソース
Cloudera ドキュメント
AWS ドキュメント: