Amazon EMR クラスターハードウェアとネットワークを設定する
Amazon EMR クラスターの作成時における重要な考慮事項は、Amazon EC2 インスタンスおよびネットワークオプションを設定する方法です。この章では、これらのオプションを詳しく説明したうえで、ベストプラクティスとガイドラインによって総括します。
-
ノードタイプ – EMR クラスター内の Amazon EC2 インスタンスは、ノードタイプに分類されます。プライマリノード、コアノード、およびタスクノードの 3 つがあります。各ノードタイプは、クラスター上にインストールする分散アプリケーションにより定義される一連のロールを実行します。例えば、Hadoop MapReduce または Spark ジョブの実行中に、コアノードとタスクノード上のコンポーネントはデータを処理し、出力を Simple Storage Service (Amazon S3) または HDFS に転送し、ステータスメタデータをプライマリノードに提供します。単一ノードクラスターの場合、すべてのコンポーネントはプライマリノード上で実行されます。詳細については、「Amazon EMR のノードタイプ (プライマリノード、コアノード、タスクノード) について理解する」を参照してください。
-
EC2 インスタンス — クラスターを作成するとき、各タイプのノードが実行される Amazon EC2 インスタンスについて選択します。EC2 インスタンスタイプは、ノードの処理およびストレージプロファイルを決定します。ノードの Amazon EC2 インスタンスの選択は、クラスター内の個々のノードタイプのパフォーマンスプロファイルを決定するため、重要です。詳細については、「Amazon EMR で使用するために Amazon EC2 インスタンスを設定する」を参照してください。
-
ネットワーク — Amazon EMR クラスターは、パブリックサブネット、プライベートサブネット、または共有サブネットを使用して VPC で起動できます。ネットワーク設定により、お客様とサービスがクラスターに接続して作業を実行する方法、クラスターがデータストアおよび AWS リソースに接続する方法、およびそれらの接続でトラフィックを制御するためのオプションが決定されます。詳細については、「Amazon EMR 用の VPC でネットワークを設定する」を参照してください。
-
インスタンスグループ – 各ノードタイプをホストする EC2 インスタンスの集合は、インスタンスフリートまたはユニフォームインスタンスグループと呼ばれます。インスタンスグループの設定は、クラスターの作成時に選択します。この選択により、実行中にクラスターにノードを追加する方法が決定されます。この設定はすべてのノードタイプに適用されます。後で変更することはできません。詳細については、「インスタンスフリートまたはユニフォームインスタンスグループで Amazon EMR クラスターを作成する」を参照してください。
注記
インスタンスフリート設定は、5.0.0 および 5.0.3 を除く Amazon EMR リリース 4.8.0 以降でのみ使用できます。