pcluster update-cluster を使用する - AWS ParallelCluster

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

pcluster update-cluster を使用する

AWS ParallelCluster 3.x では、pcluster update-cluster現在のクラスターの作成に使用された設定と構成ファイル内の設定に問題がないか分析します。問題が発見された場合は報告され、問題を解決するための手順が表示されます。例えば、コンピューティング InstanceType が変更された場合、アップデートを行う前にコンピューティングフリートを停止する必要があります。この問題は、発見された時点で報告されます。ブロッキング問題が発見されなければ、アップデートプロセスが開始され、変更が報告されます。

pcluster update-cluster --dryrun option を使用して、実行前に変更を確認できます。詳細については、「pcluster update-cluster の例」を参照してください。

トラブルシューティングヘルプについては、「AWS ParallelCluster トラブルシューティング」を参照してください。

ポリシー定義を更新します

更新ポリシー: この設定は、更新中に変更できます。

この設定を変更すると、pcluster update-cluster を使ってクラスターを更新できるようになります。

更新ポリシー: この設定が変更された場合、更新は許可されません。

この設定を変更すると、クラスターの更新ができなくなります。元のクラスターの設定を元に戻し、更新した設定で新しいクラスターを作成する必要があります。元のクラスターは後日削除できます。pcluster create-cluster を使用して新しいクラスターを作成します。pcluster delete-cluster を使用して元のクラスターを削除します。

更新ポリシー: この設定は、更新中には分析されません。

これらの設定は、pcluster update-cluster を使用して変更し、クラスターを更新することができます。

更新ポリシー: この設定を更新で変更するためには、コンピューティングフリートを停止する必要があります。

これらの設定は、コンピューティングフリートが存在する間は変更できません。変更を元に戻すか、コンピューティングフリートを停止する必要があります (pcluster update-compute-fleet を使用します)。コンピューティングフリートを停止したら、クラスター (pcluster update-cluster) を更新して変更を有効にすることができます。例えば、Slurm のスケジューラを SlurmQueues/ComputeResources/ - Name/MinCount > 0 で使用している場合、コンピューティングフリートが開始されます。

更新ポリシー:この設定を更新時に変更するには、コンピュートフリートとログインノードを停止する必要があります。

コンピュートフリートが存在する間やログインノードが使用中の場合、これらの設定は変更できません。変更を元に戻すか、コンピュートフリートとログインノードを停止する必要があります (コンピュートフリートはを使用して停止できますpcluster update-compute-fleet)。コンピュートフリートとログインノードを停止したら、クラスタ (pcluster update-cluster) を更新して変更を有効化できます。

更新ポリシー: これらの設定は、更新中に減らすことはできません。

これらの設定は変更できますが、減らすことはできません。これらの設定を減らす必要がある場合は、元のクラスターの設定を元に戻し、更新した設定で新しいクラスターを作成する必要があります。元のクラスターは後日削除できます。pcluster create-cluster を使用して新しいクラスターを作成します。pcluster delete-cluster を使用して元のクラスターを削除します。

更新ポリシー: この設定が変更された場合、更新は許可されません。強制的に更新した場合、新しい値は無視され、既存の値が使用されます。

この設定を変更すると、クラスターの更新ができなくなります。元のクラスターの設定を元に戻し、更新した設定で新しいクラスターを作成する必要があります。元のクラスターは後日削除できます。pcluster create-cluster を使用して新しいクラスターを作成します。pcluster delete-cluster を使用して元のクラスターを削除します。

更新ポリシー: この設定を更新で変更するためには、コンピューティングフリートが停止しているか、QueueUpdateStrategy が設定されている必要があります。

これらの設定は変更することができます。コンピューティングフリートを停止するか (pcluster update-compute-fleet を使用します)、QueueUpdateStrategy を設定する必要があります。コンピューティングフリートを停止されるか、QueueUpdateStrategy が設定された後、クラスター (pcluster update-cluster) を更新して変更を有効にすることができます。

注記

この更新ポリシーは、 AWS ParallelCluster バージョン 3.2.0 以降でサポートされています。

更新ポリシー:このリスト値の設定では、更新中に新しい値を追加することができ、既存の値を削除する場合はコンピューティングフリートを停止する必要があります。

これらの設定には更新時に新しい値を追加できます。リストに新しい値を追加すると、クラスターは (pcluster update-cluster) を使用して更新できます。

リストから既存の値を削除するには、コンピューティングフリートを (pcluster update-compute-fleet を使用して) 停止する必要があります。

たとえば、Slurmスケジューラーを使用していて Instances/ に新しいインスタンスタイプを追加している場合InstanceType、コンピュートフリートを停止せずにクラスターを更新できます。Instances/ から既存のインスタンスタイプを削除するにはInstanceType、まずコンピュートフリートを (pcluster を使用して) 停止する必要があります。 update-compute-fleet

注記

この更新ポリシーは、バージョン 3.2.0 以降でサポートされています。 AWS ParallelCluster

更新ポリシー:キューのサイズを小さくするには、コンピュート群を停止するか、更新時にこの設定を変更するために TERMINATE QueueUpdateStrategyに設定する必要があります。

これらの設定は変更できますが、変更によってキューのサイズが小さくなる場合は、コンピュート群を (pcluster を使用して update-compute-fleet) 停止するか、TERMINATE QueueUpdateStrategyに設定する必要があります。コンピュートフリートを停止するかQueueUpdateStrategy、TERMINATE に設定したら、クラスタ (pcluster update-cluster) を更新して変更を有効化できます

クラスターの容量を変更するときに TERMINATE を設定すると、ノードリストの最後にあるノードのみが終了され、同じパーティションの他のすべてのノードはそのままになります。

たとえば、MinCount = 5MaxCount = 10クラスターの初期容量がおよびの場合、ノードはです。st-[1-5]; dy-[1-5]MinCount = 3クラスターのサイズをおよびに変更するとMaxCount = 5、新しいクラスター容量はノードによって構成されst-[1-3]; dy-[1-2]、更新中にその容量は変更されません。st-[4-5]; dy-[3-5]更新中に終了されるのはノードだけです。

以下の変更がサポートされており、コンピュート群を停止したり、TERMINATE QueueUpdateStrategyに設定したりする必要はありません。

  • SlurmQueue新しいものが追加されました。

  • ComputeResource新しいものが追加されました。

  • MaxCount増加しています。

  • MinCount増加しMaxCount、少なくとも同じ量だけ増加する

    注:この更新ポリシーは、 AWS ParallelCluster バージョン 3.9.0 以降でサポートされています。

更新ポリシー: このリスト値の設定では、コンピューティングフリートを停止するか、QueueUpdateStrategy が設定されている必要があります。既存の値を削除する場合は、コンピューティングフリートを停止する必要があります。

これらの設定には更新時に新しい値を追加できます。コンピューティングフリートを停止するか (pcluster update-compute-fleet を使用します)、QueueUpdateStrategy を設定する必要があります。コンピューティングフリートを停止されるか、QueueUpdateStrategy が設定された後、クラスター (pcluster update-cluster) を更新して変更を有効にすることができます。

リストから既存の値を削除するには、コンピューティングフリートを (pcluster update-compute-fleet を使用して) 停止する必要があります。

注記

AWS ParallelCluster このアップデートポリシーはバージョン 3.3.0 以降でサポートされています。

更新ポリシー: マネージドプレースメントグループを削除するには、すべてのコンピューティングノードを停止する必要があります。この設定を更新で変更するためには、コンピューティングフリートが停止しているか、QueueUpdateStrategy が設定されている必要があります。

マネージドプレイスメントグループを削除するには、コンピューティングフリートを停止 (pcluster update-compute-fleet を使用します) する必要があります。コンピューティングフリートを停止する前にクラスター更新を実行してマネージドプレイスメントグループを削除すると、無効な設定メッセージが返され、更新は続行されません。コンピューティングフリートを停止すると、インスタンスが実行されていないことが保証されます。

pcluster update-cluster の例

これらの設定は変更可能ですが、変更によってキューのサイズが小さくなる場合は、コンピュート群を (pcluster を使用して update-compute-fleet) 停止するか、TERMINATE QueueUpdateStrategyに設定する必要があります。コンピュートフリートを停止するかQueueUpdateStrategy、TERMINATE に設定したら、クラスタ (pcluster update-cluster) を更新して変更を有効化できます

  • この例では、いくつかの許可された変更を伴う更新を実際に行い、更新を直接開始します。

    $ pcluster update-cluster --cluster-name cluster_name --cluster-config ~/.parallelcluster/test_cluster --region us-east-1 { "cluster": { "clusterName": cluster_name, "cloudformationStackStatus": "UPDATE_IN_PROGRESS", "cloudformationStackArn": stack_arn, "region": "us-east-1", "version": "3.7.0", "clusterStatus": "UPDATE_IN_PROGRESS" }, "changeSet": [ { "parameter": "HeadNode.Networking.AdditionalSecurityGroups", "requestedValue": [ "sg-0cd61884c4ad11234" ], "currentValue": [ "sg-0cd61884c4ad16341" ] } ] }
  • この例では、いくつかの変更が許可されたドライランアップデートを行います。ドライランは、アップデートを開始せずに変更内容を報告するのに便利です。

    $ pcluster update-cluster --cluster-name cluster_name --cluster-config ~/.parallelcluster/test_cluster --region us-east-1 --dryrun true { "message": "Request would have succeeded, but DryRun flag is set.", "changeSet": [ { "parameter": "HeadNode.Networking.AdditionalSecurityGroups", "requestedValue": [ "sg-0cd61884c4ad11234" ], "currentValue": [ "sg-0cd61884c4ad16341" ] } ] }
  • この例では、アップデートをブロックするいくつかの変更を加えたアップデートです。

    $ pcluster update-cluster --cluster-name cluster_name --cluster-config ~/.parallelcluster/test_cluster --region us-east-1 { "message": "Update failure", "updateValidationErrors": [ { "parameter": "HeadNode.Ssh.KeyName", "requestedValue": "mykey_2", "message": "Update actions are not currently supported for the 'KeyName' parameter. Restore 'KeyName' value to 'jenkinsjun'. If you need this change, please consider creating a new cluster instead of updating the existing one.", "currentValue": "mykey_1" }, { "parameter": "Scheduling.SlurmQueues[queue1].ComputeResources[queue1-t2micro].InstanceType", "requestedValue": "c4.xlarge", "message": "All compute nodes must be stopped. Stop the compute fleet with the pcluster update-compute-fleet command", "currentValue": "t2.micro" }, { "parameter": "SharedStorage[ebs1].MountDir", "requestedValue": "/my/very/very/long/shared_dir", "message": "Update actions are not currently supported for the 'MountDir' parameter. Restore 'MountDir' value to '/shared'. If you need this change, please consider creating a new cluster instead of updating the existing one.", "currentValue": "/shared" } ], "changeSet": [ { "parameter": "HeadNode.Networking.AdditionalSecurityGroups", "requestedValue": [ "sg-0cd61884c4ad11234" ], "currentValue": [ "sg-0cd61884c4ad16341" ] }, { "parameter": "HeadNode.Ssh.KeyName", "requestedValue": "mykey_2", "currentValue": "mykey_1" }, { "parameter": "Scheduling.SlurmQueues[queue1].ComputeResources[queue1-t2micro].InstanceType", "requestedValue": "c4.xlarge", "currentValue": "t2.micro" }, { "parameter": "SharedStorage[ebs1].MountDir", "requestedValue": "/my/very/very/long/shared_dir", "currentValue": "/shared" } ] }