pcluster update-cluster を使用する - AWS ParallelCluster

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

pcluster update-cluster を使用する

AWS ParallelCluster 3.x では、 は現在のクラスターの作成に使用される設定と、設定ファイル内の設定を問題がないかpcluster update-cluster分析します。問題が発見された場合は報告され、問題を解決するための手順が表示されます。例えば、コンピューティング InstanceType が変更された場合、アップデートを行う前にコンピューティングフリートを停止する必要があります。この問題は、発見された時点で報告されます。ブロッキング問題が発見されなければ、アップデートプロセスが開始され、変更が報告されます。

pcluster update-cluster --dryrun option を使用して、実行前に変更を確認できます。詳細については、「pcluster update-cluster の例」を参照してください。

トラブルシューティングヘルプについては、「AWS ParallelCluster トラブルシューティング」を参照してください。

ポリシー定義を更新します

更新ポリシー: この設定を更新のために変更するには、クラスター内のログインノードを停止する必要があります。

クラスター内のログインノードを使用している間は、これらの設定を変更することはできません。変更を元に戻すか、クラスターのログインノードを停止する必要があります。(各プールの ount を 0 に設定することで、クラスター内のログインノードを停止できます)。クラスターのログインノードが停止したら、クラスター (pcluster update-cluster) を更新して変更をアクティブ化できます。

注記

この更新ポリシーは、 AWS ParallelCluster バージョン 3.7.0 以降でサポートされています。

更新ポリシー: ログインノードプールを追加できますが、プールを削除するには、クラスター内のすべてのログインノードを停止する必要があります。

プールを削除するには、クラスター内のすべてのログインノードを停止する必要があります。(各プールのカウントを 0 に設定することで、クラスター内のログインノードを停止できます)。クラスターのログインノードが停止したら、クラスター (pcluster update-cluster) を更新して変更をアクティブ化できます。

注記

この更新ポリシーは、 AWS ParallelCluster バージョン 3.11.0 以降でサポートされています。

更新ポリシー: この設定を更新のために変更するには、プール内のログインノードを停止する必要があります。

プール内のログインノードを使用している間は、これらの設定を変更することはできません。変更を元に戻すか、プールのログインノードを停止する必要があります。(プールのログインノードを停止するには、プールのカウントを 0 に設定します)。プールのログインノードが停止したら、クラスター (pcluster update-cluster) を更新して変更をアクティブ化できます。

注記

この更新ポリシーは、 AWS ParallelCluster バージョン 3.11.0 以降でサポートされています。

更新ポリシー: この設定は、更新中に変更できます。

この設定を変更すると、pcluster update-cluster を使ってクラスターを更新できるようになります。

更新ポリシー: この設定が変更された場合、更新は許可されません。

この設定を変更すると、クラスターの更新ができなくなります。元のクラスターの設定を元に戻し、更新した設定で新しいクラスターを作成する必要があります。元のクラスターは後日削除できます。pcluster create-cluster を使用して新しいクラスターを作成します。pcluster delete-cluster を使用して元のクラスターを削除します。

更新ポリシー: この設定は、更新中には分析されません。

これらの設定は、pcluster update-cluster を使用して変更し、クラスターを更新することができます。

更新ポリシー: この設定を更新で変更するためには、コンピューティングフリートを停止する必要があります。

これらの設定は、コンピューティングフリートが存在する間は変更できません。変更を元に戻すか、コンピューティングフリートを停止する必要があります (pcluster update-compute-fleet を使用します)。コンピューティングフリートを停止したら、クラスター (pcluster update-cluster) を更新して変更を有効にすることができます。例えば、Slurm SlurmQueues / ComputeResources / - Name / MinCount > 0 のスケジューラでは、コンピューティングフリートが開始されます。

更新ポリシー: この設定を更新のために変更するには、コンピューティングフリートとログインノードを停止する必要があります。

これらの設定は、コンピューティングフリートが存在する間、またはログインノードが使用中の場合は変更できません。変更を元に戻すか、コンピューティングフリートとログインノードを停止する必要があります (コンピューティングフリートは を使用して停止できますpcluster update-compute-fleet)。コンピューティングフリートとログインノードが停止したら、クラスター (pcluster update-cluster) を更新して変更をアクティブ化できます。

更新ポリシー: これらの設定は、更新中に減らすことはできません。

これらの設定は変更できますが、減らすことはできません。これらの設定を減らす必要がある場合は、元のクラスターの設定を元に戻し、更新した設定で新しいクラスターを作成する必要があります。元のクラスターは後日削除できます。pcluster create-cluster を使用して新しいクラスターを作成します。pcluster delete-cluster を使用して元のクラスターを削除します。

更新ポリシー: この設定が変更された場合、更新は許可されません。強制的に更新した場合、新しい値は無視され、既存の値が使用されます。

この設定を変更すると、クラスターの更新ができなくなります。元のクラスターの設定を元に戻し、更新した設定で新しいクラスターを作成する必要があります。元のクラスターは後日削除できます。pcluster create-cluster を使用して新しいクラスターを作成します。pcluster delete-cluster を使用して元のクラスターを削除します。

更新ポリシー: この設定を更新で変更するためには、コンピューティングフリートが停止しているか、QueueUpdateStrategy が設定されている必要があります。

これらの設定は変更することができます。コンピューティングフリートを停止するか (pcluster update-compute-fleet を使用します)、QueueUpdateStrategy を設定する必要があります。コンピューティングフリートを停止されるか、QueueUpdateStrategy が設定された後、クラスター (pcluster update-cluster) を更新して変更を有効にすることができます。

注記

この更新ポリシーは、 AWS ParallelCluster バージョン 3.2.0 以降でサポートされています。

更新ポリシー:このリスト値の設定では、更新中に新しい値を追加することができ、既存の値を削除する場合はコンピューティングフリートを停止する必要があります。

これらの設定には更新時に新しい値を追加できます。リストに新しい値を追加すると、クラスターは (pcluster update-cluster) を使用して更新できます。

リストから既存の値を削除するには、コンピューティングフリートを (pcluster update-compute-fleet を使用して) 停止する必要があります。

例えば、Slurm スケジューラと新しいインスタンスタイプを Instances/InstanceType に追加すると、コンピューティングフリートを停止することなくクラスターを更新できます。Instances/InstanceType から既存のインスタンスタイプを削除するには、コンピューティングフリートを最初に停止する必要があります (pcluster update-compute-fleetを使用)。

注記

この更新ポリシーは、 AWS ParallelCluster バージョン 3.2.0 以降でサポートされています。

更新ポリシー: キューのサイズを減らすには、コンピューティングフリートを停止するか、更新のためにTERMINATEこの設定を変更するには に設定QueueUpdateStrategyする必要があります。

これらの設定は変更できますが、変更によってキューのサイズが小さくなる場合は、コンピューティングフリートを停止するか (pcluster を使用 update-compute-fleet)、 に設定QueueUpdateStrategyする必要がありますTERMINATE。コンピューティングフリートが停止するか、 にQueueUpdateStrategy設定されたらTERMINATE、クラスター (pcluster update-cluster を更新して変更をアクティブ化できます。

クラスターの容量のサイズを変更すると、 TERMINATEセットはノードリストの背面からのみノードを終了し、同じパーティションの他のすべてのノードはそのまま残ります。

例えば、クラスターの初期容量が MinCount = 5および の場合MaxCount = 10、ノードは ですst-[1-5]; dy-[1-5]。クラスターを MinCount = 3および にサイズ変更する場合MaxCount = 5、新しいクラスター容量はノード によって構成st-[1-3]; dy-[1-2]されます。ノード は更新中には触れません。更新中にノードのみがst-[4-5]; dy-[3-5]終了します。

以下の変更はサポートされており、コンピューティングフリートを停止したり、 を QueueUpdateStrategyに設定したりする必要はありませんTERMINATE。

  • 新しい SlurmQueueが追加されました

  • 新しい ComputeResourceが追加されました

  • MaxCount が増加

  • MinCount は増加し、少なくとも同じ量だけ増加MaxCountします

    注: この更新ポリシーは、 AWS ParallelCluster バージョン 3.9.0 以降でサポートされています。

更新ポリシー: このリスト値の設定では、コンピューティングフリートを停止するか、QueueUpdateStrategy が設定されている必要があります。既存の値を削除する場合は、コンピューティングフリートを停止する必要があります。

これらの設定には更新時に新しい値を追加できます。コンピューティングフリートを停止するか (pcluster update-compute-fleet を使用します)、QueueUpdateStrategy を設定する必要があります。コンピューティングフリートを停止されるか、QueueUpdateStrategy が設定された後、クラスター (pcluster update-cluster) を更新して変更を有効にすることができます。

リストから既存の値を削除するには、コンピューティングフリートを (pcluster update-compute-fleet を使用して) 停止する必要があります。

注記

この更新ポリシーは、 AWS ParallelCluster バージョン 3.3.0 以降でサポートされています。

更新ポリシー: マネージドプレースメントグループを削除するには、すべてのコンピューティングノードを停止する必要があります。この設定を更新で変更するためには、コンピューティングフリートが停止しているか、QueueUpdateStrategy が設定されている必要があります。

マネージドプレイスメントグループを削除するには、コンピューティングフリートを停止 (pcluster update-compute-fleet を使用します) する必要があります。コンピューティングフリートを停止する前にクラスター更新を実行してマネージドプレイスメントグループを削除すると、無効な設定メッセージが返され、更新は続行されません。コンピューティングフリートを停止すると、インスタンスが実行されていないことが保証されます。

pcluster update-cluster の例

これらの設定は変更できますが、変更によってキューのサイズが小さくなる場合は、コンピューティングフリートを停止するか (pcluster を使用 update-compute-fleet)、 に設定QueueUpdateStrategyする必要がありますTERMINATE。コンピューティングフリートが停止するか、 にQueueUpdateStrategy設定されたらTERMINATE、クラスター (pcluster update-cluster を更新して変更をアクティブ化できます。

  • この例では、いくつかの許可された変更を伴う更新を実際に行い、更新を直接開始します。

    $ pcluster update-cluster --cluster-name cluster_name --cluster-config ~/.parallelcluster/test_cluster --region us-east-1 { "cluster": { "clusterName": cluster_name, "cloudformationStackStatus": "UPDATE_IN_PROGRESS", "cloudformationStackArn": stack_arn, "region": "us-east-1", "version": "3.7.0", "clusterStatus": "UPDATE_IN_PROGRESS" }, "changeSet": [ { "parameter": "HeadNode.Networking.AdditionalSecurityGroups", "requestedValue": [ "sg-0cd61884c4ad11234" ], "currentValue": [ "sg-0cd61884c4ad16341" ] } ] }
  • この例では、いくつかの変更が許可されたドライランアップデートを行います。ドライランは、アップデートを開始せずに変更内容を報告するのに便利です。

    $ pcluster update-cluster --cluster-name cluster_name --cluster-config ~/.parallelcluster/test_cluster --region us-east-1 --dryrun true { "message": "Request would have succeeded, but DryRun flag is set.", "changeSet": [ { "parameter": "HeadNode.Networking.AdditionalSecurityGroups", "requestedValue": [ "sg-0cd61884c4ad11234" ], "currentValue": [ "sg-0cd61884c4ad16341" ] } ] }
  • この例では、アップデートをブロックするいくつかの変更を加えたアップデートです。

    $ pcluster update-cluster --cluster-name cluster_name --cluster-config ~/.parallelcluster/test_cluster --region us-east-1 { "message": "Update failure", "updateValidationErrors": [ { "parameter": "HeadNode.Ssh.KeyName", "requestedValue": "mykey_2", "message": "Update actions are not currently supported for the 'KeyName' parameter. Restore 'KeyName' value to 'jenkinsjun'. If you need this change, please consider creating a new cluster instead of updating the existing one.", "currentValue": "mykey_1" }, { "parameter": "Scheduling.SlurmQueues[queue1].ComputeResources[queue1-t2micro].InstanceType", "requestedValue": "c4.xlarge", "message": "All compute nodes must be stopped. Stop the compute fleet with the pcluster update-compute-fleet command", "currentValue": "t2.micro" }, { "parameter": "SharedStorage[ebs1].MountDir", "requestedValue": "/my/very/very/long/shared_dir", "message": "Update actions are not currently supported for the 'MountDir' parameter. Restore 'MountDir' value to '/shared'. If you need this change, please consider creating a new cluster instead of updating the existing one.", "currentValue": "/shared" } ], "changeSet": [ { "parameter": "HeadNode.Networking.AdditionalSecurityGroups", "requestedValue": [ "sg-0cd61884c4ad11234" ], "currentValue": [ "sg-0cd61884c4ad16341" ] }, { "parameter": "HeadNode.Ssh.KeyName", "requestedValue": "mykey_2", "currentValue": "mykey_1" }, { "parameter": "Scheduling.SlurmQueues[queue1].ComputeResources[queue1-t2micro].InstanceType", "requestedValue": "c4.xlarge", "currentValue": "t2.micro" }, { "parameter": "SharedStorage[ebs1].MountDir", "requestedValue": "/my/very/very/long/shared_dir", "currentValue": "/shared" } ] }