で Slurm クラスターで本番稼働ワークロードを実行する前にランタイムを検証する HyperPod - Amazon SageMaker

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

で Slurm クラスターで本番稼働ワークロードを実行する前にランタイムを検証する HyperPod

で Slurm クラスターで本番稼働ワークロードを実行する前にランタイムを確認するには HyperPod、ランタイム検証スクリプト を使用しますhyperpod-precheck.py。このスクリプトは、Slurm クラスターに Docker を実行するためのすべてのパッケージがインストールされているかどうか、クラスターに Lustre ファイルシステムFSx用の とファイルシステムを共有するユーザーディレクトリが適切にマウントされているかどうか、および Slurm デアモンがすべてのコンピューティングノードで実行されているかどうかを確認します。

スクリプトを複数のノードで一度に実行するには、次の 8 ノードの Slurm クラスターでスクリプトを実行するコマンド例srunに示すように を使用します。

# The following command runs on 8 nodes srun -N 8 python3 hyperpod-precheck.py
注記

スクリプトが提供するランタイム検証関数や、検証に合格しない問題を解決するためのガイドラインなど、検証スクリプトの詳細については、「Awsome Distributed Training GitHub リポジトリワークロードを実行する前にランタイム検証」を参照してください。