翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
PCS AWS のスケジューラログ
クラスタースケジューラから Amazon CloudWatch Logs、Amazon Simple Storage Service (Amazon S3)、Amazon Data Firehose に詳細なログデータを送信するように AWS PCS を設定できます。これは、モニタリングとトラブルシューティングに役立ちます。
AWS PCS は、ログタイプを介して次の Slurm デーモンからPCS_SCHEDULER_LOGSログを配信します。
-
slurmctld— Slurm コントローラーデーモン。サポートされているすべての Slurm バージョンで使用できます。 -
slurmdbd— Slurm データベースデーモン。Slurm 24.11 以降で使用できます。 -
slurmrestd— Slurm REST API デーモン。Slurm 25.05 以降で使用できます。
既にPCS_SCHEDULER_LOGS配信が設定されているクラスターは、サポートされている Slurm バージョンを実行すると、 slurmdbdおよび slurmrestdログの受信を自動的に開始します。追加の設定は必要ありません。
前提条件
PCS クラスターを管理する IAM AWS プリンシパルは、 pcs:AllowVendedLogDeliveryForResourceアクションを許可する必要があります。
次の IAM ポリシーの例では、必要なアクセス許可を付与します。
スケジューラログの設定
AWS マネジメントコンソール または を使用して、PCS AWS クラスターのスケジューラログを設定できます AWS CLI。
スケジューラログストリームのパスと名前
AWS PCS スケジューラログのパスと名前は、送信先タイプによって異なります。
以下のパスの${log_name}値はslurmctld、ログを生成したデーモンに応じて、slurmrestd、、slurmdbdまたは です。
-
CloudWatch Logs
-
CloudWatch Logs ストリームは、この命名規則に従います。
AWSLogs/PCS/${cluster_id}/${log_name}_${scheduler_major_version}.log例
AWSLogs/PCS/abcdef0123/slurmctld_25.11.log AWSLogs/PCS/abcdef0123/slurmdbd_24.11.log AWSLogs/PCS/abcdef0123/slurmrestd_25.05.log
-
-
S3 バケット
-
S3 バケット出力パスは次の命名規則に従います。
AWSLogs/${account-id}/PCS/${region}/${cluster_id}/${log_name}/${scheduler_major_version}/yyyy/MM/dd/HH/例
AWSLogs/111111111111/PCS/us-east-2/abcdef0123/slurmctld/25.11/2024/09/01/00/ AWSLogs/111111111111/PCS/us-east-2/abcdef0123/slurmdbd/24.11/2024/09/01/00/ AWSLogs/111111111111/PCS/us-east-2/abcdef0123/slurmrestd/25.05/2024/09/01/00/
-
S3 オブジェクト名は次の規則に従います。
PCS_${log_name}_${scheduler_major_version}_#{expr date 'event_timestamp', format: "yyyy-MM-dd-HH"}_${cluster_id}_${hash}.log例
PCS_slurmctld_25.11_2024-09-01-00_abcdef0123_0123abcdef.log
-
スケジューラログレコードの例
AWS PCS スケジューラログは構造化されています。これには、Slurm デーモンプロセスから出力されるログメッセージに加えて、クラスター識別子、スケジューラタイプ、メジャーバージョン、パッチバージョンなどのフィールドが含まれます。フィールドlog_nameと node_typeフィールドは、ログを生成したデーモンを識別します。
次の例は、slurmctldログレコードを示しています。
{
"resource_id": "s3431v9rx2",
"resource_type": "PCS_CLUSTER",
"event_timestamp": 1721230979,
"log_level": "info",
"log_name": "slurmctld",
"scheduler_type": "slurm",
"scheduler_major_version": "25.11",
"scheduler_patch_version": "2",
"node_type": "controller_primary",
"message": "[2024-07-17T15:42:58.614+00:00] Running as primary controller\n"
}
次の例は、slurmdbdログレコード (Slurm 24.11 以降) を示しています。
{
"resource_id": "pcs_bu93qsds2j",
"resource_type": "PCS_CLUSTER",
"event_timestamp": 1774485082772,
"log_level": "info",
"log_name": "slurmdbd",
"scheduler_type": "slurm",
"scheduler_major_version": "25.11",
"scheduler_patch_version": "2",
"node_type": "slurmdbd_primary",
"message": "[2026-03-26T00:31:22.772+00:00] mysql_common: storage token refreshed"
}
次の例は、slurmrestdログレコード (Slurm 25.05 以降) を示しています。
{
"resource_id": "pcs_bu93qsds2j",
"resource_type": "PCS_CLUSTER",
"event_timestamp": 1774485082772,
"log_level": "info",
"log_name": "slurmrestd",
"scheduler_type": "slurm",
"scheduler_major_version": "25.05",
"scheduler_patch_version": "3",
"node_type": "slurmrestd_primary",
"message": "[2026-03-26T00:31:22.772+00:00] slurmrestd: Listening on port 6820\n"
}