Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Erkunden Sie die Cluster-Umgebung in AWS PCS
Nachdem Sie sich beim Cluster angemeldet haben, können Sie Shell-Befehle ausführen. Sie können beispielsweise Benutzer wechseln, mit Daten auf gemeinsam genutzten Dateisystemen arbeiten und mit Slurm interagieren.
Benutzer ändern
Wenn Sie sich mit Session Manager beim Cluster angemeldet haben, sind Sie möglicherweise verbunden alsssm-user
. Dies ist ein spezieller Benutzer, der für Session Manager erstellt wurde. Wechseln Sie mit dem folgenden Befehl zum Standardbenutzer auf Amazon Linux 2. Sie müssen dies nicht tun, wenn Sie eine Verbindung über SSH hergestellt haben.
sudo su - ec2-user
Arbeiten Sie mit gemeinsam genutzten Dateisystemen
Mit dem Befehl können Sie überprüfen, ob das EFS-Dateisystem und FSx die Lustre-Dateisysteme verfügbar sind. df -h
Die Ausgabe auf Ihrem Cluster sollte wie folgt aussehen:
[ec2-user@ip-10-3-6-103 ~]$ df -h Filesystem Size Used Avail Use% Mounted on devtmpfs 3.8G 0 3.8G 0% /dev tmpfs 3.9G 0 3.9G 0% /dev/shm tmpfs 3.9G 556K 3.9G 1% /run tmpfs 3.9G 0 3.9G 0% /sys/fs/cgroup /dev/nvme0n1p1 24G 18G 6.6G 73% / 127.0.0.1:/ 8.0E 0 8.0E 0% /home 10.3.132.79@tcp:/zlshxbev 1.2T 7.5M 1.2T 1% /shared tmpfs 780M 0 780M 0% /run/user/0 tmpfs 780M 0 780M 0% /run/user/1000
Das /home
Dateisystem mountet 127.0.0.1 und hat eine sehr große Kapazität. Dies ist das EFS-Dateisystem, das Sie zu Beginn des Tutorials erstellt haben. Alle hier geschriebenen Dateien sind /home
auf allen Knoten im Cluster unter verfügbar.
Das /shared
Dateisystem mountet eine private IP und hat eine Kapazität von 1,2 TB. Dies ist das FSx For Lustre-Dateisystem, das Sie zu Beginn des Tutorials erstellt haben. Alle hier geschriebenen Dateien sind /shared
auf allen Knoten im Cluster unter verfügbar.
Interagiere mit Slurm
Listet Warteschlangen und Knoten auf
Sie können die Warteschlangen und die Knoten, mit denen sie verknüpft sind, auflisten. sinfo
Die Ausgabe Ihres Clusters sollte wie folgt aussehen:
[ec2-user@ip-10-3-6-103 ~]$ sinfo PARTITION AVAIL TIMELIMIT NODES STATE NODELIST demo up infinite 4 idle~ compute-1-[1-4] [ec2-user@ip-10-3-6-103 ~]$
Notieren Sie sich die benannte Partitiondemo
. Ihr Status ist up
und sie hat maximal 4 Knoten. Es ist Knoten in der compute-1
Knotengruppe zugeordnet. Wenn Sie die Compute-Knotengruppe bearbeiten und die maximale Anzahl von Instanzen auf 8 erhöhen, würde die Anzahl der Knoten lesen 8
und die Knotenliste würde lesencompute-1-[1-8]
. Wenn Sie eine zweite Rechenknotengruppe test
mit dem Namen 4 Knoten erstellen und sie der demo
Warteschlange hinzufügen würden, würden diese Knoten auch in der Knotenliste angezeigt.
Jobs anzeigen
Sie können alle Jobs in jedem Status auf dem System mit auflistensqueue
. Die Ausgabe Ihres Clusters sollte wie folgt aussehen:
[ec2-user@ip-10-3-6-103 ~]$ squeue JOBID PARTITION NAME USER ST TIME NODES NODELIST(REASON)
Versuchen Sie es später squeue
erneut, wenn ein Slurm-Job aussteht oder läuft.