Slurm akuntansi dengan AWS ParallelCluster - AWS ParallelCluster

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Slurm akuntansi dengan AWS ParallelCluster

Dimulai dengan versi 3.3.0, mendukung AWS ParallelCluster Slurm akuntansi dengan parameter konfigurasi klaster SlurmSettings/Database.

Dimulai dengan versi 3.10.0, mendukung AWS ParallelCluster Slurm akuntansi dengan Slurmdbd eksternal dengan parameter konfigurasi cluster/. SlurmSettingsExternalSlurmdbd Menggunakan Slurmdbd eksternal disarankan jika beberapa cluster berbagi database yang sama.

Dengan Slurm akuntansi, Anda dapat mengintegrasikan database akuntansi eksternal untuk melakukan hal berikut:

  • Mengelola pengguna klaster atau grup pengguna dan entitas lainnya. Dengan kemampuan ini, Anda dapat menggunakan Slurmfitur yang lebih canggih, seperti penegakan batas sumber daya, fairshare, danQOSs.

  • Kumpulkan dan simpan data pekerjaan, seperti pengguna yang menjalankan pekerjaan, durasi pekerjaan, dan sumber daya yang digunakannya. Anda dapat melihat data yang disimpan dengan sacct utilitas.

catatan

AWS ParallelCluster mendukung Slurm akuntansi untuk Slurm didukung Server SQL database saya.

Bekerja dengan Slurm akuntansi menggunakan eksternal Slurmdbd di AWS ParallelCluster v3.10.0 dan yang lebih baru

Sebelum Anda mengkonfigurasi Slurm akuntansi, Anda harus memiliki eksternal yang ada Slurmdbd server database, yang terhubung ke server database eksternal yang ada.

Untuk mengonfigurasi ini, tentukan yang berikut ini:

  • Alamat eksternal Slurmdbd server ExternalSlurmdbddi/Host. Server harus ada dan dapat dijangkau dari node kepala.

  • Kunci munge untuk berkomunikasi dengan eksternal Slurmdbd server di MungeKeySecretArn.

Untuk melangkah melalui tutorial, lihatMembuat cluster dengan Slurmdbd akuntansi eksternal.

catatan

Anda bertanggung jawab untuk mengelola Slurm entitas akuntansi basis data.

Arsitektur AWS ParallelCluster eksternal SlurmDB fitur dukungan memungkinkan beberapa cluster berbagi yang sama SlurmDB Database yang sama.

A flowchart depicting the Database Stack, Slurmdbd stack, PC Cluster Stack 1, and PC Cluster Stack 2. Containing components such as Slurmdbd instance, RDS Aurora MySQL Database, and Login nodes.

Awas

Lalu lintas antara AWS ParallelCluster dan eksternal SlurmDB tidak dienkripsi. Disarankan untuk menjalankan cluster dan eksternal SlurmDB dalam jaringan yang terpercaya.

Bekerja dengan Slurm akuntansi menggunakan node kepala Slurmdbd di AWS ParallelCluster v3.3.0 dan yang lebih baru

Sebelum Anda mengkonfigurasi Slurm akuntansi, Anda harus memiliki server database eksternal yang ada dan database yang menggunakan mysql protokol.

Untuk mengkonfigurasi Slurm akuntansi dengan AWS ParallelCluster, Anda harus mendefinisikan yang berikut:

  • URIUntuk server database eksternal di Database/Uri. Server harus ada dan dapat dijangkau dari node kepala.

  • Kredensi untuk mengakses database eksternal yang didefinisikan dalam Database/PasswordSecretArndan Database/. UserName AWS ParallelCluster menggunakan informasi ini untuk mengkonfigurasi akuntansi di Slurm tingkat dan slurmdbd layanan pada node kepala. slurmdbdadalah daemon yang mengelola komunikasi antara cluster dan server database.

Untuk melangkah melalui tutorial, lihatMembuat cluster dengan Slurm akuntansi.

catatan

AWS ParallelCluster melakukan bootstrap dasar dari Slurm database akuntansi dengan menetapkan pengguna cluster default sebagai admin database di Slurm basis data. AWS ParallelCluster tidak menambahkan pengguna lain ke database akuntansi. Pelanggan bertanggung jawab untuk mengelola entitas akuntansi di Slurm basis data.

AWS ParallelCluster mengkonfigurasi slurmdbduntuk memastikan bahwa sebuah cluster memiliki miliknya sendiri Slurm database pada server database. Server database yang sama dapat digunakan di beberapa cluster, tetapi setiap cluster memiliki database tersendiri. AWS ParallelCluster menggunakan nama cluster untuk menentukan nama untuk database dalam StorageLocparameter file slurmdbd konfigurasi. Pertimbangkan situasi berikut. Database yang ada di server database menyertakan nama cluster yang tidak dipetakan ke nama cluster aktif. Dalam hal ini, Anda dapat membuat cluster baru dengan nama cluster tersebut untuk dipetakan ke database tersebut. Slurm menggunakan kembali database untuk cluster baru.

Awas
  • Kami tidak menyarankan menyiapkan lebih dari satu cluster untuk menggunakan database yang sama sekaligus. Melakukannya dapat menyebabkan masalah kinerja atau bahkan situasi kebuntuan database.

  • Jika Slurm akuntansi diaktifkan pada node kepala cluster, kami sarankan menggunakan jenis instance dengan memori yang kuatCPU, lebih banyak, dan bandwidth jaringan yang lebih tinggi. Slurm akuntansi dapat menambah ketegangan pada simpul kepala cluster.

Dalam arsitektur saat ini dari AWS ParallelCluster Slurm fitur akuntansi, setiap cluster memiliki instance sendiri dari slurmdbd daemon seperti yang ditunjukkan dalam konfigurasi contoh diagram berikut.

A configuration with two clusters that are connected to a MySQL server. Each cluster has their own slurmdbd daemon instance. Moreover, each cluster is connected to its own database through the server. Another configuration with a single cluster that has its own slurmdbd daemon instance. This configuration is connected to a MySQL server and is also connected to its own database through the server.

Jika Anda menambahkan kustom Slurm fungsionalitas multi-cluster atau federasi ke lingkungan cluster Anda, semua cluster harus mereferensikan instance yang sama. slurmdbd Untuk alternatif ini, kami sarankan Anda mengaktifkan AWS ParallelCluster Slurm akuntansi pada satu cluster dan secara manual mengkonfigurasi cluster lain untuk terhubung ke slurmdbd yang di-host pada cluster pertama.

Jika Anda menggunakan AWS ParallelCluster versi sebelum versi 3.3.0, lihat metode alternatif untuk diterapkan Slurm akuntansi yang dijelaskan dalam Posting HPC Blog ini.

Slurm pertimbangan akuntansi

Database dan cluster berbeda VPCs

Untuk mengaktifkan Slurm akuntansi, server database diperlukan untuk berfungsi sebagai backend untuk operasi baca dan tulis yang dilakukan slurmdbd daemon. Sebelum cluster dibuat atau diperbarui untuk mengaktifkan Slurm akuntansi, node kepala harus dapat mencapai server database.

Jika Anda perlu menyebarkan server database di server VPC selain yang digunakan cluster, pertimbangkan hal berikut:

  • Untuk mengaktifkan komunikasi antara slurmdbd sisi cluster dan server database, Anda harus mengatur konektivitas antara keduanyaVPCs. Untuk informasi selengkapnya, lihat VPCMengintip di Panduan Pengguna Amazon Virtual Private Cloud.

  • Anda harus membuat grup keamanan yang ingin Anda lampirkan ke node kepala VPC pada cluster. Setelah keduanya VPCs diintip, tautan silang antara sisi database dan grup keamanan sisi cluster tersedia. Untuk informasi selengkapnya, lihat Aturan Grup Keamanan di Panduan Pengguna Amazon Virtual Private Cloud.

Mengkonfigurasi TLS enkripsi antara slurmdbd dan server database

Dengan default Slurm konfigurasi akuntansi yang AWS ParallelCluster menyediakan, slurmdbd menetapkan koneksi TLS terenkripsi ke server database, jika server mendukung enkripsi. TLS AWS layanan basis data seperti Amazon RDS dan Amazon Aurora mendukung TLS enkripsi secara default.

Anda dapat memerlukan koneksi aman di sisi server dengan mengatur require_secure_transport parameter pada server database. Ini dikonfigurasi dalam CloudFormation template yang disediakan.

Mengikuti praktik keamanan terbaik, kami menyarankan Anda juga mengaktifkan verifikasi identitas server pada slurmdbd klien. Untuk melakukan ini, konfigurasikan StorageParametersdislurmdbd.conf. Unggah sertifikat CA server ke node kepala cluster. Selanjutnya, atur opsi SSL_CA dari StorageParameters in slurmdbd.conf ke jalur sertifikat CA server pada node kepala. Melakukan hal ini memungkinkan verifikasi identitas server di slurmdbd samping. Setelah Anda membuat perubahan ini, restart slurmdbd layanan untuk membangun kembali konektivitas ke server database dengan verifikasi identitas diaktifkan.

Memperbarui kredensi database

Untuk memperbarui nilai untuk Database/UserNameatau PasswordSecretArn, Anda harus terlebih dahulu menghentikan armada komputasi. Misalkan nilai rahasia yang disimpan dalam AWS Secrets Manager rahasia diubah dan ARN tidak berubah. Dalam situasi ini, cluster tidak secara otomatis memperbarui kata sandi database ke nilai baru. Untuk memperbarui cluster untuk nilai rahasia baru, jalankan perintah berikut dari node kepala.

$ sudo /opt/parallelcluster/scripts/slurm/update_slurm_database_password.sh
Awas

Untuk menghindari kehilangan data akuntansi, kami sarankan Anda hanya mengubah kata sandi database saat armada komputasi dihentikan.

Pemantauan basis data

Kami menyarankan Anda mengaktifkan fitur pemantauan layanan AWS database. Untuk informasi selengkapnya, lihat dokumentasi RDS pemantauan Amazon atau pemantauan Amazon Aurora.