Menjalankan pekerjaan pelatihan pada cluster heterogen - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Menjalankan pekerjaan pelatihan pada cluster heterogen

Dengan menggunakan fitur klaster heterogen dari SageMaker Pelatihan, Anda dapat menjalankan pekerjaan pelatihan dengan beberapa jenis instans ML untuk penskalaan dan pemanfaatan sumber daya yang lebih baik untuk tugas dan tujuan pelatihan ML yang berbeda. Misalnya, jika pekerjaan pelatihan Anda di klaster dengan GPU instance mengalami masalah GPU pemanfaatan dan CPU kemacetan yang rendah karena tugas CPU -intensif, menggunakan klaster heterogen dapat membantu menurunkan CPU tugas intensif dengan menambahkan grup CPU instans yang lebih hemat biaya, menyelesaikan masalah kemacetan tersebut, dan mencapai pemanfaatan yang lebih baik. GPU

catatan

Fitur ini tersedia di SageMaker Python SDK v2.98.0 dan yang lebih baru.

catatan

Fitur ini tersedia melalui kelas estimator SageMaker PyTorchdan TensorFlowkerangka kerja. Kerangka kerja yang didukung adalah PyTorch v1.10 atau yang lebih baru dan TensorFlow v2.6 atau yang lebih baru.

Lihat juga blog Meningkatkan kinerja harga pelatihan model Anda menggunakan klaster SageMaker heterogen Amazon.