

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

# Pengoptimalan
<a name="tutorial-gpu-opt"></a>

Untuk memaksimalkan GPUs, Anda dapat mengoptimalkan pipeline data dan menyetel jaringan pembelajaran mendalam Anda. Seperti yang dijelaskan bagan berikut, implementasi naif atau dasar dari jaringan saraf mungkin menggunakan GPU secara tidak konsisten dan tidak secara maksimal. Saat Anda mengoptimalkan preprocessing dan pemuatan data, Anda dapat mengurangi hambatan dari CPU ke GPU Anda. Anda dapat menyesuaikan jaringan saraf itu sendiri, dengan menggunakan hibridisasi (bila didukung oleh kerangka kerja), menyesuaikan ukuran batch, dan menyinkronkan panggilan. Anda juga dapat menggunakan pelatihan presisi ganda (float16 atau int8) di sebagian besar kerangka kerja, yang dapat memiliki efek dramatis pada peningkatan throughput. 

Bagan berikut menunjukkan peningkatan kinerja kumulatif saat menerapkan pengoptimalan yang berbeda. Hasil Anda akan tergantung pada data yang Anda proses dan jaringan yang Anda optimalkan.

![\[Peningkatan kinerja untuk GPUs\]](http://docs.aws.amazon.com/id_id/dlami/latest/devguide/images/performance-enhancements.png)


Panduan berikut memperkenalkan opsi yang akan bekerja dengan DLAMI Anda dan membantu Anda meningkatkan kinerja GPU.

**Topics**
+ [Pemrosesan awal](tutorial-gpu-opt-preprocessing.md)
+ [Pelatihan](tutorial-gpu-opt-training.md)

# Pemrosesan awal
<a name="tutorial-gpu-opt-preprocessing"></a>

Preprocessing data melalui transformasi atau augmentasi seringkali dapat menjadi proses yang terikat CPU, dan ini bisa menjadi hambatan dalam keseluruhan pipeline Anda. Kerangka kerja memiliki operator bawaan untuk pemrosesan gambar, tetapi DALI (Data Augmentation Library) menunjukkan peningkatan kinerja dibandingkan opsi bawaan kerangka kerja.
+ Perpustakaan Augmentasi Data NVIDIA (DALI): DALI membongkar augmentasi data ke GPU. Ini tidak diinstal sebelumnya pada DLAMI, tetapi Anda dapat mengaksesnya dengan menginstalnya atau memuat wadah kerangka kerja yang didukung pada DLAMI Anda atau instans Amazon Elastic Compute Cloud lainnya. Lihat [halaman proyek DALI](https://docs.nvidia.com/deeplearning/sdk/dali-install-guide/index.html) di situs web NVIDIA untuk detailnya. Untuk contoh kasus penggunaan dan untuk mengunduh sampel kode, lihat contoh Kinerja [Pelatihan SageMaker Preprocessing](https://github.com/aws-samples/sagemaker-cv-preprocessing-training-performance).
+ NVJPEG: perpustakaan dekoder JPEG yang dipercepat GPU untuk pemrogram C. [Ini mendukung decoding gambar tunggal atau batch serta operasi transformasi berikutnya yang umum dalam pembelajaran mendalam. nvJPEG dilengkapi built-in dengan DALI, atau Anda dapat mengunduh dari halaman nvjpeg situs web NVIDIA dan menggunakannya secara terpisah.](https://developer.nvidia.com/nvjpeg)

Anda mungkin tertarik dengan topik lain tentang pemantauan dan pengoptimalan GPU ini:
+ [Memantau](tutorial-gpu-monitoring.md)
  + [Monitor GPUs dengan CloudWatch](tutorial-gpu-monitoring-gpumon.md)
+ [Pengoptimalan](tutorial-gpu-opt.md)
  + [Pemrosesan awal](#tutorial-gpu-opt-preprocessing)
  + [Pelatihan](tutorial-gpu-opt-training.md)

# Pelatihan
<a name="tutorial-gpu-opt-training"></a>

Dengan pelatihan presisi campuran, Anda dapat menggunakan jaringan yang lebih besar dengan jumlah memori yang sama, atau mengurangi penggunaan memori dibandingkan dengan jaringan presisi tunggal atau ganda Anda, dan Anda akan melihat peningkatan kinerja komputasi. Anda juga mendapatkan manfaat dari transfer data yang lebih kecil dan lebih cepat, faktor penting dalam pelatihan terdistribusi beberapa node. Untuk memanfaatkan pelatihan presisi campuran, Anda perlu menyesuaikan pengecoran data dan penskalaan kerugian. Berikut ini adalah panduan yang menjelaskan cara melakukan ini untuk kerangka kerja yang mendukung presisi campuran.
+ [NVIDIA Deep Learning SDK](https://docs.nvidia.com/deeplearning/sdk/mixed-precision-training/) - dokumen di situs web NVIDIA yang menjelaskan implementasi presisi campuran untuk,, dan. MXNet PyTorch TensorFlow

**Tip**  
Pastikan untuk memeriksa situs web untuk kerangka pilihan Anda, dan cari “presisi campuran” atau “fp16" untuk teknik pengoptimalan terbaru. Berikut adalah beberapa panduan presisi campuran yang mungkin berguna bagi Anda:  
[Pelatihan presisi campuran dengan TensorFlow (video)](https://devblogs.nvidia.com/mixed-precision-resnet-50-tensor-cores/) - di situs blog NVIDIA.
[Pelatihan presisi campuran menggunakan float16 dengan MXNet - artikel](https://mxnet.apache.org/api/faq/float16) FAQ di situs web. MXNet 
[NVIDIA Apex: alat untuk pelatihan presisi campuran yang mudah dengan PyTorch](https://devblogs.nvidia.com/apex-pytorch-easy-mixed-precision-training/) - artikel blog di situs web NVIDIA.

Anda mungkin tertarik dengan topik lain tentang pemantauan dan pengoptimalan GPU ini:
+ [Memantau](tutorial-gpu-monitoring.md)
  + [Monitor GPUs dengan CloudWatch](tutorial-gpu-monitoring-gpumon.md)
+ [Pengoptimalan](tutorial-gpu-opt.md)
  + [Pemrosesan awal](tutorial-gpu-opt-preprocessing.md)
  + [Pelatihan](#tutorial-gpu-opt-training)