Cara kerja linear learner - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Cara kerja linear learner

Ada tiga langkah yang terlibat dalam implementasi algoritma pembelajar linier: preprocess, train, dan validate.

Langkah 1: Pra-proses

Normalisasi, atau penskalaan fitur, adalah langkah pra-pemrosesan penting untuk fungsi kerugian tertentu yang memastikan model yang dilatih pada kumpulan data tidak didominasi oleh bobot satu fitur. Algoritma Amazon SageMaker Linear Learner memiliki opsi normalisasi untuk membantu langkah pra-pemrosesan ini. Jika normalisasi dihidupkan, algoritme pertama-tama membahas sampel kecil data untuk mempelajari nilai rata-rata dan standar deviasi untuk setiap fitur dan untuk label. Setiap fitur dalam kumpulan data lengkap kemudian digeser untuk memiliki rata-rata nol dan diskalakan untuk memiliki standar deviasi unit.

catatan

Untuk hasil terbaik, pastikan data Anda dikocokkan sebelum pelatihan. Pelatihan dengan data yang tidak diacak dapat menyebabkan pelatihan gagal.

Anda dapat mengonfigurasi apakah algoritme pembelajar linier menormalkan data fitur dan label masing-masing menggunakan normalize_data dan normalize_label hiperparameter. Normalisasi diaktifkan secara default untuk fitur dan label untuk regresi. Hanya fitur yang dapat dinormalisasi untuk klasifikasi biner dan ini adalah perilaku default.

Langkah 2: Melatih

Dengan algoritma pembelajar linier, Anda berlatih dengan implementasi terdistribusi dari penurunan gradien stokastik (SGD). Anda dapat mengontrol proses pengoptimalan dengan memilih algoritma pengoptimalan. Misalnya, Anda dapat memilih untuk menggunakan Adam,, penurunan gradien stokastik AdaGrad, atau algoritme pengoptimalan lainnya. Anda juga menentukan hiperparameternya, seperti momentum, tingkat pembelajaran, dan jadwal tingkat pembelajaran. Jika Anda tidak yakin algoritma atau nilai hyperparameter mana yang akan digunakan, pilih default yang berfungsi untuk sebagian besar kumpulan data.

Selama pelatihan, Anda secara bersamaan mengoptimalkan beberapa model, masing-masing dengan tujuan yang sedikit berbeda. Misalnya, Anda memvariasikan regularisasi L1 atau L2 dan mencoba pengaturan pengoptimal yang berbeda.

Langkah 3: Validasi dan atur ambang batas

Saat melatih beberapa model secara paralel, model dievaluasi terhadap set validasi untuk memilih model yang paling optimal setelah pelatihan selesai. Untuk regresi, model yang paling optimal adalah model yang mencapai kerugian terbaik pada set validasi. Untuk klasifikasi, sampel set validasi digunakan untuk mengkalibrasi ambang klasifikasi. Model paling optimal yang dipilih adalah model yang mencapai kriteria pemilihan klasifikasi biner terbaik pada set validasi. Contoh kriteria tersebut termasuk ukuran F1, akurasi, dan kehilangan entropi silang.

catatan

Jika algoritma tidak disediakan set validasi, maka mengevaluasi dan memilih model yang paling optimal tidak mungkin. Untuk memanfaatkan pelatihan paralel dan pemilihan model, pastikan Anda memberikan set validasi ke algoritme.