Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Model linier adalah algoritma pembelajaran yang diawasi yang digunakan untuk memecahkan masalah klasifikasi atau regresi. Untuk masukan, Anda memberikan contoh berlabel model (x, y). x adalah vektor berdimensi tinggi dan y adalah label numerik. Untuk masalah klasifikasi biner, label harus 0 atau 1. Untuk masalah klasifikasi multiclass, label harus dari 0 hingga num_classes
- 1. Untuk masalah regresi, y adalah bilangan real. Algoritma mempelajari fungsi linier, atau, untuk masalah klasifikasi, fungsi ambang linier, dan memetakan vektor x ke perkiraan label y.
Algoritma pembelajar linier Amazon SageMaker AI memberikan solusi untuk masalah klasifikasi dan regresi. Dengan algoritma SageMaker AI, Anda dapat secara bersamaan menjelajahi berbagai tujuan pelatihan dan memilih solusi terbaik dari set validasi. Anda juga dapat menjelajahi sejumlah besar model dan memilih yang terbaik. Model terbaik mengoptimalkan salah satu dari berikut ini:
-
Tujuan berkelanjutan, seperti kesalahan kuadrat rata-rata, kehilangan entropi silang, kesalahan absolut.
-
Tujuan diskrit cocok untuk klasifikasi, seperti ukuran F1, presisi, penarikan, atau akurasi.
Dibandingkan dengan metode yang memberikan solusi hanya untuk tujuan berkelanjutan, algoritme pembelajar linier SageMaker AI memberikan peningkatan kecepatan yang signifikan dibandingkan teknik optimasi hiperparameter yang naif. Hal ini juga lebih nyaman.
Algoritma pembelajar linier membutuhkan matriks data, dengan baris yang mewakili pengamatan, dan kolom yang mewakili dimensi fitur. Ini juga membutuhkan kolom tambahan yang berisi label yang cocok dengan titik data. Minimal, Amazon SageMaker AI linear learner mengharuskan Anda menentukan lokasi data input dan output, serta tipe objektif (klasifikasi atau regresi) sebagai argumen. Dimensi fitur juga diperlukan. Untuk informasi selengkapnya, lihat CreateTrainingJob
. Anda dapat menentukan parameter tambahan di peta HyperParameters
string dari badan permintaan. Parameter ini mengontrol proses pengoptimalan, atau spesifikasi fungsi tujuan yang Anda latih. Misalnya, jumlah zaman, regularisasi, dan jenis kerugian.
Jika Anda menggunakan Pelatihan Spot Terkelola, algoritme pelajar linier mendukung penggunaan pos pemeriksaan untuk mengambil snapshot status model.
Topik
Antarmuka Input/Output untuk algoritma pembelajar linier
Algoritma pembelajar linear Amazon SageMaker AI mendukung tiga saluran data: melatih, validasi (opsional), dan pengujian (opsional). Jika Anda memberikan data validasi, S3DataDistributionType
seharusnyaFullyReplicated
. Algoritma mencatat kehilangan validasi di setiap zaman, dan menggunakan sampel data validasi untuk mengkalibrasi dan memilih model terbaik. Jika Anda tidak memberikan data validasi, algoritme menggunakan sampel data pelatihan untuk mengkalibrasi dan memilih model. Jika Anda memberikan data pengujian, log algoritme menyertakan skor tes untuk model akhir.
Untuk pelatihan, algoritma pembelajar linier mendukung keduanya recordIO-wrapped protobuf
dan CSV
format. Untuk tipe application/x-recordio-protobuf
input, hanya tensor Float32 yang didukung. Untuk tipe text/csv
input, kolom pertama diasumsikan sebagai label, yang merupakan variabel target untuk prediksi. Anda dapat menggunakan mode File atau mode Pipe untuk melatih model pelajar linier pada data yang diformat sebagai recordIO-wrapped-protobuf
atau sebagai. CSV
Untuk inferensi, algoritma pembelajar linier mendukungapplication/json
,application/x-recordio-protobuf
, dan text/csv
format. Ketika Anda membuat prediksi pada data baru, format respons tergantung pada jenis model. Untuk regresi (predictor_type='regressor'
), score
adalah prediksi yang dihasilkan oleh model. Untuk klasifikasi (predictor_type='binary_classifier'
ataupredictor_type='multiclass_classifier'
), model mengembalikan a score
dan juga apredicted_label
. predicted_label
Ini adalah kelas yang diprediksi oleh model dan score
mengukur kekuatan prediksi itu.
-
Untuk klasifikasi biner
1
,predicted_label
adalah0
atau, danscore
merupakan nomor floating point tunggal yang menunjukkan seberapa kuat algoritma percaya bahwa label harus 1. -
Untuk klasifikasi multiclass,
predicted_class
akan menjadi bilangan bulat dari0
kenum_classes-1
, danscore
akan menjadi daftar satu nomor floating point per kelas.
Untuk menafsirkan masalah klasifikasi, Anda harus mempertimbangkan fungsi kerugian yang digunakan. score
Jika nilai loss
hyperparameter adalah logistic
untuk klasifikasi biner atau softmax_loss
untuk klasifikasi multiclass, maka score
dapat diartikan sebagai probabilitas kelas yang sesuai. Ini adalah nilai kerugian yang digunakan oleh pelajar linier ketika loss
nilainya adalah nilai auto
default. Tetapi jika kerugian diatur kehinge_loss
, maka skor tidak dapat diartikan sebagai probabilitas. Ini karena kehilangan engsel sesuai dengan Support Vector Classifier, yang tidak menghasilkan perkiraan probabilitas.
Untuk informasi selengkapnya tentang format file input dan output, lihatFormat respons pelajar linier. Untuk informasi lebih lanjut tentang format inferensi, dan. Buku catatan sampel pelajar linier
EC2 rekomendasi contoh untuk algoritma pembelajar linier
Algoritma pembelajar linier mendukung instance CPU dan GPU untuk pelatihan dan inferensi. Untuk GPU, algoritma pembelajar linier mendukung keluarga GPU P2, P3, G4dn, dan G5.
Selama pengujian, kami belum menemukan bukti substansional bahwa instans multi-GPU lebih cepat daripada instans GPU tunggal. Hasil dapat bervariasi, tergantung pada kasus penggunaan spesifik Anda.
Buku catatan sampel pelajar linier
Tabel berikut menguraikan berbagai contoh buku catatan yang membahas berbagai kasus penggunaan algoritme pelajar linier Amazon SageMaker AI.
Judul Notebook | Deskripsi |
---|---|
Menggunakan dataset MNIST, kami melatih pengklasifikasi biner untuk memprediksi satu digit. |
|
Menggunakan kumpulan data Covertype UCI, kami mendemonstrasikan cara melatih pengklasifikasi multiclass. |
|
Bagaimana Membangun Pipeline Machine Learning (ML) untuk Inferensi? |
Menggunakan kontainer Scikit-learn, kami mendemonstrasikan cara membuat pipeline HTML. end-to-end |
Untuk petunjuk tentang cara membuat dan mengakses instance notebook Jupyter yang dapat Anda gunakan untuk menjalankan contoh di SageMaker AI, lihat. Instans SageMaker Notebook Amazon Setelah Anda membuat instance notebook dan membukanya, pilih tab Contoh SageMaker AI untuk melihat daftar semua sampel SageMaker AI. Contoh buku catatan pemodelan topik menggunakan algoritme pembelajaran linier terletak di bagian Pengantar Algoritma Amazon. Untuk membuka buku catatan, pilih tab Use dan pilih Create copy.