Input/Output antarmuka untuk algoritma pembelajar linier Rekomendasi instans EC2 untuk algoritma pembelajar linier Buku catatan sampel pelajar linier

Algoritma Pembelajar Linear

Model linier adalah algoritma pembelajaran yang diawasi yang digunakan untuk memecahkan masalah klasifikasi atau regresi. Untuk masukan, Anda memberikan contoh berlabel model (x, y). x adalah vektor berdimensi tinggi dan y adalah label numerik. Untuk masalah klasifikasi biner, label harus 0 atau 1. Untuk masalah klasifikasi multiclass, label harus dari 0 hingga num_classes - 1. Untuk masalah regresi, y adalah bilangan real. Algoritma mempelajari fungsi linier, atau, untuk masalah klasifikasi, fungsi ambang linier, dan memetakan vektor x ke perkiraan label y.

Algoritma pembelajar linier Amazon SageMaker AI memberikan solusi untuk masalah klasifikasi dan regresi. Dengan algoritma SageMaker AI, Anda dapat secara bersamaan menjelajahi berbagai tujuan pelatihan dan memilih solusi terbaik dari set validasi. Anda juga dapat menjelajahi sejumlah besar model dan memilih yang terbaik. Model terbaik mengoptimalkan salah satu dari berikut ini:

Tujuan berkelanjutan, seperti kesalahan kuadrat rata-rata, kehilangan entropi silang, kesalahan absolut.
Tujuan diskrit cocok untuk klasifikasi, seperti ukuran F1, presisi, penarikan, atau akurasi.

Dibandingkan dengan metode yang memberikan solusi hanya untuk tujuan berkelanjutan, algoritme pembelajar linier SageMaker AI memberikan peningkatan kecepatan yang signifikan dibandingkan teknik optimasi hiperparameter yang naif. Hal ini juga lebih nyaman.

Algoritma pembelajar linier membutuhkan matriks data, dengan baris yang mewakili pengamatan, dan kolom yang mewakili dimensi fitur. Ini juga membutuhkan kolom tambahan yang berisi label yang cocok dengan titik data. Minimal, Amazon SageMaker AI linear learner mengharuskan Anda menentukan lokasi data input dan output, serta tipe objektif (klasifikasi atau regresi) sebagai argumen. Dimensi fitur juga diperlukan. Untuk informasi selengkapnya, lihat CreateTrainingJob. Anda dapat menentukan parameter tambahan di peta HyperParameters string dari badan permintaan. Parameter ini mengontrol proses pengoptimalan, atau spesifikasi fungsi tujuan yang Anda latih. Misalnya, jumlah zaman, regularisasi, dan jenis kerugian.

Jika Anda menggunakan Pelatihan Spot Terkelola, algoritme pelajar linier mendukung penggunaan pos pemeriksaan untuk mengambil snapshot status model.

Topik

Input/Output antarmuka untuk algoritma pembelajar linier

Algoritma pembelajar linier Amazon SageMaker AI mendukung tiga saluran data: melatih, validasi (opsional), dan pengujian (opsional). Jika Anda memberikan data validasi, S3DataDistributionType seharusnyaFullyReplicated. Algoritma mencatat kehilangan validasi di setiap zaman, dan menggunakan sampel data validasi untuk mengkalibrasi dan memilih model terbaik. Jika Anda tidak memberikan data validasi, algoritme menggunakan sampel data pelatihan untuk mengkalibrasi dan memilih model. Jika Anda memberikan data pengujian, log algoritme menyertakan skor tes untuk model akhir.

Untuk pelatihan, algoritma pembelajar linier mendukung keduanya recordIO-wrapped protobuf dan CSV format. Untuk tipe application/x-recordio-protobuf input, hanya tensor Float32 yang didukung. Untuk tipe text/csv input, kolom pertama diasumsikan sebagai label, yang merupakan variabel target untuk prediksi. Anda dapat menggunakan mode File atau mode Pipe untuk melatih model pelajar linier pada data yang diformat sebagai recordIO-wrapped-protobuf atau sebagai. CSV

Untuk inferensi, algoritma pembelajar linier mendukungapplication/json,application/x-recordio-protobuf, dan text/csv format. Ketika Anda membuat prediksi pada data baru, format respons tergantung pada jenis model. Untuk regresi (predictor_type='regressor'), score adalah prediksi yang dihasilkan oleh model. Untuk klasifikasi (predictor_type='binary_classifier'ataupredictor_type='multiclass_classifier'), model mengembalikan a score dan juga apredicted_label. predicted_labelIni adalah kelas yang diprediksi oleh model dan score mengukur kekuatan prediksi itu.

Untuk klasifikasi biner1, predicted_label adalah 0 atau, dan score merupakan nomor floating point tunggal yang menunjukkan seberapa kuat algoritma percaya bahwa label harus 1.
Untuk klasifikasi multiclass, predicted_class akan menjadi bilangan bulat dari 0 kenum_classes-1, dan score akan menjadi daftar satu nomor floating point per kelas.

Untuk menafsirkan masalah klasifikasi, Anda harus mempertimbangkan fungsi kerugian yang digunakan. score Jika nilai loss hyperparameter adalah logistic untuk klasifikasi biner atau softmax_loss untuk klasifikasi multiclass, maka score dapat diartikan sebagai probabilitas kelas yang sesuai. Ini adalah nilai kerugian yang digunakan oleh pelajar linier ketika loss nilainya adalah nilai auto default. Tetapi jika kerugian diatur kehinge_loss, maka skor tidak dapat diartikan sebagai probabilitas. Ini karena kehilangan engsel sesuai dengan Support Vector Classifier, yang tidak menghasilkan perkiraan probabilitas.

Untuk informasi selengkapnya tentang format file input dan output, lihatFormat respons pelajar linier. Untuk informasi lebih lanjut tentang format inferensi, dan. Buku catatan sampel pelajar linier

Rekomendasi instans EC2 untuk algoritma pembelajar linier

Algoritma pembelajar linier mendukung instance CPU dan GPU untuk pelatihan dan inferensi. Untuk GPU, algoritma pembelajar linier mendukung keluarga GPU P2, P3, G4dn, dan G5.

Selama pengujian, kami belum menemukan bukti substansional bahwa instans multi-GPU lebih cepat daripada instans GPU tunggal. Hasil dapat bervariasi, tergantung pada kasus penggunaan spesifik Anda.

Buku catatan sampel pelajar linier

Tabel berikut menguraikan berbagai contoh buku catatan yang membahas berbagai kasus penggunaan algoritme pelajar linier Amazon SageMaker AI.

Judul Notebook	Deskripsi
Pengantar dengan dataset MNIST	Menggunakan dataset MNIST, kami melatih pengklasifikasi biner untuk memprediksi satu digit.
Bagaimana Cara Membangun Pengklasifikasi Multiclass?	Menggunakan kumpulan data Covertype UCI, kami mendemonstrasikan cara melatih pengklasifikasi multiclass.
Bagaimana Membangun Pipeline Machine Learning (ML) untuk Inferensi?	Dengan menggunakan Scikit-learn wadah, kami mendemonstrasikan cara membuat pipeline ML-ke-ujung.

Untuk petunjuk tentang cara membuat dan mengakses instance notebook Jupyter yang dapat Anda gunakan untuk menjalankan contoh di SageMaker AI, lihat. Contoh SageMaker notebook Amazon Setelah Anda membuat instance notebook dan membukanya, pilih tab Contoh SageMaker AI untuk melihat daftar semua sampel SageMaker AI. Contoh buku catatan pemodelan topik menggunakan algoritme pembelajaran linier terletak di bagian Pengantar Algoritma Amazon. Untuk membuka buku catatan, pilih tab Use dan pilih Create copy.

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Penyetelan Model

Cara Kerjanya