Algoritma Mesin Faktorisasi - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Algoritma Mesin Faktorisasi

Algoritma Factorization Machines adalah algoritma pembelajaran terawasi tujuan umum yang dapat Anda gunakan untuk tugas klasifikasi dan regresi. Ini adalah perpanjangan dari model linier yang dirancang untuk menangkap interaksi antara fitur dalam kumpulan data jarang dimensi tinggi secara ekonomis. Misalnya, dalam sistem prediksi klik, model Mesin Faktorisasi dapat menangkap pola rasio klik yang diamati saat iklan dari kategori iklan tertentu ditempatkan pada halaman dari kategori halaman tertentu. Mesin faktorisasi adalah pilihan yang baik untuk tugas-tugas yang berhubungan dengan kumpulan data jarang dimensi tinggi, seperti prediksi klik dan rekomendasi item.

catatan

SageMaker Implementasi Amazon dari algoritma Mesin Faktorisasi hanya mempertimbangkan interaksi berpasangan (urutan ke-2) antar fitur.

Antarmuka Input/Output untuk Algoritma Mesin Faktorisasi

Algoritma Factorization Machines dapat dijalankan baik dalam mode klasifikasi biner atau mode regresi. Dalam setiap mode, kumpulan data dapat diberikan ke saluran uji bersama dengan kumpulan data saluran kereta api. Skor tergantung pada mode yang digunakan. Dalam mode regresi, dataset pengujian dinilai menggunakan Root Mean Square Error (). RMSE Dalam mode klasifikasi biner, kumpulan data pengujian dinilai menggunakan Binary Cross Entropy (Log Loss), Akurasi (pada ambang = 0,5) dan Skor F1 (pada ambang = 0,5).

Untuk pelatihan, algoritma Mesin Faktorisasi saat ini hanya mendukung recordIO-protobuf format dengan Float32 tensor. Karena kasus penggunaannya sebagian besar pada data yang jarang, CSV bukan kandidat yang baik. Pelatihan mode File dan Pipa didukung untuk protobuf yang dibungkus Recordio.

Untuk inferensi, algoritma Mesin Faktorisasi mendukung dan format. application/json x-recordio-protobuf

  • Untuk masalah klasifikasi biner, algoritma memprediksi skor dan label. Label adalah angka dan bisa berupa 0 atau1. Skor adalah angka yang menunjukkan seberapa kuat algoritma percaya bahwa label seharusnya1. Algoritma menghitung skor terlebih dahulu dan kemudian mendapatkan label dari nilai skor. Jika skor lebih besar dari atau sama dengan 0,5, labelnya adalah1.

  • Untuk masalah regresi, hanya skor yang dikembalikan dan itu adalah nilai yang diprediksi. Misalnya, jika Mesin Faktorisasi digunakan untuk memprediksi peringkat film, skor adalah nilai peringkat yang diprediksi.

Silakan lihat Mesin Faktorisasi Contoh Notebook untuk detail lebih lanjut tentang format file pelatihan dan inferensi.

EC2Rekomendasi Instance untuk Algoritma Mesin Faktorisasi

Algoritma Amazon SageMaker Factorization Machines sangat skalabel dan dapat dilatih di seluruh instans terdistribusi. Kami merekomendasikan pelatihan dan inferensi dengan CPU instance untuk kumpulan data yang jarang dan padat. Dalam beberapa keadaan, pelatihan dengan satu atau lebih GPUs tentang data padat mungkin memberikan beberapa manfaat. Pelatihan dengan hanya GPUs tersedia pada data padat. Gunakan CPU instance untuk data yang jarang. Algoritma Mesin Faktorisasi mendukung instans P2, P3, G4dn, dan G5 untuk pelatihan dan inferensi.

Mesin Faktorisasi Contoh Notebook

Untuk contoh buku catatan yang menggunakan algoritma Mesin SageMaker Faktorisasi untuk menganalisis gambar digit tulisan tangan dari nol hingga sembilan dalam MNIST kumpulan data, lihat Pengantar Mesin Faktorisasi dengan. MNIST Untuk petunjuk cara membuat dan mengakses instance notebook Jupyter yang dapat Anda gunakan untuk menjalankan contoh, lihat. SageMaker Instans SageMaker Notebook Amazon Setelah Anda membuat instance notebook dan membukanya, pilih tab SageMaker Contoh untuk melihat daftar semua SageMaker sampel. Contoh notebook yang menggunakan algoritma Mesin Faktorisasi terletak di bagian Pengantar Algoritma Amazon. Untuk membuka buku catatan, klik tab Use dan pilih Create copy.