Algoritma Model Topik Saraf (NTM) - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Algoritma Model Topik Saraf (NTM)

Amazon SageMaker NTM adalah algoritma pembelajaran tanpa pengawasan yang digunakan untuk mengatur kumpulan dokumen ke dalam topik yang berisi pengelompokan kata berdasarkan distribusi statistiknya. Dokumen yang sering berisi kata-kata seperti “sepeda”, “mobil”, “kereta”, “jarak tempuh”, dan “kecepatan” cenderung berbagi topik tentang “transportasi” misalnya. Pemodelan topik dapat digunakan untuk mengklasifikasikan atau meringkas dokumen berdasarkan topik yang terdeteksi atau untuk mengambil informasi atau merekomendasikan konten berdasarkan kesamaan topik. Topik dari dokumen yang dipelajari NTM dicirikan sebagai representasi laten karena topik disimpulkan dari distribusi kata yang diamati di korpus. Semantik topik biasanya disimpulkan dengan memeriksa kata-kata peringkat teratas yang dikandungnya. Karena metode ini tidak diawasi, hanya jumlah topik, bukan topik itu sendiri, yang ditentukan sebelumnya. Selain itu, topik tidak dijamin selaras dengan bagaimana manusia secara alami dapat mengkategorikan dokumen.

Pemodelan topik menyediakan cara untuk memvisualisasikan isi korpus dokumen besar dalam hal topik yang dipelajari. Dokumen yang relevan untuk setiap topik dapat diindeks atau dicari berdasarkan label topik lunak mereka. Representasi laten dokumen juga dapat digunakan untuk menemukan dokumen serupa di ruang topik. Anda juga dapat menggunakan representasi laten dokumen yang dipelajari model topik untuk masukan ke algoritme lain yang diawasi seperti pengklasifikasi dokumen. Karena representasi laten dokumen diharapkan untuk menangkap semantik dari dokumen yang mendasarinya, algoritme yang sebagian didasarkan pada representasi ini diharapkan berkinerja lebih baik daripada yang didasarkan pada fitur leksikal saja.

Meskipun Anda dapat menggunakan algoritme Amazon SageMaker NTM dan LDA untuk pemodelan topik, mereka adalah algoritme yang berbeda dan dapat diharapkan menghasilkan hasil yang berbeda pada data input yang sama.

Untuk informasi lebih lanjut tentang matematika di balik NTM, lihat Inferensi Variasi Saraf untuk Pemrosesan Teks.

Antarmuka Input/Output untuk Algoritma NTM

Amazon SageMaker Neural Topic Model mendukung empat saluran data: train, validasi, test, dan auxiliary. Saluran data validasi, pengujian, dan tambahan bersifat opsional. Jika Anda menentukan salah satu saluran opsional ini, atur nilai S3DataDistributionType parameternyaFullyReplicated. Jika Anda memberikan data validasi, kerugian pada data ini dicatat di setiap zaman, dan model menghentikan pelatihan segera setelah mendeteksi bahwa kehilangan validasi tidak membaik. Jika Anda tidak memberikan data validasi, algoritme berhenti lebih awal berdasarkan data pelatihan, tetapi ini bisa kurang efisien. Jika Anda memberikan data pengujian, algoritme melaporkan kehilangan pengujian dari model akhir.

Saluran data kereta, validasi, dan uji untuk NTM mendukung format recordIO-wrapped-protobuf (padat dan jarang) dan file. CSV Untuk CSV format, setiap baris harus diwakili secara padat dengan jumlah nol untuk kata-kata yang tidak ada dalam dokumen yang sesuai, dan memiliki dimensi yang sama dengan: (jumlah catatan) * (ukuran kosakata). Anda dapat menggunakan mode File atau mode Pipa untuk melatih model pada data yang diformat sebagai recordIO-wrapped-protobuf atau sebagaiCSV. Saluran bantu digunakan untuk menyediakan file teks yang berisi kosakata. Dengan menyediakan file kosakata, pengguna dapat melihat kata-kata teratas untuk setiap topik yang dicetak di log alih-alih ID integer mereka. Memiliki file kosakata juga memungkinkan NTM untuk menghitung skor Word Embedding Topic Coherence (WETC), metrik baru yang ditampilkan dalam log yang menangkap kesamaan di antara kata-kata teratas di setiap topik secara efektif. ContentTypeUntuk saluran bantu adalahtext/plain, dengan setiap baris berisi satu kata, dalam urutan yang sesuai dengan ID bilangan bulat yang disediakan dalam data. File kosakata harus diberi nama vocab.txt dan saat ini hanya pengkodean UTF-8 yang didukung.

Untuk inferensi,text/csv,application/json,,application/jsonlines, dan jenis application/x-recordio-protobuf konten didukung. Data yang jarang juga dapat diteruskan untuk application/json danapplication/x-recordio-protobuf. Pengembalian application/json atau application/x-recordio-protobuf prediksi inferensi NTM, yang mencakup topic_weights vektor untuk setiap pengamatan.

Lihat posting blog dan buku catatan pendamping untuk detail lebih lanjut tentang penggunaan saluran tambahan dan skor WETC. Untuk informasi lebih lanjut tentang cara menghitung skor WETC, lihat Coherence-Aware Neural Topic Modeling. Kami menggunakan WETC berpasangan yang dijelaskan dalam paper ini untuk Amazon SageMaker Neural Topic Model.

Untuk informasi lebih lanjut tentang format file input dan output, lihat Format Respons NTM untuk inferensi dan file. NTM Contoh Notebook

Rekomendasi Instans EC2 untuk Algoritma NTM

Pelatihan NTM mendukung jenis instans GPU dan CPU. Kami merekomendasikan instans GPU, tetapi untuk beban kerja tertentu, instans CPU dapat mengakibatkan biaya pelatihan yang lebih rendah. Instans CPU harus cukup untuk inferensi. Pelatihan NTM mendukung keluarga instance GPU P2, P3, G4dn, dan G5 untuk pelatihan dan inferensi.

NTM Contoh Notebook

Untuk contoh buku catatan yang menggunakan algoritma SageMaker NTM untuk mengungkap topik dalam dokumen dari sumber data sintetis tempat distribusi topik diketahui, lihat Pengantar Fungsi Dasar NTM. Untuk petunjuk cara membuat dan mengakses instance notebook Jupyter yang dapat Anda gunakan untuk menjalankan contoh, lihat. SageMaker Instans SageMaker Notebook Amazon Setelah Anda membuat instance notebook dan membukanya, pilih tab SageMaker Contoh untuk melihat daftar semua SageMaker sampel. Contoh buku catatan pemodelan topik menggunakan algoritme NTM terletak di bagian Pengantar Algoritma Amazon. Untuk membuka buku catatan, klik tab Use dan pilih Create copy.