Algoritma Alokasi Dirichlet Laten (LDA)

Mode fokus

Algoritma Alokasi Dirichlet Laten (LDA) - Amazon SageMaker AI

Memilih antara Alokasi Dirichlet Laten (LDA) dan Model Topik Saraf (NTM)Antarmuka Input/Output untuk Algoritma LDA EC2 Rekomendasi Instance untuk Algoritma LDA Contoh Notebook

Algoritma Amazon SageMaker AI Latent Dirichlet Allocation (LDA) adalah algoritma pembelajaran tanpa pengawasan yang mencoba menggambarkan serangkaian pengamatan sebagai campuran dari kategori yang berbeda. LDA paling sering digunakan untuk menemukan sejumlah topik yang ditentukan pengguna yang dibagikan oleh dokumen dalam korpus teks. Di sini setiap pengamatan adalah dokumen, fitur-fiturnya adalah keberadaan (atau jumlah kejadian) dari setiap kata, dan kategorinya adalah topiknya. Karena metode ini tidak diawasi, topiknya tidak ditentukan di muka, dan tidak dijamin selaras dengan bagaimana manusia secara alami dapat mengkategorikan dokumen. Topik dipelajari sebagai distribusi probabilitas atas kata-kata yang muncul di setiap dokumen. Setiap dokumen, pada gilirannya, digambarkan sebagai campuran topik.

Konten yang tepat dari dua dokumen dengan campuran topik serupa tidak akan sama. Namun secara keseluruhan, Anda akan mengharapkan dokumen-dokumen ini lebih sering menggunakan subset kata bersama, daripada jika dibandingkan dengan dokumen dari campuran topik yang berbeda. Hal ini memungkinkan LDA untuk menemukan kelompok kata ini dan menggunakannya untuk membentuk topik. Sebagai contoh yang sangat sederhana, mengingat serangkaian dokumen di mana satu-satunya kata yang muncul di dalamnya adalah: makan, tidur, bermain, mengeong, dan menggonggong, LDA mungkin menghasilkan topik seperti berikut:

Topik	makan	tidur	bermain	mengeong	kulit kayu
Topik 1	0.1	0,3	0.2	0,4	0.0
Topik 2	0.2	0.1	0,4	0.0	0,3

Anda dapat menyimpulkan bahwa dokumen yang lebih mungkin masuk ke Topik 1 adalah tentang kucing (yang lebih cenderung mengeong dan tidur), dan dokumen yang termasuk dalam Topik 2 adalah tentang anjing-kucing (yang lebih suka bermain dan menggonggong). Topik-topik ini dapat ditemukan meskipun kata-kata dog and cat tidak pernah muncul di salah satu teks.

Topik

Memilih antara Alokasi Dirichlet Laten (LDA) dan Model Topik Saraf (NTM)
Antarmuka Input/Output untuk Algoritma LDA
EC2 Rekomendasi Instance untuk Algoritma LDA
Notebook Contoh LDA
Bagaimana LDA Bekerja
Hiperparameter LDA
Menyetel Model LDA

Memilih antara Alokasi Dirichlet Laten (LDA) dan Model Topik Saraf (NTM)

Model topik biasanya digunakan untuk menghasilkan topik dari mayat yang (1) secara koheren merangkum makna semantik dan (2) menggambarkan dokumen dengan baik. Dengan demikian, model topik bertujuan untuk meminimalkan kebingungan dan memaksimalkan koherensi topik.

Kebingung adalah metrik evaluasi pemodelan bahasa intrinsik yang mengukur kebalikan dari kemungkinan rata-rata geometris per kata dalam data pengujian Anda. Skor kebingungan yang lebih rendah menunjukkan kinerja generalisasi yang lebih baik. Penelitian telah menunjukkan bahwa kemungkinan yang dihitung per kata seringkali tidak selaras dengan penilaian manusia, dan dapat sepenuhnya tidak berkorelasi, sehingga koherensi topik telah diperkenalkan. Setiap topik yang disimpulkan dari model Anda terdiri dari kata-kata, dan koherensi topik dihitung ke N kata teratas untuk topik tertentu dari model Anda. Ini sering didefinisikan sebagai rata-rata atau median skor kesamaan kata berpasangan dari kata-kata dalam topik itu misalnya, Pointwise Mutual Information (PMI). Model yang menjanjikan menghasilkan topik atau topik yang koheren dengan skor koherensi topik yang tinggi.

Sementara tujuannya adalah untuk melatih model topik yang meminimalkan kebingungan dan memaksimalkan koherensi topik, sering ada tradeoff dengan LDA dan NTM. Penelitian terbaru oleh Amazon, Dinget et al., 2018 telah menunjukkan bahwa NTM menjanjikan untuk mencapai koherensi topik yang tinggi tetapi LDA yang dilatih dengan pengambilan sampel Gibbs yang runtuh mencapai kebingungan yang lebih baik. Ada tradeoff antara kebingungan dan koherensi topik. Dari sudut pandang kepraktisan mengenai perangkat keras dan daya komputasi, perangkat keras SageMaker NTM lebih fleksibel daripada LDA dan dapat menskalakan lebih baik karena NTM dapat berjalan pada CPU dan GPU dan dapat diparalelkan di beberapa instance GPU, sedangkan LDA hanya mendukung pelatihan CPU satu instance.

Topik

Antarmuka Input/Output untuk Algoritma LDA
EC2 Rekomendasi Instance untuk Algoritma LDA
Notebook Contoh LDA
Bagaimana LDA Bekerja
Hiperparameter LDA
Menyetel Model LDA

Antarmuka Input/Output untuk Algoritma LDA

LDA mengharapkan data disediakan di saluran kereta api, dan secara opsional mendukung saluran uji, yang dinilai oleh model akhir. LDA mendukung format recordIO-wrapped-protobuf (padat dan jarang) dan CSV file. SebabCSV, data harus padat dan memiliki dimensi yang sama dengan jumlah catatan* ukuran kosakata. LDA dapat dilatih dalam mode File atau Pipa saat menggunakan protobuf yang dibungkus Recordio, tetapi hanya dalam mode File untuk format. CSV

Untuk inferensi,text/csv,application/json, dan jenis application/x-recordio-protobuf konten didukung. Data yang jarang juga dapat diteruskan untuk application/json danapplication/x-recordio-protobuf. Pengembalian inferensi LDA application/json atau application/x-recordio-protobuf prediksi, yang mencakup topic_mixture vektor untuk setiap pengamatan.

Silakan lihat Notebook Contoh LDA untuk detail lebih lanjut tentang format pelatihan dan inferensi.

EC2 Rekomendasi Instance untuk Algoritma LDA

LDA saat ini hanya mendukung pelatihan CPU single-instance. Instans CPU direkomendasikan untuk hosting/inferensi.

Notebook Contoh LDA

Untuk contoh notebook yang menunjukkan cara melatih algoritme Alokasi Dirichlet Laten SageMaker AI pada kumpulan data dan kemudian cara menerapkan model terlatih untuk melakukan kesimpulan tentang campuran topik dalam dokumen input, lihat Pengantar AI LDA. SageMaker Untuk petunjuk cara membuat dan mengakses instance notebook Jupyter yang dapat Anda gunakan untuk menjalankan contoh di SageMaker AI, lihat. Instans SageMaker Notebook Amazon Setelah Anda membuat instance notebook dan membukanya, pilih tab Contoh SageMaker AI untuk melihat daftar semua sampel SageMaker AI. Contoh buku catatan pemodelan topik menggunakan algoritme NTM terletak di bagian Pengantar Algoritma Amazon. Untuk membuka buku catatan, klik tab Use dan pilih Create copy.