Algoritma Alokasi Dirichlet Laten (LDA) - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Algoritma Alokasi Dirichlet Laten (LDA)

Algoritma Amazon SageMaker Latent Dirichlet Allocation (LDA) adalah algoritma pembelajaran tanpa pengawasan yang mencoba menggambarkan serangkaian pengamatan sebagai campuran dari kategori yang berbeda. LDA paling sering digunakan untuk menemukan sejumlah topik yang ditentukan pengguna yang dibagikan oleh dokumen dalam korpus teks. Di sini setiap pengamatan adalah dokumen, fitur-fiturnya adalah keberadaan (atau jumlah kejadian) dari setiap kata, dan kategorinya adalah topiknya. Karena metode ini tidak diawasi, topiknya tidak ditentukan di muka, dan tidak dijamin selaras dengan bagaimana manusia secara alami dapat mengkategorikan dokumen. Topik dipelajari sebagai distribusi probabilitas atas kata-kata yang muncul di setiap dokumen. Setiap dokumen, pada gilirannya, digambarkan sebagai campuran topik.

Konten yang tepat dari dua dokumen dengan campuran topik serupa tidak akan sama. Namun secara keseluruhan, Anda akan mengharapkan dokumen-dokumen ini lebih sering menggunakan subset kata bersama, daripada jika dibandingkan dengan dokumen dari campuran topik yang berbeda. Hal ini memungkinkan LDA untuk menemukan kelompok kata ini dan menggunakannya untuk membentuk topik. Sebagai contoh yang sangat sederhana, mengingat serangkaian dokumen di mana satu-satunya kata yang muncul di dalamnya adalah: makan, tidur, bermain, mengeong, dan menggonggong, LDA mungkin menghasilkan topik seperti berikut:

Topik

makan tidur bermain mengeong menggonggong
Topik 1 0.1 0,3 0,2 0,4 0.0
Topik 2 0,2 0.1 0,4 0.0 0,3

Anda dapat menyimpulkan bahwa dokumen yang lebih mungkin masuk ke Topik 1 adalah tentang kucing (yang lebih cenderung mengeong dan tidur), dan dokumen yang termasuk dalam Topik 2 adalah tentang anjing-kucing (yang lebih suka bermain dan menggonggong). Topik-topik ini dapat ditemukan meskipun kata-kata dog and cat tidak pernah muncul di salah satu teks.

Memilih antara Alokasi Dirichlet Laten (LDA) dan Model Topik Saraf (NTM)

Model topik biasanya digunakan untuk menghasilkan topik dari mayat yang (1) secara koheren merangkum makna semantik dan (2) menggambarkan dokumen dengan baik. Dengan demikian, model topik bertujuan untuk meminimalkan kebingungan dan memaksimalkan koherensi topik.

Kebingung adalah metrik evaluasi pemodelan bahasa intrinsik yang mengukur kebalikan dari kemungkinan rata-rata geometris per kata dalam data pengujian Anda. Skor kebingungan yang lebih rendah menunjukkan kinerja generalisasi yang lebih baik. Penelitian telah menunjukkan bahwa kemungkinan yang dihitung per kata seringkali tidak selaras dengan penilaian manusia, dan dapat sepenuhnya tidak berkorelasi, sehingga koherensi topik telah diperkenalkan. Setiap topik yang disimpulkan dari model Anda terdiri dari kata-kata, dan koherensi topik dihitung ke N kata teratas untuk topik tertentu dari model Anda. Ini sering didefinisikan sebagai rata-rata atau median skor kesamaan kata berpasangan dari kata-kata dalam topik itu misalnya, Pointwise Mutual Information (PMI). Model yang menjanjikan menghasilkan topik atau topik yang koheren dengan skor koherensi topik yang tinggi.

Sementara tujuannya adalah untuk melatih model topik yang meminimalkan kebingungan dan memaksimalkan koherensi topik, sering ada tradeoff dengan LDA dan NTM. Penelitian terbaru oleh Amazon, Dinget et al., 2018 telah menunjukkan bahwa NTM menjanjikan untuk mencapai koherensi topik yang tinggi tetapi LDA yang dilatih dengan pengambilan sampel Gibbs yang runtuh mencapai kebingungan yang lebih baik. Ada tradeoff antara kebingungan dan koherensi topik. Dari sudut pandang kepraktisan mengenai perangkat keras dan daya komputasi, perangkat keras SageMaker NTM lebih fleksibel daripada LDA dan dapat menskalakan lebih baik karena NTM dapat berjalan pada CPU dan GPU dan dapat diparalelkan di beberapa instance GPU, sedangkan LDA hanya mendukung pelatihan CPU satu instance.

Antarmuka Input/Output untuk Algoritma LDA

LDA mengharapkan data disediakan di saluran kereta api, dan secara opsional mendukung saluran uji, yang dinilai oleh model akhir. LDA mendukung format recordIO-wrapped-protobuf (padat dan jarang) dan CSV file. SebabCSV, data harus padat dan memiliki dimensi yang sama dengan jumlah catatan* ukuran kosakata. LDA dapat dilatih dalam mode File atau Pipa saat menggunakan protobuf yang dibungkus Recordio, tetapi hanya dalam mode File untuk format. CSV

Untuk inferensi,text/csv,application/json, dan jenis application/x-recordio-protobuf konten didukung. Data yang jarang juga dapat diteruskan untuk application/json danapplication/x-recordio-protobuf. Pengembalian inferensi LDA application/json atau application/x-recordio-protobuf prediksi, yang mencakup topic_mixture vektor untuk setiap pengamatan.

Silakan lihat Notebook Contoh LDA untuk detail lebih lanjut tentang format pelatihan dan inferensi.

Rekomendasi Instans EC2 untuk Algoritma LDA

LDA saat ini hanya mendukung pelatihan CPU single-instance. Instans CPU direkomendasikan untuk hosting/inferensi.

Notebook Contoh LDA

Untuk contoh buku catatan yang menunjukkan cara melatih algoritme Alokasi Dirichlet Laten pada kumpulan data dan kemudian cara menerapkan model terlatih untuk melakukan kesimpulan tentang campuran topik dalam dokumen input, lihat Pengantar LDA. SageMaker SageMaker Untuk petunjuk cara membuat dan mengakses instance notebook Jupyter yang dapat Anda gunakan untuk menjalankan contoh, lihat. SageMaker Instans SageMaker Notebook Amazon Setelah Anda membuat instance notebook dan membukanya, pilih tab SageMaker Contoh untuk melihat daftar semua SageMaker sampel. Contoh buku catatan pemodelan topik menggunakan algoritme NTM terletak di bagian Pengantar Algoritma Amazon. Untuk membuka buku catatan, klik tab Use dan pilih Create copy.