Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Cara Kerja Sequence-to-Sequence
Biasanya, jaringan saraf untuk sequence-to-sequence pemodelan terdiri dari beberapa lapisan, termasuk:
-
Lapisan penyematan. Di lapisan ini, matriks input, yang merupakan token masukan yang dikodekan dengan cara yang jarang (misalnya, dikodekan satu panas) dipetakan ke lapisan fitur padat. Ini diperlukan karena vektor fitur dimensi tinggi lebih mampu menyandikan informasi mengenai token tertentu (kata untuk teks corpora) daripada vektor sederhana. one-hot-encoded Ini juga merupakan praktik standar untuk menginisialisasi lapisan penyematan ini dengan vektor kata pra-terlatih seperti FastText
atau Sarung Tangan atau untuk menginisialisasi secara acak dan mempelajari parameter selama pelatihan. -
Lapisan encoder. Setelah token input dipetakan ke dalam ruang fitur dimensi tinggi, urutan dilewatkan melalui lapisan encoder untuk mengompres semua informasi dari lapisan penyematan input (dari seluruh urutan) menjadi vektor fitur panjang tetap. Biasanya, encoder terbuat dari jaringan RNN tipe -seperti memori jangka pendek panjang (LSTM) atau unit berulang yang terjaga keamanannya (). GRU (Blog Cola
menjelaskan LSTM dengan sangat rinci.) -
Lapisan decoder. Lapisan decoder mengambil vektor fitur yang dikodekan ini dan menghasilkan urutan output token. Lapisan ini juga biasanya dibangun dengan RNN arsitektur (LSTMdanGRU).
Seluruh model dilatih bersama untuk memaksimalkan probabilitas urutan target yang diberikan urutan sumber. Model ini pertama kali diperkenalkan oleh Sutskever et
Mekanisme perhatian. Kerugian dari kerangka encoder-decoder adalah bahwa kinerja model menurun ketika dan ketika panjang urutan sumber meningkat karena batas berapa banyak informasi yang dapat dikandung oleh vektor fitur yang disandikan dengan panjang tetap. Untuk mengatasi masalah ini, pada tahun 2015, Bahdanau et al. mengusulkan mekanisme perhatian.
Untuk lebih jelasnya, lihat whitepaper Pendekatan Efektif untuk Terjemahan Mesin Saraf Berbasis Perhatian oleh Luong, dkk. yang menjelaskan dan menyederhanakan perhitungan untuk berbagai mekanisme perhatian