Cara Kerja Sequence-to-Sequence - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Cara Kerja Sequence-to-Sequence

Biasanya, jaringan saraf untuk sequence-to-sequence pemodelan terdiri dari beberapa lapisan, termasuk:

  • Lapisan penyematan. Di lapisan ini, matriks input, yang merupakan token masukan yang dikodekan dengan cara yang jarang (misalnya, dikodekan satu panas) dipetakan ke lapisan fitur padat. Ini diperlukan karena vektor fitur dimensi tinggi lebih mampu menyandikan informasi mengenai token tertentu (kata untuk teks corpora) daripada vektor sederhana. one-hot-encoded Ini juga merupakan praktik standar untuk menginisialisasi lapisan penyematan ini dengan vektor kata pra-terlatih seperti FastTextatau Sarung Tangan atau untuk menginisialisasi secara acak dan mempelajari parameter selama pelatihan.

  • Lapisan encoder. Setelah token input dipetakan ke dalam ruang fitur dimensi tinggi, urutan dilewatkan melalui lapisan encoder untuk mengompres semua informasi dari lapisan penyematan input (dari seluruh urutan) menjadi vektor fitur panjang tetap. Biasanya, encoder terbuat dari jaringan RNN tipe -seperti memori jangka pendek panjang (LSTM) atau unit berulang yang terjaga keamanannya (). GRU (Blog Cola menjelaskan LSTM dengan sangat rinci.)

  • Lapisan decoder. Lapisan decoder mengambil vektor fitur yang dikodekan ini dan menghasilkan urutan output token. Lapisan ini juga biasanya dibangun dengan RNN arsitektur (LSTMdanGRU).

Seluruh model dilatih bersama untuk memaksimalkan probabilitas urutan target yang diberikan urutan sumber. Model ini pertama kali diperkenalkan oleh Sutskever et al. pada tahun 2014.

Mekanisme perhatian. Kerugian dari kerangka encoder-decoder adalah bahwa kinerja model menurun ketika dan ketika panjang urutan sumber meningkat karena batas berapa banyak informasi yang dapat dikandung oleh vektor fitur yang disandikan dengan panjang tetap. Untuk mengatasi masalah ini, pada tahun 2015, Bahdanau et al. mengusulkan mekanisme perhatian. Dalam mekanisme perhatian, decoder mencoba menemukan lokasi dalam urutan encoder di mana informasi yang paling penting dapat ditemukan dan menggunakan informasi itu dan kata-kata yang sebelumnya diterjemahkan untuk memprediksi token berikutnya dalam urutan.

Untuk lebih jelasnya, lihat whitepaper Pendekatan Efektif untuk Terjemahan Mesin Saraf Berbasis Perhatian oleh Luong, dkk. yang menjelaskan dan menyederhanakan perhitungan untuk berbagai mekanisme perhatian. Selain itu, whitepaper Sistem Terjemahan Mesin Neural Google: Menjembatani Kesenjangan antara Terjemahan Manusia dan Mesin oleh Wu, dkk. menjelaskan arsitektur Google untuk terjemahan mesin, yang menggunakan koneksi lewati antara lapisan encoder dan decoder.