Artefak yang diproduksi oleh pelatihan model di Neptunus ML - Amazon Neptune

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Artefak yang diproduksi oleh pelatihan model di Neptunus ML

Setelah pelatihan model, Neptunus ML menggunakan parameter model terlatih terbaik untuk menghasilkan artefak model yang diperlukan untuk meluncurkan titik akhir inferensi dan memberikan prediksi model. Artefak ini dikemas oleh pekerjaan pelatihan dan disimpan di lokasi keluaran Amazon S3 dari pekerjaan pelatihan AI SageMaker terbaik.

Bagian berikut menjelaskan apa yang termasuk dalam artefak model untuk berbagai tugas, dan bagaimana perintah transformasi model menggunakan model terlatih yang sudah ada sebelumnya untuk menghasilkan artefak bahkan pada data grafik baru.

Artefak yang dihasilkan untuk tugas yang berbeda

Isi artefak model yang dihasilkan oleh proses pelatihan tergantung pada tugas pembelajaran mesin target:

  • Klasifikasi dan regresi node — Untuk prediksi properti node, artefak mencakup parameter model, penyematan simpul dari GNNencoder, prediksi model untuk node dalam grafik pelatihan, dan beberapa file konfigurasi untuk titik akhir inferensi. Dalam klasifikasi node dan tugas regresi node, prediksi model dihitung sebelumnya untuk node yang ada selama pelatihan untuk mengurangi latensi kueri.

  • Klasifikasi dan regresi tepi — Untuk prediksi properti tepi, artefak juga menyertakan parameter model dan penyematan simpul. Parameter dekoder model sangat penting untuk inferensi karena kami menghitung klasifikasi tepi atau prediksi regresi tepi dengan menerapkan decoder model ke penyematan simpul sumber dan tujuan dari suatu tepi.

  • Prediksi tautan - Untuk prediksi tautan, selain artefak yang dihasilkan untuk prediksi properti tepi, DGL grafik juga disertakan sebagai artefak karena prediksi tautan memerlukan grafik pelatihan untuk melakukan prediksi. Tujuan prediksi tautan adalah untuk memprediksi simpul tujuan yang cenderung bergabung dengan simpul sumber untuk membentuk tepi jenis tertentu dalam grafik. Untuk melakukan ini, penyematan simpul dari simpul sumber dan representasi yang dipelajari untuk tipe tepi digabungkan dengan penyematan simpul dari semua simpul tujuan yang mungkin untuk menghasilkan skor kemungkinan tepi untuk masing-masing simpul tujuan. Skor kemudian diurutkan untuk menentukan peringkat simpul tujuan potensial dan mengembalikan kandidat teratas.

Untuk setiap jenis tugas, bobot model Graph Neural Network DGL disimpan dalam artefak model. Hal ini memungkinkan Neptunus ML untuk menghitung output model baru saat grafik berubah (inferensi induktif), selain menggunakan prediksi dan penyematan yang telah dihitung sebelumnya (inferensi transduktif) untuk mengurangi latensi.

Menghasilkan artefak model baru

Artefak model yang dihasilkan setelah pelatihan model di Neptunus ML terkait langsung dengan proses pelatihan. Ini berarti bahwa penyematan dan prediksi yang telah dihitung sebelumnya hanya ada untuk entitas yang ada dalam grafik pelatihan asli. Meskipun mode inferensi induktif untuk titik akhir Neptunus ML dapat menghitung prediksi untuk entitas baru secara real-time, Anda mungkin ingin menghasilkan prediksi batch pada entitas baru tanpa menanyakan titik akhir.

Untuk mendapatkan prediksi model batch untuk entitas baru yang telah ditambahkan ke grafik, artefak model baru perlu dihitung ulang untuk data grafik baru. Ini dilakukan dengan menggunakan modeltransform perintah. Anda menggunakan modeltransform perintah ketika Anda hanya ingin prediksi batch tanpa menyiapkan titik akhir, atau ketika Anda ingin semua prediksi dihasilkan sehingga Anda dapat menulisnya kembali ke grafik.

Karena pelatihan model secara implisit melakukan transformasi model pada akhir proses pelatihan, artefak model selalu dihitung ulang pada data grafik pelatihan oleh pekerjaan pelatihan. Namun, modeltransform perintah tersebut juga dapat menghitung artefak model pada data grafik yang tidak digunakan untuk melatih model. Untuk ini, data grafik baru harus diproses menggunakan pengkodean fitur yang sama dengan data grafik asli dan harus mematuhi skema grafik yang sama.

Anda dapat melakukannya dengan terlebih dahulu membuat pekerjaan pemrosesan data baru yang merupakan tiruan dari pekerjaan pemrosesan data yang dijalankan pada data grafik pelatihan asli, dan menjalankannya pada data grafik baru (lihatMemproses data grafik yang diperbarui untuk Neptune). Kemudian, panggil modeltransform perintah dengan yang baru dataProcessingJobId dan yang lama modelTrainingJobId untuk menghitung ulang artefak model pada data grafik yang diperbarui.

Untuk prediksi properti node, penyematan dan prediksi simpul dihitung ulang pada data grafik baru, bahkan untuk node yang ada dalam grafik pelatihan asli.

Untuk prediksi properti edge dan prediksi tautan, penyematan simpul juga dihitung ulang dan juga mengesampingkan penyematan simpul yang ada. Untuk menghitung ulang penyematan simpul, Neptunus ML menerapkan encoder yang GNN dipelajari dari model terlatih sebelumnya ke node data grafik baru dengan fitur baru mereka.

Untuk node yang tidak memiliki fitur, representasi awal yang dipelajari dari pelatihan model asli digunakan kembali. Untuk node baru yang tidak memiliki fitur dan tidak ada dalam grafik pelatihan asli, Neptunus ML menginisialisasi representasi mereka sebagai rata-rata representasi simpul awal yang dipelajari dari tipe simpul yang ada dalam grafik pelatihan asli. Hal ini dapat menyebabkan beberapa penurunan kinerja dalam prediksi model jika Anda memiliki banyak node baru yang tidak memiliki fitur, karena semuanya akan diinisialisasi ke penyematan awal rata-rata untuk jenis node tersebut.

Jika model Anda dilatih dengan concat-node-embed set ke true, maka representasi node awal dibuat dengan menggabungkan fitur node dengan representasi awal yang dapat dipelajari. Jadi, untuk grafik yang diperbarui, representasi simpul awal dari node baru juga menggunakan penyematan simpul awal rata-rata, digabungkan dengan fitur node baru.

Selain itu, penghapusan node saat ini tidak didukung. Jika node telah dihapus dalam grafik yang diperbarui, Anda harus melatih kembali model pada data grafik yang diperbarui.

Menghitung ulang artefak model menggunakan kembali parameter model yang dipelajari pada grafik baru, dan hanya boleh dilakukan ketika grafik baru sangat mirip dengan grafik lama. Jika grafik baru Anda tidak cukup mirip, Anda perlu melatih ulang model untuk mendapatkan kinerja model yang serupa pada data grafik baru. Apa yang cukup mirip tergantung pada struktur data grafik Anda, tetapi sebagai aturan praktis Anda harus melatih kembali model Anda jika data baru Anda lebih dari 10-20% berbeda dari data grafik pelatihan asli.

Untuk grafik di mana semua node memiliki fitur, ujung ambang batas yang lebih tinggi (20% berbeda) berlaku tetapi untuk grafik di mana banyak node tidak memiliki fitur dan node baru yang ditambahkan ke grafik tidak memiliki properti, maka ujung bawah (10% berbeda) bahkan mungkin terlalu tinggi.

Lihat Perintah modeltransform untuk informasi lebih lanjut tentang pekerjaan transformasi model.