SageMaker Algoritma Bawaan untuk Data Teks - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

SageMaker Algoritma Bawaan untuk Data Teks

SageMaker menyediakan algoritma yang disesuaikan dengan analisis dokumen tekstual yang digunakan dalam pemrosesan bahasa alami, klasifikasi atau ringkasan dokumen, pemodelan atau klasifikasi topik, dan transkripsi atau terjemahan bahasa.

  • BlazingText algoritma—implementasi yang sangat dioptimalkan dari Word2vec dan algoritma klasifikasi teks yang menskalakan ke kumpulan data besar dengan mudah. Ini berguna untuk banyak tugas pemrosesan bahasa alami hilir (NLP).

  • Algoritma Alokasi Dirichlet Laten (LDA)Sebuah algoritma yang cocok untuk menentukan topik dalam satu set dokumen. Ini adalah algoritma tanpa pengawasan, yang berarti tidak menggunakan data contoh dengan jawaban selama pelatihan.

  • Model Topik Saraf (NTM) Algoritma—teknik lain yang tidak diawasi untuk menentukan topik dalam satu set dokumen, menggunakan pendekatan jaringan saraf.

  • Algoritma Object2Vec—algoritma penyematan saraf tujuan umum yang dapat digunakan untuk sistem rekomendasi, klasifikasi dokumen, dan penyematan kalimat.

  • Sequence-to-Sequence Algoritma—algoritma yang diawasi yang biasa digunakan untuk terjemahan mesin saraf.

  • Klasifikasi Teks - TensorFlow—algoritma yang diawasi yang mendukung pembelajaran transfer dengan model terlatih yang tersedia untuk klasifikasi teks.

Nama algoritma Nama saluran Mode masukan pelatihan Tipe file Kelas instans Dapat diparalelkan
BlazingText melatih File atau Pipa File teks (satu kalimat per baris dengan token yang dipisahkan spasi) GPU (hanya satu contoh) atau CPU Tidak
LDA melatih dan (opsional) tes File atau Pipa Recordio-protobuf atau CSV CPU (hanya satu contoh) Tidak
Model Topik Saraf melatih dan (opsional) validasi, tes, atau keduanya File atau Pipa Recordio-protobuf atau CSV GPU atau CPU Ya
Object2Vec melatih dan (opsional) validasi, tes, atau keduanya File Garis JSON GPU atau CPU (hanya satu contoh) Tidak
Pemodelan Seq2Seq melatih, validasi, dan vocab File Protobuf Recordio GPU (hanya satu contoh) Tidak
Klasifikasi Teks - TensorFlow pelatihan dan validasi File CSV CPU atau GPU Ya (hanya di beberapa GPU dalam satu instance)