Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
SageMaker Algoritma Bawaan untuk Data Teks
SageMaker menyediakan algoritma yang disesuaikan dengan analisis dokumen tekstual yang digunakan dalam pemrosesan bahasa alami, klasifikasi atau ringkasan dokumen, pemodelan atau klasifikasi topik, dan transkripsi atau terjemahan bahasa.
-
BlazingText algoritma—implementasi yang sangat dioptimalkan dari Word2vec dan algoritma klasifikasi teks yang menskalakan ke kumpulan data besar dengan mudah. Ini berguna untuk banyak tugas pemrosesan bahasa alami hilir (NLP).
-
Algoritma Alokasi Dirichlet Laten (LDA)Sebuah algoritma yang cocok untuk menentukan topik dalam satu set dokumen. Ini adalah algoritma tanpa pengawasan, yang berarti tidak menggunakan data contoh dengan jawaban selama pelatihan.
-
Model Topik Saraf (NTM) Algoritma—teknik lain yang tidak diawasi untuk menentukan topik dalam satu set dokumen, menggunakan pendekatan jaringan saraf.
-
Algoritma Object2Vec—algoritma penyematan saraf tujuan umum yang dapat digunakan untuk sistem rekomendasi, klasifikasi dokumen, dan penyematan kalimat.
-
Sequence-to-Sequence Algoritma—algoritma yang diawasi yang biasa digunakan untuk terjemahan mesin saraf.
-
Klasifikasi Teks - TensorFlow—algoritma yang diawasi yang mendukung pembelajaran transfer dengan model terlatih yang tersedia untuk klasifikasi teks.
Nama algoritma | Nama saluran | Mode masukan pelatihan | Tipe file | Kelas instans | Dapat diparalelkan |
---|---|---|---|---|---|
BlazingText | melatih | File atau Pipa | File teks (satu kalimat per baris dengan token yang dipisahkan spasi) | GPU (hanya satu contoh) atau CPU | Tidak |
LDA | melatih dan (opsional) tes | File atau Pipa | Recordio-protobuf atau CSV | CPU (hanya satu contoh) | Tidak |
Model Topik Saraf | melatih dan (opsional) validasi, tes, atau keduanya | File atau Pipa | Recordio-protobuf atau CSV | GPU atau CPU | Ya |
Object2Vec | melatih dan (opsional) validasi, tes, atau keduanya | File | Garis JSON | GPU atau CPU (hanya satu contoh) | Tidak |
Pemodelan Seq2Seq | melatih, validasi, dan vocab | File | Protobuf Recordio | GPU (hanya satu contoh) | Tidak |
Klasifikasi Teks - TensorFlow | pelatihan dan validasi | File | CSV | CPU atau GPU | Ya (hanya di beberapa GPU dalam satu instance) |