Model klasifikasi pelatihan - Amazon Comprehend

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Model klasifikasi pelatihan

Untuk melatih model klasifikasi kustom, Anda menentukan kategori dan memberikan contoh dokumen untuk melatih model kustom. Anda melatih model dalam mode multi-kelas atau multi-label. Mode multi-kelas mengaitkan satu kelas dengan setiap dokumen. Mode multi-label mengaitkan satu atau lebih kelas dengan setiap dokumen.

Klasifikasi kustom mendukung dua jenis model pengklasifikasi: model teks biasa dan model dokumen asli. Model teks biasa mengklasifikasikan dokumen berdasarkan konten teksnya. Model dokumen asli juga mengklasifikasikan dokumen berdasarkan konten teks. Model dokumen asli juga dapat menggunakan sinyal tambahan, seperti dari tata letak dokumen. Anda melatih model dokumen asli dengan dokumen asli untuk model untuk mempelajari informasi tata letak.

Model teks biasa memiliki karakteristik sebagai berikut:

  • Anda melatih model menggunakan UTF -8 dokumen teks yang dikodekan.

  • Anda dapat melatih model menggunakan dokumen dalam salah satu bahasa berikut: Inggris, Spanyol, Jerman, Italia, Prancis, atau Portugis.

  • Dokumen pelatihan untuk pengklasifikasi tertentu semuanya harus menggunakan bahasa yang sama.

  • Dokumen pelatihan adalah teks biasa, jadi tidak ada biaya tambahan untuk ekstraksi teks.

Model dokumen asli memiliki karakteristik sebagai berikut:

  • Anda melatih model menggunakan dokumen semi-terstruktur, yang mencakup jenis dokumen berikut:

    • PDFDokumen digital dan pindaian.

    • Dokumen Word (DOCX).

    • Gambar: JPG file, PNG file, dan TIFF file satu halaman.

    • File API keluaran JSON Textract.

  • Anda melatih model menggunakan dokumen bahasa Inggris.

  • Jika dokumen pelatihan Anda menyertakan file dokumen yang dipindai, Anda dikenakan biaya tambahan untuk ekstraksi teks. Lihat halaman Harga Amazon Comprehend untuk detailnya.

Anda dapat mengklasifikasikan salah satu jenis dokumen yang didukung menggunakan salah satu jenis model. Namun, untuk hasil yang paling akurat, sebaiknya gunakan model teks biasa untuk mengklasifikasikan dokumen teks biasa dan model dokumen asli untuk mengklasifikasikan dokumen semi-terstruktur.