Latih pengklasifikasi khusus (konsol) - Amazon Comprehend

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Latih pengklasifikasi khusus (konsol)

Anda dapat membuat dan melatih pengklasifikasi kustom menggunakan konsol, lalu menggunakan pengklasifikasi khusus untuk menganalisis dokumen Anda.

Untuk melatih pengklasifikasi khusus, Anda memerlukan satu set dokumen pelatihan. Anda memberi label pada dokumen-dokumen ini dengan kategori yang ingin dikenali oleh pengklasifikasi dokumen. Untuk informasi tentang menyiapkan dokumen pelatihan Anda, lihatMempersiapkan data pelatihan pengklasifikasi.

Untuk membuat dan melatih model pengklasifikasi dokumen
  1. Masuk ke AWS Management Console dan buka konsol Amazon Comprehend di https://console.aws.amazon.com/comprehend/

  2. Dari menu sebelah kiri, pilih Kustomisasi dan kemudian pilih Klasifikasi Kustom.

  3. Pilih Buat model baru.

  4. Di bawah Pengaturan model, masukkan nama model untuk pengklasifikasi. Nama harus unik dalam akun Anda dan Wilayah saat ini.

    (Opsional) Masukkan nama versi. Nama harus unik dalam akun Anda dan Wilayah saat ini.

  5. Pilih bahasa dokumen pelatihan. Untuk melihat bahasa yang didukung pengklasifikasi, lihatModel klasifikasi pelatihan.

  6. (Opsional) Jika Anda ingin mengenkripsi data dalam volume penyimpanan saat Amazon Comprehend memproses tugas pelatihan Anda, pilih Enkripsi Classifier. Kemudian pilih apakah akan menggunakan KMS kunci yang terkait dengan akun Anda saat ini, atau salah satu dari akun lain.

    • Jika Anda menggunakan kunci yang terkait dengan akun saat ini, pilih ID kunci untuk ID KMS kunci.

    • Jika Anda menggunakan kunci yang terkait dengan akun yang berbeda, masukkan ARN untuk ID kunci di bawah KMSkunci ARN.

    catatan

    Untuk informasi selengkapnya tentang membuat dan menggunakan KMS kunci dan enkripsi terkait, lihat AWS Key Management Service (AWS KMS).

  7. Di bawah Spesifikasi data, pilih jenis model Pelatihan yang akan digunakan.

    • Dokumen teks biasa: Pilih opsi ini untuk membuat model teks biasa. Latih model menggunakan dokumen teks biasa.

    • Dokumen asli: Pilih opsi ini untuk membuat model dokumen asli. Latih model menggunakan dokumen asli (PDF, Word, gambar).

  8. Pilih format Data data pelatihan Anda. Untuk informasi tentang format data, lihatFormat file pelatihan pengklasifikasi.

    • CSVfile: Pilih opsi ini jika data pelatihan Anda menggunakan format CSV file.

    • Manifes tambahan: Pilih opsi ini jika Anda menggunakan Ground Truth untuk membuat file manifes tambahan untuk data pelatihan Anda. Format ini tersedia jika Anda memilih dokumen teks biasa sebagai jenis model pelatihan.

  9. Pilih mode Classifier yang akan digunakan.

    • Mode label tunggal: Pilih mode ini jika kategori yang Anda tetapkan ke dokumen saling eksklusif dan Anda melatih pengklasifikasi Anda untuk menetapkan satu label ke setiap dokumen. Di API Amazon Comprehend, mode single-label dikenal sebagai mode multi-class.

    • Mode multi-label: Pilih mode ini jika beberapa kategori dapat diterapkan ke dokumen secara bersamaan, dan Anda melatih pengklasifikasi Anda untuk menetapkan satu atau beberapa label ke setiap dokumen.

  10. Jika Anda memilih mode Multi-label, Anda dapat memilih Delimiter untuk label. Gunakan karakter pembatas ini untuk memisahkan label ketika ada beberapa kelas untuk dokumen pelatihan. Pembatas default adalah karakter pipa.

  11. (Opsional) Jika Anda memilih manifes Augmented sebagai format data, Anda dapat memasukkan hingga lima file manifes tambahan. Setiap file manifes yang ditambah berisi kumpulan data pelatihan atau kumpulan data pengujian. Anda harus menyediakan setidaknya satu kumpulan data pelatihan. Dataset uji bersifat opsional. Gunakan langkah-langkah berikut untuk mengonfigurasi file manifes tambahan:

    1. Di bawah Dataset pelatihan dan pengujian, perluas panel lokasi Input.

    2. Dalam tipe Dataset, pilih Data pelatihan atau Data uji.

    3. Untuk lokasi file manifes tambahan SageMaker AI Ground Truth S3, masukkan lokasi bucket Amazon S3 yang berisi file manifes atau navigasikan ke sana dengan memilih Browse S3. IAMPeran yang Anda gunakan untuk izin akses untuk pekerjaan pelatihan harus memiliki izin baca untuk bucket S3.

    4. Untuk nama Atribut, masukkan nama atribut yang berisi anotasi Anda. Jika file berisi anotasi dari beberapa pekerjaan pelabelan berantai, tambahkan atribut untuk setiap pekerjaan.

    5. Untuk menambahkan lokasi input lain, pilih Tambahkan lokasi input dan kemudian konfigurasikan lokasi berikutnya.

  12. (Opsional) Jika Anda memilih CSVfile sebagai format data, gunakan langkah-langkah berikut untuk mengonfigurasi kumpulan data pelatihan dan kumpulan data pengujian opsional:

    1. Di bawah Kumpulan data Pelatihan, masukkan lokasi bucket Amazon S3 yang berisi file CSV data latihan Anda atau navigasikan ke sana dengan memilih Browse S3. IAMPeran yang Anda gunakan untuk izin akses untuk pekerjaan pelatihan harus memiliki izin baca untuk bucket S3.

      (Opsional) Jika Anda memilih dokumen Native sebagai jenis model pelatihan, Anda juga menyediakan folder Amazon S3 yang berisi file contoh pelatihan. URL

    2. Di bawah Test dataset, pilih apakah Anda menyediakan data tambahan untuk Amazon Comprehend untuk menguji model terlatih.

      • Autosplit: Autosplit secara otomatis memilih 10% dari data pelatihan Anda untuk dicadangkan untuk digunakan sebagai data pengujian.

      • (Opsional) Pelanggan disediakan: Masukkan URL CSV file data pengujian di Amazon S3. Anda juga dapat menavigasi ke lokasinya di Amazon S3 dan memilih Pilih folder.

        (Opsional) Jika Anda memilih dokumen asli sebagai jenis model pelatihan, Anda juga menyediakan folder Amazon S3 yang berisi file pengujian. URL

  13. (Opsional) Untuk mode baca Dokumen, Anda dapat mengganti tindakan ekstraksi teks default. Opsi ini tidak diperlukan untuk model teks biasa, karena berlaku untuk ekstraksi teks untuk dokumen yang dipindai. Untuk informasi selengkapnya, lihat Mengatur opsi ekstraksi teks.

  14. (Opsional untuk model teks biasa) Untuk data Output, masukkan lokasi bucket Amazon S3 untuk menyimpan data keluaran pelatihan, seperti matriks kebingungan. Untuk informasi selengkapnya, lihat Matriks kebingungan.

    (Opsional) Jika Anda memilih untuk mengenkripsi hasil output dari pekerjaan pelatihan Anda, pilih Enkripsi. Kemudian pilih apakah akan menggunakan KMS kunci yang terkait dengan akun saat ini, atau satu dari akun lain.

    • Jika Anda menggunakan kunci yang terkait dengan akun saat ini, pilih alias kunci untuk ID KMS kunci.

    • Jika Anda menggunakan kunci yang terkait dengan akun yang berbeda, masukkan alias kunci atau ID di bawah ID KMS kunci. ARN

  15. Untuk IAMperan, pilih Pilih IAM peran yang ada, lalu pilih IAM peran yang ada yang memiliki izin baca untuk bucket S3 yang berisi dokumen pelatihan Anda. Peran tersebut harus memiliki kebijakan kepercayaan yang dimulai dengan comprehend.amazonaws.com agar valid.

    Jika Anda belum memiliki IAM peran dengan izin ini, pilih Buat IAM peran untuk membuatnya. Pilih izin akses untuk memberikan peran ini, lalu pilih akhiran nama untuk membedakan peran dari IAM peran di akun Anda.

    catatan

    Untuk dokumen masukan terenkripsi, IAM peran yang digunakan juga harus memiliki kms:Decrypt izin. Untuk informasi selengkapnya, lihat Izin yang diperlukan untuk menggunakan enkripsi KMS.

  16. (Opsional) Untuk meluncurkan sumber daya Anda ke Amazon Comprehend VPC dari a, VPC masukkan VPCID di bawah atau pilih ID dari daftar tarik-turun.

    1. Pilih subnet di bawah Subnet (s). Setelah Anda memilih subnet pertama, Anda dapat memilih yang tambahan.

    2. Di bawah Grup Keamanan, pilih grup keamanan yang akan digunakan jika Anda menentukannya. Setelah Anda memilih grup keamanan pertama, Anda dapat memilih yang tambahan.

    catatan

    Saat Anda menggunakan tugas klasifikasi, yang DataAccessRole digunakan untuk operasi Buat dan Mulai harus memiliki izin untuk mengakses dokumen input dan bucket keluaran. VPC VPC

  17. (Opsional) Untuk menambahkan tag ke pengklasifikasi kustom, masukkan pasangan nilai kunci di bawah Tag. Pilih Tambahkan tanda. Untuk menghapus pasangan ini sebelum membuat pengklasifikasi, pilih Hapus tag. Untuk informasi selengkapnya, lihat Menandai Sumber Daya Anda.

  18. Pilih Buat.

Konsol menampilkan halaman Pengklasifikasi. Pengklasifikasi baru muncul di tabel, ditampilkan Submitted sebagai statusnya. Saat pengklasifikasi mulai memproses dokumen pelatihan, statusnya berubah menjadiTraining. Saat pengklasifikasi siap digunakan, status berubah menjadi Trained atauTrained with warnings. Jika statusnyaTRAINED_WITH_WARNINGS, tinjau folder file yang dilewati di Output pelatihan pengklasifikasi file.

Jika Amazon Comprehend mengalami kesalahan selama pembuatan atau pelatihan, statusnya berubah menjadi. In error Anda dapat memilih pekerjaan pengklasifikasi dalam tabel untuk mendapatkan informasi lebih lanjut tentang pengklasifikasi, termasuk pesan kesalahan apa pun.

Daftar pengklasifikasi kustom.