Output pelatihan pengklasifikasi - Amazon Comprehend

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Output pelatihan pengklasifikasi

Setelah Amazon Comprehend menyelesaikan pelatihan model pengklasifikasi kustom, Amazon Comprehend akan membuat file keluaran di lokasi keluaran Amazon S3 yang Anda tentukan dalam permintaan atau permintaan konsol yang setara. CreateDocumentClassifierAPI

Amazon Comprehend membuat matriks kebingungan saat Anda melatih model teks biasa atau model dokumen asli. Hal ini dapat membuat file output tambahan ketika Anda melatih model dokumen asli.

Matriks kebingungan

Saat Anda melatih model pengklasifikasi khusus, Amazon Comprehend membuat matriks kebingungan yang menyediakan metrik tentang seberapa baik kinerja model dalam pelatihan. Matriks ini menunjukkan matriks label yang diprediksi model, dibandingkan dengan label dokumen yang sebenarnya. Amazon Comprehend menggunakan sebagian data pelatihan untuk membuat matriks kebingungan.

Matriks kebingungan memberikan indikasi kelas mana yang dapat menggunakan lebih banyak data untuk meningkatkan kinerja model. Kelas dengan fraksi prediksi yang benar memiliki jumlah hasil tertinggi di sepanjang diagonal matriks. Jika angka pada diagonal adalah angka yang lebih rendah, kelas memiliki fraksi prediksi yang benar yang lebih rendah. Anda dapat menambahkan lebih banyak contoh pelatihan untuk kelas ini dan melatih model lagi. Misalnya, jika 40 persen sampel label A diklasifikasikan sebagai label D, menambahkan lebih banyak sampel untuk label A dan label D meningkatkan kinerja pengklasifikasi.

Setelah Amazon Comprehend membuat model pengklasifikasi, matriks kebingungan tersedia confusion_matrix.json dalam file di lokasi keluaran S3.

Format matriks kebingungan bervariasi, tergantung pada apakah Anda melatih pengklasifikasi menggunakan mode multi-kelas atau mode multi-label.

Matriks kebingungan untuk mode multi-kelas

Dalam mode multi-kelas, kelas individu saling eksklusif, sehingga klasifikasi memberikan satu label untuk setiap dokumen. Misalnya, seekor binatang bisa menjadi kucing atau kucing, tetapi tidak keduanya pada saat yang bersamaan.

Perhatikan contoh matriks kebingungan berikut untuk pengklasifikasi terlatih multi-kelas:

A B X Y <-(predicted label) A 1 2 0 4 B 0 3 0 1 X 0 0 1 0 Y 1 1 1 1 ^ | (actual label)

Dalam hal ini, model memprediksi hal berikut:

  • Satu label “A” diprediksi secara akurat, dua label “A” salah diprediksi sebagai label “B”, dan empat label “A” salah diprediksi sebagai label “Y”.

  • Tiga label “B” diprediksi secara akurat, dan satu label “B” salah diprediksi sebagai label “Y”.

  • Satu “X” diprediksi secara akurat.

  • Satu label “Y” diprediksi secara akurat, satu salah diprediksi sebagai label “A”, satu salah diprediksi sebagai label “B”, dan satu salah diprediksi sebagai label “X”.

Garis diagonal dalam matriks (A: A, B: B, X: X, dan Y: Y) menunjukkan prediksi yang akurat. Kesalahan prediksi adalah nilai di luar diagonal. Dalam hal ini, matriks menunjukkan tingkat kesalahan prediksi berikut:

  • Sebuah label: 86%

  • Label B: 25%

  • Label X: 0%

  • Label Y: 75%

Pengklasifikasi mengembalikan matriks kebingungan sebagai file dalam JSON format. JSONFile berikut mewakili matriks untuk contoh sebelumnya.

{ "type": "multi_class", "confusion_matrix": [ [1, 2, 0,4], [0, 3, 0, 1], [0, 0, 1, 0], [1, 1, 1, 1]], "labels": ["A", "B", "X", "Y"], "all_labels": ["A", "B", "X", "Y"] }

Matriks kebingungan untuk mode multi-label

Dalam mode multi-label, klasifikasi dapat menetapkan satu atau lebih kelas ke dokumen. Perhatikan contoh matriks kebingungan berikut untuk pengklasifikasi terlatih multi-kelas.

Dalam contoh ini, ada tiga kemungkinan label:Comedy,Action, danDrama. Matriks kebingungan multi-label menciptakan satu matriks 2x2 untuk setiap label.

Comedy Action Drama No Yes No Yes No Yes <-(predicted label) No 2 1 No 1 1 No 3 0 Yes 0 2 Yes 2 1 Yes 1 1 ^ ^ ^ | | | |-----------(was this label actually used)--------|

Dalam hal ini, model mengembalikan yang berikut untuk Comedy label:

  • Dua contoh di mana Comedy label diprediksi secara akurat akan hadir. Benar positif (TP).

  • Dua contoh di mana Comedy label secara akurat diprediksi tidak ada. Benar negatif (TN).

  • Nol contoh di mana Comedy label salah diprediksi ada. Positif palsu (FP).

  • Salah satu contoh di mana Comedy label salah diprediksi tidak ada. Negatif palsu (FN).

Seperti halnya matriks kebingungan multi-kelas, garis diagonal di setiap matriks menunjukkan prediksi yang akurat.

Dalam hal ini, model secara akurat memprediksi Comedy label 80% dari waktu (TP plus TN) dan salah memprediksinya 20% dari waktu (FP plus FN).

Pengklasifikasi mengembalikan matriks kebingungan sebagai file dalam JSON format. JSONFile berikut mewakili matriks untuk contoh sebelumnya.

{ "type": "multi_label", "confusion_matrix": [ [[2, 1], [0, 2]], [[1, 1], [2, 1]], [[3, 0], [1, 1]] ], "labels": ["Comedy", "Action", "Drama"] "all_labels": ["Comedy", "Action", "Drama"] }

Output tambahan untuk model dokumen asli

Amazon Comprehend dapat membuat file output tambahan saat Anda melatih model dokumen asli.

Keluaran Amazon Texttract

Jika Amazon Comprehend memanggil Amazon APIs Textract untuk mengekstrak teks untuk dokumen pelatihan apa pun, Amazon Textract menyimpan file keluaran Amazon Textract di lokasi keluaran S3. Ini menggunakan struktur direktori berikut:

  • Dokumen pelatihan:

    amazon-textract-output/train/<file_name>/<page_num>/textract_output.json

  • Dokumen uji:

    amazon-textract-output/test/<file_name>/<page_num>/textract_output.json

Amazon Comprehend mengisi folder pengujian jika Anda memberikan dokumen pengujian dalam permintaan. API

Kegagalan anotasi dokumen

Amazon Comprehend membuat file berikut di lokasi keluaran Amazon S3 (di folder skipped_documents/) jika ada anotasi yang gagal:

  • failed_annotations_train.jsonl

    File ada jika ada anotasi yang gagal dalam data pelatihan.

  • failed_annotations_test.jsonl

    File ada jika permintaan menyertakan data pengujian dan anotasi apa pun gagal dalam data pengujian.

File anotasi yang gagal adalah JSONL file dengan format berikut:

{ "File": "String", "Page": Number, "ErrorCode": "...", "ErrorMessage": "..."} {"File": "String", "Page": Number, "ErrorCode": "...", "ErrorMessage": "..." }