Matriks kebingungan Output tambahan untuk model dokumen asli

Output pelatihan pengklasifikasi

Setelah Amazon Comprehend menyelesaikan pelatihan model pengklasifikasi kustom, Amazon Comprehend akan membuat file keluaran di lokasi keluaran Amazon S3 yang Anda tentukan CreateDocumentClassifierdalam permintaan API atau permintaan konsol yang setara.

Amazon Comprehend membuat matriks kebingungan saat Anda melatih model teks biasa atau model dokumen asli. Hal ini dapat membuat file output tambahan ketika Anda melatih model dokumen asli.

Matriks kebingungan

Saat Anda melatih model pengklasifikasi khusus, Amazon Comprehend membuat matriks kebingungan yang menyediakan metrik tentang seberapa baik kinerja model dalam pelatihan. Matriks ini menunjukkan matriks label yang diprediksi model, dibandingkan dengan label dokumen yang sebenarnya. Amazon Comprehend menggunakan sebagian data pelatihan untuk membuat matriks kebingungan.

Matriks kebingungan memberikan indikasi kelas mana yang dapat menggunakan lebih banyak data untuk meningkatkan kinerja model. Kelas dengan fraksi prediksi yang benar memiliki jumlah hasil tertinggi di sepanjang diagonal matriks. Jika angka pada diagonal adalah angka yang lebih rendah, kelas memiliki fraksi prediksi yang benar yang lebih rendah. Anda dapat menambahkan lebih banyak contoh pelatihan untuk kelas ini dan melatih model lagi. Misalnya, jika 40 persen sampel label A diklasifikasikan sebagai label D, menambahkan lebih banyak sampel untuk label A dan label D meningkatkan kinerja pengklasifikasi.

Setelah Amazon Comprehend membuat model pengklasifikasi, matriks kebingungan tersedia confusion_matrix.json dalam file di lokasi keluaran S3.

Format matriks kebingungan bervariasi, tergantung pada apakah Anda melatih pengklasifikasi menggunakan mode multi-kelas atau mode multi-label.

Topik

Matriks kebingungan untuk mode multi-kelas
Matriks kebingungan untuk mode multi-label

Matriks kebingungan untuk mode multi-kelas

Dalam mode multi-kelas, kelas individu saling eksklusif, sehingga klasifikasi memberikan satu label untuk setiap dokumen. Misalnya, seekor binatang bisa menjadi kucing atau kucing, tetapi tidak keduanya pada saat yang bersamaan.

Perhatikan contoh matriks kebingungan berikut untuk pengklasifikasi terlatih multi-kelas:


  A B X Y <-(predicted label)
A 1 2 0 4
B 0 3 0 1
X 0 0 1 0
Y 1 1 1 1
^
|
(actual label)

Dalam hal ini, model memprediksi hal berikut:

Satu label “A” diprediksi secara akurat, dua label “A” salah diprediksi sebagai label “B”, dan empat label “A” salah diprediksi sebagai label “Y”.
Tiga label “B” diprediksi secara akurat, dan satu label “B” salah diprediksi sebagai label “Y”.
Satu “X” diprediksi secara akurat.
Satu label “Y” diprediksi secara akurat, satu salah diprediksi sebagai label “A”, satu salah diprediksi sebagai label “B”, dan satu salah diprediksi sebagai label “X”.

Garis diagonal dalam matriks (A:A, B:B, X:X, dan Y:Y) menunjukkan prediksi yang akurat. Kesalahan prediksi adalah nilai di luar diagonal. Dalam hal ini, matriks menunjukkan tingkat kesalahan prediksi berikut:

Sebuah label: 86%
Label B: 25%
X label: 0%
Label Y: 75%

Pengklasifikasi mengembalikan matriks kebingungan sebagai file dalam format JSON. File JSON berikut mewakili matriks untuk contoh sebelumnya.


{
 "type": "multi_class",
 "confusion_matrix": [
 [1, 2, 0,4],
 [0, 3, 0, 1],
 [0, 0, 1, 0],
 [1, 1, 1, 1]],
 "labels": ["A", "B", "X", "Y"],
 "all_labels": ["A", "B", "X", "Y"]
}

Matriks kebingungan untuk mode multi-label

Dalam mode multi-label, klasifikasi dapat menetapkan satu atau lebih kelas ke dokumen. Perhatikan contoh matriks kebingungan berikut untuk pengklasifikasi terlatih multi-kelas.

Dalam contoh ini, ada tiga kemungkinan label:Comedy,Action, danDrama. Matriks kebingungan multi-label menciptakan satu matriks 2x2 untuk setiap label.


Comedy                   Action                   Drama 
     No Yes                   No Yes                   No Yes   <-(predicted label)                                      
 No  2   1                No  1   1                No  3   0                                                         
Yes  0   2               Yes  2   1               Yes  1   1   
 ^                        ^                        ^
 |                        |                        |
 |-----------(was this label actually used)--------|

Dalam hal ini, model mengembalikan yang berikut untuk Comedy label:

Dua contoh di mana Comedy label diprediksi secara akurat akan hadir. Benar positif (TP).
Dua contoh di mana Comedy label secara akurat diprediksi tidak ada. Benar negatif (TN).
Nol contoh di mana Comedy label salah diprediksi ada. Positif palsu (FP).
Salah satu contoh di mana Comedy label salah diprediksi tidak ada. Negatif palsu (FN).

Seperti halnya matriks kebingungan multi-kelas, garis diagonal di setiap matriks menunjukkan prediksi yang akurat.

Dalam hal ini, model secara akurat memprediksi Comedy label 80% dari waktu (TP plus TN) dan salah memprediksinya 20% dari waktu (FP plus FN).

Pengklasifikasi mengembalikan matriks kebingungan sebagai file dalam format JSON. File JSON berikut mewakili matriks untuk contoh sebelumnya.


{
"type": "multi_label",
"confusion_matrix": [
 [[2, 1],        
 [0, 2]],
 [[1, 1],        
 [2, 1]],      
 [[3, 0],        
 [1, 1]]
], 
"labels": ["Comedy", "Action", "Drama"]
"all_labels": ["Comedy", "Action", "Drama"]
}

Output tambahan untuk model dokumen asli

Amazon Comprehend dapat membuat file output tambahan saat Anda melatih model dokumen asli.

Keluaran Amazon Texttract

Jika Amazon Comprehend memanggil Amazon Textract API untuk mengekstrak teks untuk dokumen pelatihan apa pun, Amazon Textract menyimpan file keluaran Amazon Ttract di lokasi keluaran S3. Ini menggunakan struktur direktori berikut:

Dokumen pelatihan:

amazon-textract-output/train/<file_name>/<page_num>/textract_output.json
Dokumen uji:

amazon-textract-output/test/<file_name>/<page_num>/textract_output.json

Amazon Comprehend mengisi folder pengujian jika Anda menyediakan dokumen pengujian dalam permintaan API.

Kegagalan anotasi dokumen

Amazon Comprehend membuat file berikut di lokasi keluaran Amazon S3 (di folder skipped_documents/) jika ada anotasi yang gagal:

failed_annotations_train.jsonl

File ada jika ada anotasi yang gagal dalam data pelatihan.
failed_annotations_test.jsonl

File ada jika permintaan menyertakan data pengujian dan anotasi apa pun gagal dalam data pengujian.

File anotasi yang gagal adalah file JSONL dengan format berikut:


{
     "File": "String", "Page": Number, "ErrorCode": "...", "ErrorMessage": "..."}
    {"File": "String", "Page": Number, "ErrorCode": "...", "ErrorMessage": "..."
  }

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Uji data pelatihan

Metrik-metrik