Konsolidasi anotasi - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Konsolidasi anotasi

Anotasi adalah hasil dari tugas pelabelan pekerja tunggal. Konsolidasi anotasi menggabungkan anotasi dari dua atau lebih pekerja ke dalam satu label untuk objek data Anda. Label, yang ditetapkan untuk setiap objek dalam dataset, adalah perkiraan probabilistik dari apa label sebenarnya. Setiap objek dalam kumpulan data biasanya memiliki beberapa anotasi, tetapi hanya satu label atau kumpulan label.

Anda memutuskan berapa banyak pekerja yang membuat anotasi setiap objek dalam kumpulan data Anda. Menggunakan lebih banyak pekerja dapat meningkatkan akurasi label Anda, tetapi juga meningkatkan biaya pelabelan. Untuk mempelajari lebih lanjut tentang harga Ground Truth, lihat harga Amazon SageMaker Ground Truth.

Jika Anda menggunakan SageMaker konsol Amazon untuk membuat pekerjaan pelabelan, berikut ini adalah default untuk jumlah pekerja yang dapat membuat anotasi objek:

  • Klasifikasi teks-3 pekerja

  • Klasifikasi gambar—3 pekerja

  • Kotak pembatas — 5 pekerja

  • Segmentasi semantik — 3 pekerja

  • Pengakuan entitas bernama — 3 pekerja

Saat Anda menggunakan CreateLabelingJoboperasi, Anda mengatur jumlah pekerja untuk membubuhi keterangan setiap objek data dengan parameter. NumberOfHumanWorkersPerDataObject Anda dapat mengganti jumlah pekerja default yang membuat anotasi objek data menggunakan konsol atau operasi. CreateLabelingJob

Ground Truth menyediakan fungsi konsolidasi anotasi untuk setiap tugas pelabelan yang telah ditentukan sebelumnya: kotak pembatas, klasifikasi gambar, pengenalan entitas nama, segmentasi semantik, dan klasifikasi teks. Ini adalah fungsinya:

  • Konsolidasi anotasi multi-kelas untuk klasifikasi gambar dan teks menggunakan varian pendekatan Expectation Maximization untuk anotasi. Ini memperkirakan parameter untuk setiap pekerja dan menggunakan inferensi Bayesian untuk memperkirakan kelas sebenarnya berdasarkan anotasi kelas dari pekerja individu.

  • Anotasi kotak pembatas mengkonsolidasikan kotak pembatas dari beberapa pekerja. Fungsi ini menemukan kotak yang paling mirip dari pekerja yang berbeda berdasarkan indeks Jaccard, atau persimpangan di atas serikat pekerja, dari kotak dan rata-rata mereka.

  • Konsolidasi anotasi segmentasi semantik memperlakukan setiap piksel dalam satu gambar sebagai klasifikasi multi-kelas. Fungsi ini memperlakukan anotasi piksel dari pekerja sebagai “suara”, dengan informasi lebih lanjut dari piksel sekitarnya digabungkan dengan menerapkan fungsi smoothing ke gambar.

  • Pengenalan entitas bernama mengelompokkan pilihan teks berdasarkan kesamaan Jaccard dan menghitung batas pemilihan berdasarkan mode, atau median jika modenya tidak jelas. Label menyelesaikan label entitas yang paling banyak ditetapkan di cluster, memutuskan ikatan dengan pemilihan acak.

Anda dapat menggunakan algoritme lain untuk mengkonsolidasikan anotasi. Untuk informasi, lihat Pembuatan fungsi konsolidasi anotasi.