Filter dan Pilih Data untuk Pelabelan - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Filter dan Pilih Data untuk Pelabelan

Anda dapat menggunakan SageMaker konsol Amazon untuk memilih sebagian dari kumpulan data Anda untuk pelabelan. Data harus disimpan dalam bucket Amazon S3. Anda memiliki tiga opsi:

  • Gunakan dataset lengkap.

  • Pilih sampel kumpulan data yang dipilih secara acak.

  • Tentukan subset dari kumpulan data menggunakan kueri.

Opsi berikut tersedia di bagian Pekerjaan pelabelan SageMaker konsol setelah memilih Buat pekerjaan pelabelan. Untuk mempelajari cara membuat pekerjaan pelabelan di konsol, lihatMemulai. Untuk mengonfigurasi kumpulan data yang Anda gunakan untuk pelabelan, di bagian Ikhtisar pekerjaan, pilih Konfigurasi tambahan.

Gunakan Dataset Lengkap

Bila Anda memilih untuk menggunakan Dataset lengkap, Anda harus menyediakan file manifes untuk objek data Anda. Anda dapat menyediakan jalur bucket Amazon S3 yang berisi file manifes atau menggunakan SageMaker konsol untuk membuat file. Untuk mempelajari cara membuat file manifes menggunakan konsol, lihatPengaturan Data Otomatis.

Pilih Sampel Acak

Saat Anda ingin memberi label subset acak dari data Anda, pilih Sampel acak. Dataset disimpan di bucket Amazon S3 yang ditentukan di bidang lokasi kumpulan data Input.

Setelah Anda menentukan persentase objek data yang ingin Anda sertakan dalam sampel, pilih Buat subset. SageMaker secara acak memilih objek data untuk pekerjaan pelabelan Anda. Setelah objek dipilih, pilih Gunakan subset ini.

SageMaker membuat file manifes untuk objek data yang dipilih. Ini juga memodifikasi nilai di bidang lokasi dataset Input untuk menunjuk ke file manifes baru.

Tentukan Subset

Anda dapat menentukan subset objek data menggunakan kueri Amazon SELECT S3 pada nama file objek.

SELECTPernyataan SQL kueri didefinisikan untuk Anda. Anda memberikan WHERE klausa untuk menentukan objek data mana yang harus dikembalikan.

Untuk informasi selengkapnya tentang SELECT pernyataan Amazon S3, lihat Memilih Konten dari Objek.

Pilih Buat subset untuk memulai pemilihan, lalu pilih Gunakan subset ini untuk menggunakan data yang dipilih.

SageMaker membuat file manifes untuk objek data yang dipilih. Ini juga memperbarui nilai di bidang lokasi kumpulan data Input untuk menunjuk ke file manifes baru.