Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Filter dan Pilih Data untuk Pelabelan
Anda dapat menggunakan SageMaker konsol Amazon untuk memilih sebagian dari kumpulan data Anda untuk pelabelan. Data harus disimpan dalam bucket Amazon S3. Anda memiliki tiga opsi:
-
Gunakan dataset lengkap.
-
Pilih sampel kumpulan data yang dipilih secara acak.
-
Tentukan subset dari kumpulan data menggunakan kueri.
Opsi berikut tersedia di bagian Pekerjaan pelabelan SageMaker konsol
Gunakan Dataset Lengkap
Bila Anda memilih untuk menggunakan Dataset lengkap, Anda harus menyediakan file manifes untuk objek data Anda. Anda dapat menyediakan jalur bucket Amazon S3 yang berisi file manifes atau menggunakan SageMaker konsol untuk membuat file. Untuk mempelajari cara membuat file manifes menggunakan konsol, lihatPengaturan Data Otomatis.
Pilih Sampel Acak
Saat Anda ingin memberi label subset acak dari data Anda, pilih Sampel acak. Dataset disimpan di bucket Amazon S3 yang ditentukan di bidang lokasi kumpulan data Input.
Setelah Anda menentukan persentase objek data yang ingin Anda sertakan dalam sampel, pilih Buat subset. SageMaker secara acak memilih objek data untuk pekerjaan pelabelan Anda. Setelah objek dipilih, pilih Gunakan subset ini.
SageMaker membuat file manifes untuk objek data yang dipilih. Ini juga memodifikasi nilai di bidang lokasi dataset Input untuk menunjuk ke file manifes baru.
Tentukan Subset
Anda dapat menentukan subset objek data menggunakan kueri Amazon SELECT
S3 pada nama file objek.
SELECT
Pernyataan SQL kueri didefinisikan untuk Anda. Anda memberikan WHERE
klausa untuk menentukan objek data mana yang harus dikembalikan.
Untuk informasi selengkapnya tentang SELECT
pernyataan Amazon S3, lihat Memilih Konten dari Objek.
Pilih Buat subset untuk memulai pemilihan, lalu pilih Gunakan subset ini untuk menggunakan data yang dipilih.
SageMaker membuat file manifes untuk objek data yang dipilih. Ini juga memperbarui nilai di bidang lokasi kumpulan data Input untuk menunjuk ke file manifes baru.