

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

# Pilih Data untuk Pelabelan
<a name="sms-data-filtering"></a>

Anda dapat menggunakan konsol Amazon SageMaker AI untuk memilih sebagian dari kumpulan data Anda untuk pelabelan. Data harus disimpan dalam bucket Amazon S3. Anda memiliki tiga opsi:
+ Gunakan dataset lengkap.
+ Pilih sampel kumpulan data yang dipilih secara acak.
+ Tentukan subset dari kumpulan data menggunakan kueri.

Opsi berikut tersedia di bagian **Pekerjaan pelabelan** di [konsol SageMaker AI](https://console.aws.amazon.com/sagemaker/groundtruth) setelah memilih **Buat pekerjaan pelabelan**. Untuk mempelajari cara membuat pekerjaan pelabelan di konsol, lihat[Memulai: Buat pekerjaan pelabelan kotak pembatas dengan Ground Truth](sms-getting-started.md). Untuk mengonfigurasi kumpulan data yang Anda gunakan untuk pelabelan, di bagian **Ikhtisar pekerjaan**, pilih Konfigurasi **tambahan**.

## Gunakan Dataset Lengkap
<a name="sms-full-dataset"></a>

Bila Anda memilih untuk menggunakan **Dataset lengkap**, Anda harus menyediakan file manifes untuk objek data Anda. Anda dapat menyediakan jalur bucket Amazon S3 yang berisi file manifes atau menggunakan konsol SageMaker AI untuk membuat file. Untuk mempelajari cara membuat file manifes menggunakan konsol, lihat[Mengotomatiskan pengaturan data untuk pekerjaan pelabelan](sms-console-create-manifest-file.md). 

## Pilih Sampel Acak
<a name="sms-random-dataset"></a>

Saat Anda ingin memberi label subset acak dari data Anda, pilih **Sampel acak**. Dataset disimpan di bucket Amazon S3 yang ditentukan di bidang lokasi **kumpulan data Input**. 

Setelah Anda menentukan persentase objek data yang ingin Anda sertakan dalam sampel, pilih **Buat subset**. SageMaker AI secara acak memilih objek data untuk pekerjaan pelabelan Anda. Setelah objek dipilih, pilih **Gunakan subset ini**. 

SageMaker AI membuat file manifes untuk objek data yang dipilih. Ini juga memodifikasi nilai di bidang **lokasi dataset Input** untuk menunjuk ke file manifes baru.

## Tentukan Subset
<a name="sms-select-dataset"></a>

**Amazon S3 Select**  
Amazon S3 Select tidak lagi tersedia untuk pelanggan baru. Pelanggan Amazon S3 Select yang sudah ada dapat terus menggunakan fitur seperti biasa. Untuk mempelajari selengkapnya lihat, [Cara mengoptimalkan kueri data Anda di Amazon](https://aws.amazon.com/blogs/storage/how-to-optimize-querying-your-data-in-amazon-s3/) S3

Anda dapat menentukan subset objek data menggunakan kueri Amazon `SELECT` S3 pada nama file objek. 

`SELECT`Pernyataan query SQL didefinisikan untuk Anda. Anda memberikan `WHERE` klausa untuk menentukan objek data mana yang harus dikembalikan.

Untuk informasi selengkapnya tentang `SELECT` pernyataan Amazon S3, lihat [Memilih Konten dari](https://docs.aws.amazon.com/AmazonS3/latest/dev/selecting-content-from-objects.html) Objek.

Pilih **Buat subset** untuk memulai pemilihan, lalu pilih **Gunakan subset ini** untuk menggunakan data yang dipilih. 

SageMaker AI membuat file manifes untuk objek data yang dipilih. Ini juga memperbarui nilai di bidang **lokasi kumpulan data Input** untuk menunjuk ke file manifes baru.