Edit konfigurasi pengambilan sampel aliran data - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Edit konfigurasi pengambilan sampel aliran data

Saat mengimpor data tabular ke dalam aliran data Wrangler Data, Anda dapat memilih untuk mengambil sampel kumpulan data Anda untuk mempercepat proses eksplorasi dan pembersihan data. Menjalankan transformasi eksplorasi pada sampel kumpulan data Anda seringkali lebih cepat daripada menjalankan transformasi di seluruh kumpulan data Anda, dan ketika Anda siap untuk mengekspor kumpulan data dan membuat model, Anda dapat menerapkan transformasi ke kumpulan data lengkap.

Canvas mendukung metode pengambilan sampel berikut:

  • FirstK — Canvas memilih item K pertama dari dataset Anda, di mana K adalah angka yang Anda tentukan. Metode pengambilan sampel ini sederhana tetapi dapat menimbulkan bias jika kumpulan data Anda tidak diurutkan secara acak.

  • Acak — Canvas memilih item dari dataset secara acak, dengan setiap item memiliki probabilitas yang sama untuk dipilih. Metode pengambilan sampel ini membantu memastikan bahwa sampel mewakili seluruh kumpulan data.

  • Stratified — Canvas membagi dataset ke dalam kelompok (atau strata) berdasarkan satu atau lebih atribut (misalnya, usia dan tingkat pendapatan). Kemudian, sejumlah item proporsional dipilih secara acak dari setiap grup. Metode ini memastikan bahwa semua subkelompok yang relevan terwakili secara memadai dalam sampel.

Anda dapat mengedit konfigurasi sampling kapan saja untuk mengubah ukuran sampel yang digunakan untuk eksplorasi data.

Untuk membuat perubahan pada konfigurasi sampling Anda, lakukan hal berikut:

  1. Dalam grafik aliran data Anda, pilih simpul sumber data Anda.

  2. Pilih Sampling di bilah navigasi bawah.

  3. Kotak dialog Sampling terbuka. Untuk dropdown metode Sampling, pilih metode pengambilan sampel yang Anda inginkan.

  4. Untuk Ukuran sampel maksimum, masukkan jumlah baris yang ingin Anda sampel.

  5. Pilih Perbarui untuk menyimpan perubahan.

Perubahan pada konfigurasi sampling Anda sekarang harus diterapkan.