Persiapan data - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Persiapan data

catatan

Sebelumnya, Amazon SageMaker Data Wrangler adalah bagian dari pengalaman SageMaker Studio Classic. Sekarang, jika Anda memperbarui untuk menggunakan pengalaman Studio baru, Anda harus menggunakan SageMaker Canvas untuk mengakses Data Wrangler dan menerima pembaruan fitur terbaru. Jika Anda telah menggunakan Data Wrangler di Studio Classic sampai sekarang dan ingin bermigrasi ke Data Wrangler di Canvas, Anda mungkin harus memberikan izin tambahan sehingga Anda dapat membuat dan menggunakan aplikasi Canvas. Untuk informasi selengkapnya, lihat (Opsional) Migrasi dari Data Wrangler di Studio Classic ke Canvas SageMaker .

Untuk mempelajari cara memigrasikan aliran data Anda dari Data Wrangler di Studio Classic, lihat. (Opsional) Migrasikan data dari Studio Classic ke Studio

Gunakan Amazon SageMaker Data Wrangler di Amazon SageMaker Canvas untuk menyiapkan, menyesuaikan, dan menganalisis data Anda. Anda dapat mengintegrasikan alur persiapan data Wrangler Data ke dalam alur kerja machine learning (ML) Anda untuk menyederhanakan dan merampingkan pra-pemrosesan data dan rekayasa fitur menggunakan sedikit atau tanpa pengkodean. Anda juga dapat menambahkan skrip dan transformasi Python Anda sendiri untuk menyesuaikan alur kerja.

  • Aliran Data - Buat aliran data untuk menentukan serangkaian langkah persiapan data ML. Anda dapat menggunakan alur untuk menggabungkan kumpulan data dari sumber data yang berbeda, mengidentifikasi jumlah dan jenis transformasi yang ingin Anda terapkan ke kumpulan data, dan menentukan alur kerja persiapan data yang dapat diintegrasikan ke dalam pipeline ML.

  • Transform - Bersihkan dan ubah dataset Anda menggunakan transformasi standar seperti string, vektor, dan alat pemformatan data numerik. Faturisasi data Anda menggunakan transformasi seperti penyematan teks dan tanggal/waktu serta pengkodean kategoris.

  • Hasilkan Wawasan Data — Secara otomatis memverifikasi kualitas data dan mendeteksi kelainan pada data Anda dengan Laporan Kualitas dan Wawasan Data Wrangler Data.

  • Analisis — Analisis fitur dalam kumpulan data Anda di setiap titik dalam alur Anda. Data Wrangler mencakup alat visualisasi data bawaan seperti plot pencar dan histogram, serta alat analisis data seperti analisis kebocoran target dan pemodelan cepat untuk memahami korelasi fitur.

  • Ekspor - Ekspor alur kerja persiapan data Anda ke lokasi yang berbeda. Berikut ini adalah contoh lokasi:

    • bucket Amazon Simple Storage Service (Amazon S3)

    • Amazon SageMaker Feature Store — Simpan fitur dan datanya di toko terpusat.

  • Mengotomatiskan persiapan data — Buat alur kerja pembelajaran mesin dari alur data Anda.

    • Amazon SageMaker Pipelines — Buat alur kerja yang mengelola persiapan SageMaker data, pelatihan model, dan pekerjaan penerapan model Anda.

    • Pipa inferensi serial — Buat pipeline inferensi serial dari aliran data Anda. Gunakan untuk membuat prediksi pada data baru.

    • Skrip Python — Simpan data dan transformasinya dalam skrip Python untuk alur kerja kustom Anda.