Pilih preferensi cookie Anda

Kami menggunakan cookie penting serta alat serupa yang diperlukan untuk menyediakan situs dan layanan. Kami menggunakan cookie performa untuk mengumpulkan statistik anonim sehingga kami dapat memahami cara pelanggan menggunakan situs dan melakukan perbaikan. Cookie penting tidak dapat dinonaktifkan, tetapi Anda dapat mengklik “Kustom” atau “Tolak” untuk menolak cookie performa.

Jika Anda setuju, AWS dan pihak ketiga yang disetujui juga akan menggunakan cookie untuk menyediakan fitur situs yang berguna, mengingat preferensi Anda, dan menampilkan konten yang relevan, termasuk iklan yang relevan. Untuk menerima atau menolak semua cookie yang tidak penting, klik “Terima” atau “Tolak”. Untuk membuat pilihan yang lebih detail, klik “Kustomisasi”.

Rekomendasi untuk memilih alat persiapan data yang tepat di SageMaker AI

Mode fokus
Rekomendasi untuk memilih alat persiapan data yang tepat di SageMaker AI - Amazon SageMaker AI

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Persiapan data dalam pembelajaran mesin mengacu pada proses pengumpulan, preprocessing, dan pengorganisasian data mentah agar sesuai untuk analisis dan pemodelan. Langkah ini memastikan bahwa data dalam format dari mana algoritma pembelajaran mesin dapat dipelajari secara efektif. Tugas persiapan data dapat mencakup penanganan nilai yang hilang, menghapus outlier, fitur penskalaan, pengkodean variabel kategoris, menilai potensi bias dan mengambil langkah-langkah untuk menguranginya, membagi data menjadi set pelatihan dan pengujian, pelabelan, dan transformasi lain yang diperlukan untuk mengoptimalkan kualitas dan kegunaan data untuk tugas pembelajaran mesin berikutnya.

Pilih fitur

Ada 3 kasus penggunaan utama untuk persiapan data dengan Amazon SageMaker AI. Pilih kasus penggunaan yang sesuai dengan kebutuhan Anda, lalu lihat fitur yang direkomendasikan sesuai.

Kasus penggunaan

Berikut ini adalah kasus penggunaan utama saat melakukan persiapan data untuk Machine Learning.

  • Kasus penggunaan 1: Bagi mereka yang lebih menyukai antarmuka visual, SageMaker AI menyediakan cara untuk mengeksplorasi, mempersiapkan, dan merekayasa fitur untuk pelatihan model melalui point-and-click lingkungan.

  • Kasus penggunaan 2: Untuk pengguna yang nyaman dengan pengkodean yang menginginkan lebih banyak fleksibilitas dan kontrol atas persiapan data, SageMaker AI mengintegrasikan alat ke dalam lingkungan pengkodean untuk eksplorasi, transformasi, dan rekayasa fitur.

  • Kasus penggunaan 3: Untuk pengguna yang berfokus pada persiapan data yang dapat diskalakan, SageMaker AI menawarkan kemampuan tanpa server yang memanfaatkan ekosistem Hadoop/Spark untuk pemrosesan data besar yang terdistribusi.

Tabel berikut menguraikan pertimbangan utama dan pengorbanan untuk fitur SageMaker AI yang terkait dengan setiap kasus penggunaan persiapan data untuk pembelajaran mesin. Untuk memulai, identifikasi kasus penggunaan yang sesuai dengan kebutuhan Anda dan arahkan ke fitur SageMaker AI yang direkomendasikan.

Deskriptor Kasus penggunaan 1 Kasus penggunaan 2 Kasus penggunaan 3
SageMaker Fitur AI Data Wrangler dalam Amazon Canvas SageMaker Persiapan data dengan SQL di Studio Siapkan data menggunakan EMR Tanpa Serveraplikasi di Studio
Deskripsi SageMaker Canvas adalah lingkungan visual low-code untuk membangun, melatih, dan menerapkan model pembelajaran mesin di SageMaker AI. Alat Data Wrangler yang terintegrasi memungkinkan pengguna untuk menggabungkan, mengubah, dan membersihkan kumpulan data melalui interaksi. point-and-click Ekstensi SQL di Studio memungkinkan pengguna untuk terhubung ke Amazon Redshift, Snowflake, Athena, dan Amazon S3 untuk membuat kueri SQL ad-hoc, dan melihat hasil pratinjau di notebook. JupyterLab Output dari kueri ini dapat dimanipulasi menggunakan Python and Pandas untuk pemrosesan tambahan, visualisasi, dan transformasi ke dalam format yang dapat digunakan untuk pengembangan model pembelajaran mesin. Integrasi antara EMR Serverless dan SageMaker Amazon Studio menyediakan lingkungan tanpa server yang dapat diskalakan untuk persiapan data skala besar untuk pembelajaran mesin menggunakan kerangka kerja sumber terbuka seperti Apache Spark dan Apache Hive. Pengguna dapat langsung mengakses aplikasi dan data EMR Tanpa Server dari notebook Studio mereka untuk melakukan tugas persiapan data mereka dalam skala besar.
Dioptimalkan untuk Menggunakan antarmuka visual di mana Anda dapat:

Dioptimalkan untuk tugas data tabular seperti menangani nilai yang hilang, pengkodean variabel kategoris, dan menerapkan transformasi data.

Untuk pengguna yang datanya berada di Amazon Redshift, Snowflake, Athena, atau Amazon S3 dan ingin menggabungkan SQL eksplorasi dan Python untuk analisis dan persiapan data tanpa perlu belajar Spark. Untuk pengguna yang lebih menyukai pengalaman tanpa server dengan penyediaan dan penghentian sumber daya otomatis untuk penskalaan beban kerja interaktif jangka pendek atau intermiten yang berputar di sekitar Apache Spark, sambil memanfaatkan kemampuan pembelajaran mesin AI. SageMaker
Pertimbangan
  • Ini mungkin bukan pilihan optimal jika tim Anda sudah memiliki keahlian dalam Python, Spark, atau bahasa lainnya.

  • Ini mungkin tidak paling cocok jika Anda memerlukan fleksibilitas penuh untuk menyesuaikan transformasi untuk menambahkan logika bisnis yang kompleks atau memerlukan kontrol penuh atas lingkungan pemrosesan data Anda.

  • Fitur ini dirancang untuk data terstruktur yang berada di Amazon Redshift, Snowflake, Athena, atau Amazon S3 saja.

  • Jika ukuran hasil kueri melebihi memori instans SageMaker AI Anda, notebook berikut dapat memandu Anda memulai dengan Athena untuk menyiapkan data Anda untuk dikonsumsi oleh algoritme AI. SageMaker

  • Kurva pembelajaran bagi pengguna yang tidak terbiasa dengan aplikasi EMR Tanpa Server dan alat berbasis SPARK dapat menjadi tantangan.

  • Fitur ini lebih cocok untuk tugas persiapan data interaktif dan mungkin tidak seefisien cluster EMR Amazon untuk persyaratan pemrosesan data skala besar, jangka panjang, atau kompleks yang melibatkan sejumlah besar data, integrasi ekstensif dengan layanan lain, aplikasi khusus, atau beragam kerangka kerja pemrosesan data terdistribusi di luar Apache Spark.

  • Sementara komputasi tanpa server dapat hemat biaya untuk tugas-tugas yang berumur pendek, penting untuk memantau dan mengelola biaya dengan hati-hati, terutama untuk beban kerja yang berjalan lama atau intensif sumber daya.

Lingkungan yang direkomendasikan Memulai dengan menggunakan SageMaker Canvas Luncurkan Studio Luncurkan Studio

Opsi tambahan

SageMaker AI menawarkan opsi tambahan berikut untuk menyiapkan data Anda untuk digunakan dalam model pembelajaran mesin.

  • Persiapan data menggunakan Amazon EMR: Untuk tugas pemrosesan data skala besar yang berjalan lama, intensif secara komputasi, pertimbangkan untuk menggunakan kluster EMR Amazon dari Studio. SageMaker Cluster EMR Amazon dirancang untuk menangani paralelisasi besar-besaran dan dapat menskalakan hingga ratusan atau ribuan node, membuatnya cocok untuk beban kerja data besar yang memerlukan kerangka kerja seperti Apache Spark, Hadoop, Hive, dan Presto. Integrasi Amazon EMR dengan SageMaker Studio memungkinkan Anda memanfaatkan skalabilitas dan kinerja Amazon EMR, sekaligus menjaga eksperimen, pelatihan model, dan penerapan lengkap, terpusat dan dikelola dalam lingkungan Studio. SageMaker

  • Siapkan data menggunakan sesi interaktif lem: Anda dapat menggunakan mesin tanpa server berbasis Apache Spark dari sesi AWS Glue interaktif untuk mengumpulkan, mengubah, dan menyiapkan data dari berbagai sumber di Studio. SageMaker

  • Identifikasi bias dalam data pelatihan menggunakan pekerjaan pemrosesan Amazon SageMaker SageMaker Clarify: Klarifikasi menganalisis data Anda dan mendeteksi potensi bias di berbagai aspek. Misalnya, Anda dapat menggunakan Clarify API di Studio untuk mendeteksi apakah data pelatihan Anda berisi representasi yang tidak seimbang atau bias pelabelan antar grup seperti jenis kelamin, ras, atau usia. Clarify dapat membantu Anda mengidentifikasi bias ini sebelum melatih model untuk menghindari penyebaran bias ke dalam prediksi model.

  • Buat, simpan, dan bagikan fitur: Amazon SageMaker Feature Store mengoptimalkan penemuan dan penggunaan kembali fitur yang dikuratori untuk pembelajaran mesin. Ini menyediakan repositori terpusat untuk menyimpan data fitur yang dapat dicari dan diambil untuk pelatihan model. Menyimpan fitur dalam format standar memungkinkan penggunaan kembali di seluruh proyek ML. Toko Fitur mengelola siklus hidup penuh fitur termasuk pelacakan garis keturunan, statistik, dan jejak audit untuk rekayasa fitur pembelajaran mesin yang dapat diskalakan dan diatur.

  • Label data dengan human-in-the-loop: Anda dapat menggunakan SageMaker Ground Truth untuk mengelola alur kerja pelabelan data dari kumpulan data pelatihan Anda.

  • Gunakan API SageMaker Pemrosesan: Setelah melakukan analisis data eksplorasi dan membuat langkah transformasi data, Anda dapat memproduksi kode transformasi menggunakan pekerjaan SageMaker AI Processing dan mengotomatiskan alur kerja persiapan menggunakan Model Building Pipelines. SageMaker

PrivasiSyarat situsPreferensi cookie
© 2025, Amazon Web Services, Inc. atau afiliasinya. Semua hak dilindungi undang-undang.