Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Siapkan Data ML dengan Amazon SageMaker Data Wrangler
penting
Amazon SageMaker Data Wrangler telah diintegrasikan ke dalam Amazon SageMaker Canvas. Dalam pengalaman Data Wrangler baru di SageMaker Canvas, Anda dapat menggunakan antarmuka bahasa alami untuk menjelajahi dan mengubah data Anda selain antarmuka visual. Untuk informasi selengkapnya tentang Data Wrangler di SageMaker Canvas, lihat. Persiapan data
Amazon SageMaker Data Wrangler (Data Wrangler) adalah fitur Amazon SageMaker Studio Classic yang menyediakan end-to-end solusi untuk mengimpor, menyiapkan, mengubah, menyesuaikan, dan menganalisis data. Anda dapat mengintegrasikan alur persiapan data Wrangler Data ke dalam alur kerja machine learning (ML) Anda untuk menyederhanakan dan merampingkan pra-pemrosesan data dan rekayasa fitur menggunakan sedikit atau tanpa pengkodean. Anda juga dapat menambahkan skrip dan transformasi Python Anda sendiri untuk menyesuaikan alur kerja.
Data Wrangler menyediakan fungsionalitas inti berikut untuk membantu Anda menganalisis dan menyiapkan data untuk aplikasi pembelajaran mesin.
-
Impor - Sambungkan ke dan impor data dari Amazon Simple Storage Service (Amazon S3), Amazon Athena (Athena), Amazon Redshift, Snowflake, dan Databricks.
-
Aliran Data - Buat aliran data untuk menentukan serangkaian langkah persiapan data ML. Anda dapat menggunakan alur untuk menggabungkan kumpulan data dari sumber data yang berbeda, mengidentifikasi jumlah dan jenis transformasi yang ingin Anda terapkan ke kumpulan data, dan menentukan alur kerja persiapan data yang dapat diintegrasikan ke dalam pipeline ML.
-
Transform - Bersihkan dan ubah dataset Anda menggunakan transformasi standar seperti string, vektor, dan alat pemformatan data numerik. Faturisasi data Anda menggunakan transformasi seperti penyematan teks dan tanggal/waktu serta pengkodean kategoris.
-
Hasilkan Wawasan Data — Secara otomatis memverifikasi kualitas data dan mendeteksi kelainan pada data Anda dengan Data Wrangler Data Insights and Quality Report.
-
Analisis — Analisis fitur dalam kumpulan data Anda di setiap titik dalam alur Anda. Data Wrangler mencakup alat visualisasi data bawaan seperti plot pencar dan histogram, serta alat analisis data seperti analisis kebocoran target dan pemodelan cepat untuk memahami korelasi fitur.
-
Ekspor - Ekspor alur kerja persiapan data Anda ke lokasi yang berbeda. Berikut ini adalah contoh lokasi:
-
bucket Amazon Simple Storage Service (Amazon S3)
-
Amazon SageMaker Pipelines — Gunakan Pipelines untuk mengotomatiskan penerapan model. Anda dapat mengekspor data yang telah Anda ubah langsung ke pipeline.
-
Amazon SageMaker Feature Store — Simpan fitur dan datanya di toko terpusat.
-
Skrip Python — Simpan data dan transformasinya dalam skrip Python untuk alur kerja kustom Anda.
-
Untuk mulai menggunakan Data Wrangler, lihat. Memulai dengan Data Wrangler
penting
Data Wrangler tidak lagi mendukung Jupyter Lab Versi 1 (). JL1 Untuk mengakses fitur dan pembaruan terbaru, perbarui ke Jupyter Lab Versi 3. Untuk informasi selengkapnya tentang peningkatan, lihatLihat dan perbarui JupyterLab versi aplikasi dari konsol.
penting
Informasi dan prosedur dalam panduan ini menggunakan versi terbaru Amazon SageMaker Studio Classic. Untuk informasi tentang memperbarui Studio Classic ke versi terbaru, lihatIkhtisar UI Amazon SageMaker Studio Classic.
Anda harus menggunakan Studio Classic versi 1.3.0 atau yang lebih baru. Gunakan prosedur berikut untuk membuka Amazon SageMaker Studio Classic dan melihat versi mana yang Anda jalankan.
Untuk membuka Studio Classic dan memeriksa versinya, lihat prosedur berikut.
-
Gunakan langkah-langkah Prasyarat untuk mengakses Data Wrangler melalui Amazon SageMaker Studio Classic.
-
Di samping pengguna yang ingin Anda gunakan untuk meluncurkan Studio Classic, pilih Luncurkan aplikasi.
-
Pilih Studio.
-
Setelah Studio Classic dimuat, pilih File, lalu Baru, dan kemudian Terminal.
-
Setelah Anda meluncurkan Studio Classic, pilih File, lalu New, dan kemudian Terminal.
-
Masukkan
cat /opt/conda/share/jupyter/lab/staging/yarn.lock | grep -A 1 "@amzn/sagemaker-ui-data-prep-plugin@"
untuk mencetak versi instans Studio Classic Anda. Anda harus memiliki Studio Classic versi 1.3.0 untuk menggunakan Snowflake.
Anda dapat memperbarui Amazon SageMaker Studio Classic dari dalam AWS Management Console. Untuk informasi selengkapnya tentang memperbarui Studio Classic, lihatIkhtisar UI Amazon SageMaker Studio Classic.
Topik
- Memulai dengan Data Wrangler
- Impor
- Membuat dan Menggunakan Data Wrangler Flow
- Dapatkan Wawasan Tentang Kualitas Data dan Data
- Secara Otomatis Melatih Model pada Alur Data Anda
- Transformasi Data
- Analisis dan Visualisasikan
- Menggunakan Kembali Alur Data untuk Kumpulan Data yang Berbeda
- Ekspor
- Menggunakan Widget Persiapan Data Interaktif di Notebook Amazon SageMaker Studio Classic untuk Mendapatkan Wawasan Data
- Keamanan dan Izin
- Catatan Rilis
- Pemecahan Masalah
- Tingkatkan Batas EC2 Instans Amazon
- Perbarui Data Wrangler
- Matikan Data Wrangler