Siapkan Data ML dengan Amazon SageMaker Data Wrangler - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Siapkan Data ML dengan Amazon SageMaker Data Wrangler

penting

Amazon SageMaker Data Wrangler telah diintegrasikan ke dalam Amazon SageMaker Canvas. Dalam pengalaman Data Wrangler baru di SageMaker Canvas, Anda dapat menggunakan antarmuka bahasa alami untuk menjelajahi dan mengubah data Anda selain antarmuka visual. Untuk informasi selengkapnya tentang Data Wrangler di SageMaker Canvas, lihat. Persiapan data

Amazon SageMaker Data Wrangler (Data Wrangler) adalah fitur Amazon SageMaker Studio Classic yang menyediakan end-to-end solusi untuk mengimpor, menyiapkan, mengubah, menyesuaikan, dan menganalisis data. Anda dapat mengintegrasikan alur persiapan data Wrangler Data ke dalam alur kerja machine learning (ML) Anda untuk menyederhanakan dan merampingkan pra-pemrosesan data dan rekayasa fitur menggunakan sedikit atau tanpa pengkodean. Anda juga dapat menambahkan skrip dan transformasi Python Anda sendiri untuk menyesuaikan alur kerja.

Data Wrangler menyediakan fungsionalitas inti berikut untuk membantu Anda menganalisis dan menyiapkan data untuk aplikasi pembelajaran mesin.

  • Impor - Sambungkan ke dan impor data dari Amazon Simple Storage Service (Amazon S3), Amazon Athena (Athena), Amazon Redshift, Snowflake, dan Databricks.

  • Aliran Data - Buat aliran data untuk menentukan serangkaian langkah persiapan data ML. Anda dapat menggunakan alur untuk menggabungkan kumpulan data dari sumber data yang berbeda, mengidentifikasi jumlah dan jenis transformasi yang ingin Anda terapkan ke kumpulan data, dan menentukan alur kerja persiapan data yang dapat diintegrasikan ke dalam pipeline ML.

  • Transform - Bersihkan dan ubah dataset Anda menggunakan transformasi standar seperti string, vektor, dan alat pemformatan data numerik. Faturisasi data Anda menggunakan transformasi seperti penyematan teks dan tanggal/waktu serta pengkodean kategoris.

  • Hasilkan Wawasan Data — Secara otomatis memverifikasi kualitas data dan mendeteksi kelainan pada data Anda dengan Data Wrangler Data Insights and Quality Report.

  • Analisis — Analisis fitur dalam kumpulan data Anda di setiap titik dalam alur Anda. Data Wrangler mencakup alat visualisasi data bawaan seperti plot pencar dan histogram, serta alat analisis data seperti analisis kebocoran target dan pemodelan cepat untuk memahami korelasi fitur.

  • Ekspor - Ekspor alur kerja persiapan data Anda ke lokasi yang berbeda. Berikut ini adalah contoh lokasi:

    • bucket Amazon Simple Storage Service (Amazon S3)

    • Amazon SageMaker Pipelines — Gunakan Pipelines untuk mengotomatiskan penerapan model. Anda dapat mengekspor data yang telah Anda ubah langsung ke pipeline.

    • Amazon SageMaker Feature Store — Simpan fitur dan datanya di toko terpusat.

    • Skrip Python — Simpan data dan transformasinya dalam skrip Python untuk alur kerja kustom Anda.

Untuk mulai menggunakan Data Wrangler, lihat. Memulai dengan Data Wrangler

penting

Data Wrangler tidak lagi mendukung Jupyter Lab Versi 1 (). JL1 Untuk mengakses fitur dan pembaruan terbaru, perbarui ke Jupyter Lab Versi 3. Untuk informasi selengkapnya tentang peningkatan, lihatLihat dan perbarui JupyterLab versi aplikasi dari konsol.

penting

Informasi dan prosedur dalam panduan ini menggunakan versi terbaru Amazon SageMaker Studio Classic. Untuk informasi tentang memperbarui Studio Classic ke versi terbaru, lihatIkhtisar UI Amazon SageMaker Studio Classic.

Anda harus menggunakan Studio Classic versi 1.3.0 atau yang lebih baru. Gunakan prosedur berikut untuk membuka Amazon SageMaker Studio Classic dan melihat versi mana yang Anda jalankan.

Untuk membuka Studio Classic dan memeriksa versinya, lihat prosedur berikut.

  1. Gunakan langkah-langkah Prasyarat untuk mengakses Data Wrangler melalui Amazon SageMaker Studio Classic.

  2. Di samping pengguna yang ingin Anda gunakan untuk meluncurkan Studio Classic, pilih Luncurkan aplikasi.

  3. Pilih Studio.

  4. Setelah Studio Classic dimuat, pilih File, lalu Baru, dan kemudian Terminal.

    Opsi menu konteks Studio Classic dijelaskan pada langkah 4.
  5. Setelah Anda meluncurkan Studio Classic, pilih File, lalu New, dan kemudian Terminal.

  6. Masukkan cat /opt/conda/share/jupyter/lab/staging/yarn.lock | grep -A 1 "@amzn/sagemaker-ui-data-prep-plugin@" untuk mencetak versi instans Studio Classic Anda. Anda harus memiliki Studio Classic versi 1.3.0 untuk menggunakan Snowflake.

    Jendela terminal dibuka di Studio Classic dengan perintah dari langkah 6 disalin dan ditempelkan.

Anda dapat memperbarui Amazon SageMaker Studio Classic dari dalam AWS Management Console. Untuk informasi selengkapnya tentang memperbarui Studio Classic, lihatIkhtisar UI Amazon SageMaker Studio Classic.