Siapkan data dengan SQL di Studio - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Siapkan data dengan SQL di Studio

Amazon SageMaker Studio menyediakan SQL ekstensi bawaan. Ekstensi ini memungkinkan ilmuwan data untuk melakukan tugas-tugas seperti pengambilan sampel, analisis eksplorasi, dan rekayasa fitur langsung di dalam buku catatan mereka. JupyterLab Ini memanfaatkan AWS Glue koneksi untuk memelihara katalog sumber data terpusat. Katalog menyimpan metadata tentang berbagai sumber data. Melalui SQL lingkungan ini, ilmuwan data dapat menelusuri katalog data, mengeksplorasi data mereka, membuat SQL kueri kompleks, dan memproses hasilnya lebih lanjut dengan Python.

Bagian ini berjalan melalui konfigurasi SQL ekstensi di Studio. Ini menjelaskan kemampuan yang diaktifkan oleh SQL integrasi ini dan memberikan instruksi untuk menjalankan SQL kueri di JupyterLab notebook.

Untuk mengaktifkan analisis SQL data, administrator harus terlebih dahulu mengonfigurasi AWS Glue koneksi untuk memilih sumber data. Koneksi ini memungkinkan ilmuwan data mengakses kumpulan data resmi dengan mulus dari dalam. JupyterLab Dengan pengaturan akses, JupyterLab pengguna dapat:

  • Lihat dan telusuri sumber data yang telah dikonfigurasi sebelumnya.

  • Cari, filter, dan periksa elemen informasi database seperti tabel, skema, dan kolom.

  • Hasilkan parameter koneksi secara otomatis ke sumber data.

  • Buat SQL kueri kompleks menggunakan fitur penyorotan sintaks, pelengkapan otomatis, dan SQL pemformatan editor ekstensi. SQL

  • Jalankan SQL pernyataan dari sel JupyterLab notebook.

  • Mengambil hasil SQL query sebagai pandas DataFrames untuk pemrosesan lebih lanjut, visualisasi, dan tugas pembelajaran mesin lainnya.

Anda dapat mengakses ekstensi dengan memilih ikon SQL ekstensi ( ) di panel navigasi kiri JupyterLab aplikasi Anda di Studio. Melayang di atas ikon menampilkan tip alat Penemuan Data.

penting
  • JupyterLab Gambar di SageMaker Studio berisi SQL ekstensi secara default, dimulai dengan SageMakerDistribusi 1.6. Ekstensi hanya berfungsi dengan Python dan SparkMagic kernel.

  • Antarmuka pengguna ekstensi untuk menjelajahi koneksi dan data hanya tersedia di JupyterLab dalam Studio. Ini kompatibel dengan Amazon Redshift, AmazonAthena, dan Snowflake.

  • Jika Anda seorang administrator yang ingin mengonfigurasi koneksi ke sumber data untuk SQL ekstensi, ikuti langkah-langkah berikut:

  • Jika Anda seorang ilmuwan data yang ingin menelusuri dan menanyakan sumber data Anda menggunakan SQL ekstensi, pastikan administrator Anda telah mengonfigurasi koneksi ke sumber data Anda, lalu ikuti langkah-langkah berikut:

    • Buat ruang pribadi untuk meluncurkan JupyterLab aplikasi Anda di Studio menggunakan gambar SageMaker distribusi versi 1.6 atau lebih tinggi.

    • Jika Anda adalah pengguna gambar SageMaker distribusi versi 1.6, muat SQL ekstensi di JupyterLab buku catatan dengan menjalankan %load_ext amazon_sagemaker_sql_magic di sel notebook.

      Untuk pengguna gambar SageMaker distribusi versi 1.7 dan yang lebih baru, tidak diperlukan tindakan, SQL ekstensi dimuat secara otomatis.

    • Biasakan diri Anda dengan kemampuan SQL ekstensi diSQLfitur ekstensi dan penggunaan.