Connect ke kluster EMR Amazon dari SageMaker Studio atau Studio Classic - Amazon SageMaker AI

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Connect ke kluster EMR Amazon dari SageMaker Studio atau Studio Classic

Ilmuwan data dan insinyur data dapat menemukan dan kemudian terhubung ke cluster EMR Amazon langsung dari antarmuka pengguna Studio. Sebelum memulai, pastikan bahwa Anda telah mengonfigurasi izin yang diperlukan seperti yang dijelaskan di Langkah 4: Siapkan izin untuk mengaktifkan daftar dan meluncurkan kluster EMR Amazon dari Studio bagian. Izin ini memberi Studio kemampuan untuk membuat, memulai, melihat, mengakses, dan menghentikan cluster.

Anda dapat menghubungkan kluster EMR Amazon ke JupyterLab notebook baru langsung dari UI Studio, atau memilih untuk memulai koneksi di buku catatan aplikasi yang sedang berjalan. JupyterLab

penting

Anda hanya dapat menemukan dan terhubung ke cluster EMR Amazon untuk JupyterLab dan aplikasi Studio Classic yang diluncurkan dari ruang pribadi. Pastikan bahwa kluster EMR Amazon berada di AWS wilayah yang sama dengan lingkungan Studio Anda. JupyterLab Ruang Anda harus menggunakan versi gambar SageMaker Distribusi 1.10 atau lebih tinggi.

Connect ke kluster EMR Amazon menggunakan UI Studio

Untuk menyambung ke klaster menggunakan UI Studio atau Studio Classic, Anda dapat memulai koneksi dari daftar kluster yang diaksesDaftar kluster EMR Amazon dari Studio atau Studio Classic, atau dari buku catatan di SageMaker Studio atau Studio Classic.

Untuk menghubungkan kluster EMR Amazon ke JupyterLab notebook baru dari UI Studio:
  1. Di panel sisi kiri Studio UI, pilih simpul Data di menu navigasi kiri. Arahkan ke aplikasi dan cluster Amazon EMR. Ini membuka halaman yang mencantumkan kluster EMR Amazon yang dapat Anda akses dari Studio di tab kluster EMR Amazon.

    catatan

    Jika Anda atau administrator telah mengonfigurasi izin untuk mengizinkan akses lintas akun ke kluster EMR Amazon, Anda dapat melihat daftar cluster gabungan di semua akun yang telah Anda berikan akses ke Studio.

  2. Pilih klaster EMR Amazon yang ingin Anda sambungkan ke notebook baru, lalu pilih Lampirkan ke notebook. Ini membuka jendela modal yang menampilkan daftar JupyterLab spasi Anda.

    • Pilih ruang dari mana Anda ingin meluncurkan JupyterLab aplikasi, dan kemudian pilih Buka notebook. Ini meluncurkan JupyterLab aplikasi dari ruang yang Anda pilih dan membuka notebook baru.

      catatan

      Pengguna Studio Classic perlu memilih gambar dan kernel. Untuk daftar gambar yang didukung, lihat Gambar dan kernel yang didukung untuk terhubung ke kluster EMR Amazon dari Studio atau Studio Classic atau lihatBawa gambar Anda sendiri.

    • Atau, Anda dapat membuat ruang pribadi baru dengan memilih tombol Buat ruang baru di bagian atas jendela modal. Masukkan nama untuk ruang Anda dan kemudian pilih Buat ruang dan buka buku catatan. Ini menciptakan ruang pribadi dengan jenis instans default dan gambar SageMaker distribusi terbaru yang tersedia, meluncurkan JupyterLab aplikasi, dan membuka buku catatan baru.

  3. Jika klaster yang Anda pilih tidak menggunakan otentikasi peran Kerberos, LDAP, atau runtime, Studio akan meminta Anda untuk memilih jenis kredensialnya. Pilih dari otentikasi dasar Http atau No credentials, lalu masukkan kredensialnya, jika berlaku.

    Jika klaster yang Anda pilih mendukung peran runtime, pilih nama peran IAM yang dapat diasumsikan oleh klaster EMR Amazon Anda untuk menjalankan pekerjaan.

    penting

    Agar berhasil menghubungkan JupyterLab notebook ke klaster EMR Amazon yang mendukung peran runtime, Anda harus terlebih dahulu mengaitkan daftar peran runtime dengan domain atau profil pengguna, seperti yang diuraikan dalam. Konfigurasikan peran runtime IAM untuk akses kluster Amazon EMR di Studio Gagal menyelesaikan langkah ini akan mencegah Anda membuat koneksi.

    Setelah dipilih, perintah koneksi mengisi sel pertama notebook Anda dan memulai koneksi dengan cluster EMR Amazon.

    Setelah koneksi berhasil, sebuah pesan mengkonfirmasi koneksi dan dimulainya aplikasi Spark.

Atau, Anda dapat terhubung ke cluster dari notebook JupyterLab atau Studio Classic.
  1. Pilih tombol Cluster di bagian atas notebook Anda. Ini membuka jendela modal yang mencantumkan kluster EMR Amazon dalam Running keadaan yang dapat Anda akses. Anda dapat melihat kluster EMR Running Amazon di tab kluster EMR Amazon.

    catatan

    Untuk pengguna Studio Classic, Cluster hanya terlihat ketika Anda menggunakan kernel dari Gambar dan kernel yang didukung untuk terhubung ke kluster EMR Amazon dari Studio atau Studio Classic atau dariBawa gambar Anda sendiri. Jika Anda tidak dapat melihat Cluster di bagian atas buku catatan Anda, pastikan administrator Anda telah mengonfigurasi kemampuan untuk dapat ditemukan klaster Anda dan beralih ke kernel yang didukung.

  2. Pilih cluster yang ingin Anda sambungkan, lalu pilih Connect.

  3. Jika Anda mengonfigurasi kluster EMR Amazon untuk mendukung peran IAM runtime, Anda dapat memilih peran Anda dari menu tarik-turun peran eksekusi EMR Amazon.

    penting

    Agar berhasil menghubungkan JupyterLab notebook ke klaster EMR Amazon yang mendukung peran runtime, Anda harus terlebih dahulu mengaitkan daftar peran runtime dengan domain atau profil pengguna, seperti yang diuraikan dalam. Konfigurasikan peran runtime IAM untuk akses kluster Amazon EMR di Studio Gagal menyelesaikan langkah ini akan mencegah Anda membuat koneksi.

    Jika tidak, jika cluster yang Anda pilih tidak menggunakan Kerberos, LDAP, atau otentikasi peran runtime, Studio atau Studio Classic meminta Anda untuk memilih jenis kredensialnya. Anda dapat memilih otentikasi dasar HTTP atau No credential.

  4. Studio menambahkan dan kemudian menjalankan blok kode ke sel aktif untuk membuat koneksi. Sel ini berisi perintah ajaib koneksi untuk menghubungkan notebook Anda ke aplikasi Anda sesuai dengan jenis otentikasi Anda.

    Setelah koneksi berhasil, sebuah pesan mengkonfirmasi koneksi dan dimulainya aplikasi Spark.

Sambungkan ke kluster EMR Amazon menggunakan perintah koneksi

Untuk membuat koneksi ke kluster EMR Amazon, Anda dapat menjalankan perintah koneksi dalam sel notebook.

Saat membuat koneksi, Anda dapat mengautentikasi menggunakan Kerberos, Protokol Akses Direktori Ringan (LDAP), atau otentikasi peran IAM runtime. Metode otentikasi yang Anda pilih bergantung pada konfigurasi cluster Anda.

Anda dapat merujuk ke contoh ini Akses Apache Livy menggunakan Network Load Balancer pada kluster Amazon EMR berkemampuan KerberOS untuk menyiapkan kluster EMR Amazon yang menggunakan otentikasi Kerberos. Atau, Anda dapat menjelajahi CloudFormation contoh templat menggunakan otentikasi Kerberos atau LDAP di aws-samples/repositori. sagemaker-studio-emr GitHub

Jika administrator telah mengaktifkan akses lintas akun, Anda dapat menyambung ke klaster EMR Amazon dari notebook Studio Classic, terlepas dari apakah aplikasi dan klaster Studio Classic berada di akun AWS yang sama atau akun yang berbeda.

Untuk setiap jenis autentikasi berikut, gunakan perintah yang ditentukan untuk menyambung ke klaster Anda dari notebook Studio atau Studio Classic Anda.

  • Kerberos

    Tambahkan --assumable-role-arn argumen jika Anda memerlukan akses EMR Amazon lintas akun. Tambahkan --verify-certificate argumen jika Anda terhubung ke cluster Anda dengan HTTPS.

    %load_ext sagemaker_studio_analytics_extension.magics %sm_analytics emr connect --cluster-id cluster_id \ --auth-type Kerberos --language python [--assumable-role-arn EMR_access_role_ARN ] [--verify-certificate /home/user/certificateKey.pem]
  • LDAP

    Tambahkan --assumable-role-arn argumen jika Anda memerlukan akses EMR Amazon lintas akun. Tambahkan --verify-certificate argumen jika Anda terhubung ke cluster Anda dengan HTTPS.

    %load_ext sagemaker_studio_analytics_extension.magics %sm_analytics emr connect --cluster-id cluster_id \ --auth-type Basic_Access --language python [--assumable-role-arn EMR_access_role_ARN ] [--verify-certificate /home/user/certificateKey.pem]
  • NoAuth

    Tambahkan --assumable-role-arn argumen jika Anda memerlukan akses EMR Amazon lintas akun. Tambahkan --verify-certificate argumen jika Anda terhubung ke cluster Anda dengan HTTPS.

    %load_ext sagemaker_studio_analytics_extension.magics %sm_analytics emr connect --cluster-id cluster_id \ --auth-type None --language python [--assumable-role-arn EMR_access_role_ARN ] [--verify-certificate /home/user/certificateKey.pem]
  • Peran IAM runtime

    Tambahkan --assumable-role-arn argumen jika Anda memerlukan akses EMR Amazon lintas akun. Tambahkan --verify-certificate argumen jika Anda terhubung ke cluster Anda dengan HTTPS.

    Untuk informasi selengkapnya tentang menghubungkan ke klaster EMR Amazon menggunakan peran IAM runtime, lihat. Konfigurasikan peran runtime IAM untuk akses kluster Amazon EMR di Studio

    %load_ext sagemaker_studio_analytics_extension.magics %sm_analytics emr connect --cluster-id cluster_id \ --auth-type Basic_Access \ --emr-execution-role-arn arn:aws:iam::studio_account_id:role/emr-execution-role-name [--assumable-role-arn EMR_access_role_ARN] [--verify-certificate /home/user/certificateKey.pem]

Connect ke kluster EMR Amazon melalui HTTPS

Jika Anda telah mengonfigurasi klaster EMR Amazon Anda dengan enkripsi transit diaktifkan dan server Apache Livy untuk HTTPS dan ingin Studio atau Studio Classic berkomunikasi dengan Amazon EMR menggunakan HTTPS, Anda perlu mengonfigurasi Studio atau Studio Classic untuk mengakses kunci sertifikat Anda.

Untuk sertifikat yang ditandatangani sendiri atau ditandatangani oleh Otoritas Sertifikat lokal (CA), Anda dapat melakukannya dalam dua langkah:

  1. Unduh file PEM sertifikat Anda ke sistem file lokal Anda menggunakan salah satu opsi berikut:

  2. Aktifkan validasi sertifikat dengan memberikan jalur ke sertifikat Anda dalam --verify-certificate argumen perintah koneksi Anda.

    %sm_analytics emr connect --cluster-id cluster_id \ --verify-certificate /home/user/certificateKey.pem ...

Untuk sertifikat yang diterbitkan CA publik, tetapkan validasi sertifikat dengan menetapkan --verify-certificate parameter sebagaitrue.

Atau, Anda dapat menonaktifkan validasi sertifikat dengan menetapkan --verify-certificate parameter sebagaifalse.

Anda dapat menemukan daftar perintah koneksi yang tersedia ke cluster EMR Amazon di. Sambungkan ke kluster EMR Amazon menggunakan perintah koneksi