Persiapan data menggunakan sesi AWS Glue interaktif - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Persiapan data menggunakan sesi AWS Glue interaktif

AWS Glue sesi interaktif adalah layanan tanpa server yang dapat Anda daftarkan untuk mengumpulkan, mengubah, membersihkan, dan menyiapkan data untuk penyimpanan di danau data dan jalur data Anda. AWS Glue sesi interaktif menyediakan lingkungan runtime Apache Spark tanpa server sesuai permintaan yang dapat Anda inisialisasi dalam hitungan detik pada Unit Pemrosesan Data (DPU) khusus tanpa harus menyediakan dan mengelola infrastruktur cluster komputasi yang kompleks. Setelah inisialisasi, Anda dapat menelusuri katalog AWS Glue data, menjalankan kueri besar, mengakses data yang diatur oleh AWS Lake Formation, dan menganalisis dan menyiapkan data secara interaktif menggunakan Spark, langsung di notebook Studio atau Studio Classic Anda. Anda kemudian dapat menggunakan data yang disiapkan untuk melatih, menyetel, dan menerapkan model menggunakan alat ML yang dibuat khusus dalam SageMaker Studio atau Studio Classic. Anda harus mempertimbangkan Sesi AWS Glue Interaktif untuk beban kerja persiapan data Anda ketika Anda menginginkan layanan Spark tanpa server dengan kontrol konfigurasi dan fleksibilitas yang moderat.

Anda dapat memulai sesi AWS Glue interaktif dengan memulai JupyterLab buku catatan di Studio atau Studio Classic. Saat memulai notebook Anda, pilih built-in Glue PySpark and Ray atau Glue Spark kernel. Ini secara otomatis memulai sesi Spark interaktif tanpa server. Anda tidak perlu menyediakan atau mengelola klaster atau infrastruktur komputasi apa pun. Setelah inisialisasi, Anda dapat menjelajahi dan berinteraksi dengan data Anda dari dalam notebook Studio atau Studio Classic Anda.

Sebelum memulai sesi AWS Glue interaktif Anda di Studio atau Studio Classic, Anda perlu menetapkan peran dan kebijakan yang sesuai. Selain itu, Anda mungkin perlu menyediakan akses ke sumber daya tambahan, seperti bucket Amazon S3 penyimpanan. Untuk informasi selengkapnya tentang IAM kebijakan yang diperlukan, lihatIzin untuk sesi AWS Glue interaktif di Studio atau Studio Classic.

Studio dan Studio Classic menyediakan konfigurasi default untuk sesi AWS Glue interaktif Anda, namun, Anda dapat menggunakan AWS Glue katalog lengkap perintah ajaib Jupyter untuk lebih menyesuaikan lingkungan Anda. Untuk informasi tentang sihir Jupyter default dan tambahan yang dapat Anda gunakan dalam sesi AWS Glue interaktif Anda, lihat. Konfigurasikan sesi AWS Glue interaktif Anda di Studio atau Studio Classic

  • Untuk pengguna Studio Classic yang memulai sesi AWS Glue interaktif, mereka dapat memilih dari gambar dan kernel berikut:

    • Gambar:SparkAnalytics 1.0, SparkAnalytics 2.0

    • Kernel: Glue Python [PySpark and Ray] dan Glue Spark

  • Untuk pengguna Studio, gunakan gambar SageMaker Distribusi default dan pilih Glue Spark kernel Glue Python [PySpark and Ray] atau.