Persiapan data menggunakan Amazon EMR - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Persiapan data menggunakan Amazon EMR

penting

Amazon SageMaker Studio dan Amazon SageMaker Studio Classic adalah dua lingkungan pembelajaran mesin yang dapat Anda gunakan untuk berinteraksi SageMaker.

Jika domain Anda dibuat setelah 30 November 2023, Studio adalah pengalaman default Anda.

Jika domain Anda dibuat sebelum 30 November 2023, Amazon SageMaker Studio Classic adalah pengalaman default Anda. Untuk menggunakan Studio jika Amazon SageMaker Studio Classic adalah pengalaman default Anda, lihatMigrasi dari Amazon SageMaker Studio Classic.

Saat Anda bermigrasi dari Amazon SageMaker Studio Classic ke Amazon SageMaker Studio, tidak ada kerugian dalam ketersediaan fitur. Studio Classic juga ada sebagai aplikasi dalam Amazon SageMaker Studio untuk membantu Anda menjalankan alur kerja machine learning lama.

Amazon SageMaker Studio dan Studio Classic hadir dengan integrasi built-in dengan Amazon EMR. Di dalam JupyterLab dan notebook Studio Classic, ilmuwan data dan insinyur data dapat menemukan dan terhubung ke EMR cluster Amazon yang ada, kemudian secara interaktif mengeksplorasi, memvisualisasikan, dan menyiapkan data skala besar untuk pembelajaran mesin menggunakan Apache Spark, Apache Hive, atau Presto. Dengan satu klik, mereka dapat mengakses UI Spark untuk memantau status dan metrik pekerjaan Spark mereka tanpa meninggalkan notebook mereka.

Administrator dapat membuat AWS CloudFormation template yang menentukan EMR kluster Amazon. Mereka kemudian dapat membuat template cluster tersebut tersedia di AWS Service Cataloguntuk pengguna Studio dan Studio Classic untuk diluncurkan. Ilmuwan data kemudian dapat memilih template yang telah ditentukan untuk menyediakan sendiri EMR cluster Amazon langsung dari lingkungan Studio mereka. Administrator selanjutnya dapat membuat parameter template untuk memungkinkan pengguna memilih aspek cluster dalam nilai yang telah ditentukan. Misalnya, pengguna mungkin ingin menentukan jumlah node inti atau memilih jenis instance node dari menu dropdown.

Dengan menggunakan AWS CloudFormation, administrator dapat mengontrol pengaturan organisasi, keamanan, dan jaringan EMR kluster Amazon. Ilmuwan data dan insinyur data kemudian dapat menyesuaikan template tersebut untuk beban kerja mereka guna membuat EMR klaster Amazon sesuai permintaan langsung dari Studio dan Studio Classic tanpa menyiapkan konfigurasi yang rumit. Pengguna dapat menghentikan EMR kluster Amazon setelah digunakan.