Berikan Izin Pengguna untuk Menggunakan Data Besar di seluruh Siklus Hidup ML - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Berikan Izin Pengguna untuk Menggunakan Data Besar di seluruh Siklus Hidup ML

Pengguna Amazon SageMaker Canvas yang bekerja dengan kumpulan data yang lebih besar dari 10 GB dalam CSV format atau 2,5 GB dalam format Parket memerlukan izin khusus untuk pemrosesan data besar. Izin ini sangat penting untuk mengelola data skala besar di seluruh siklus hidup pembelajaran mesin. Ketika kumpulan data melebihi ambang batas yang dinyatakan, atau kapasitas memori lokal aplikasi, Canvas SageMaker menggunakan Amazon Tanpa EMR Server untuk pemrosesan yang efisien. Ini berlaku untuk:

  • Impor Data: Mengimpor kumpulan data besar dengan pengambilan sampel acak atau bertingkat.

  • Persiapan Data: Mengekspor data yang diproses dari Data Wrangler di Canvas ke Amazon S3, ke dataset Canvas baru, atau ke model Canvas.

  • Model Building: Model pelatihan pada dataset besar.

  • Inferensi: Membuat prediksi pada kumpulan data besar.

Secara default, SageMaker Canvas menggunakan EMR Tanpa Server untuk menjalankan pekerjaan jarak jauh ini dengan pengaturan aplikasi berikut:

  • Kapasitas Pra-Inisialisasi: Tidak dikonfigurasi

  • Batas aplikasi: Kapasitas maksimum 400vCPUs, maks bersamaan 16 vCPUs per akun, memori 3000 GB, disk 20000 GB

  • Konfigurasi metastore: AWS Glue Data Catalog

  • Log aplikasi: AWS penyimpanan terkelola (diaktifkan), menggunakan AWS kunci enkripsi yang dimiliki

  • Perilaku aplikasi: Mulai otomatis pada pengiriman pekerjaan dan berhenti otomatis setelah aplikasi menganggur selama 15 menit

Untuk mengaktifkan kemampuan pemrosesan data yang besar ini, pengguna memerlukan izin yang diperlukan, yang dapat diberikan melalui pengaturan SageMaker domain Amazon. Metode pemberian izin ini bergantung pada bagaimana SageMaker domain Amazon Anda disiapkan pada awalnya. Kami akan membahas tiga skenario utama:

  • Pengaturan domain cepat

  • Pengaturan domain khusus (dengan akses internet publik/tanpaVPC)

  • Pengaturan domain khusus (dengan VPC dan tanpa akses internet publik)

Setiap skenario memerlukan langkah-langkah spesifik untuk memastikan bahwa pengguna memiliki izin yang diperlukan untuk memanfaatkan EMR Tanpa Server untuk pemrosesan data besar di seluruh siklus hidup pembelajaran mesin di Canvas. SageMaker

Skenario 1: Pengaturan domain cepat

Jika Anda menggunakan opsi Pengaturan cepat saat membuat SageMaker domain, ikuti langkah-langkah berikut:

  1. Arahkan ke pengaturan SageMaker domain Amazon:

    1. Buka SageMaker konsol Amazon di https://console.aws.amazon.com/sagemaker/.

    2. Di panel navigasi kiri, pilih Domain.

    3. Pilih domain Anda.

    4. Pilih tab Konfigurasi Aplikasi.

    5. Gulir ke bagian Canvas dan pilih Edit.

  2. Aktifkan pemrosesan data besar:

    1. Di bagian konfigurasi pemrosesan data besar, aktifkan Aktifkan EMR Tanpa Server untuk pemrosesan data besar.

    2. Buat atau pilih peran EMR Tanpa Server:

      1. Pilih Buat dan gunakan peran eksekusi baru untuk membuat IAM peran baru yang memiliki hubungan kepercayaan dengan EMR Tanpa Server dan AWS kebijakan terkelola: AmazonSageMakerCanvas EMRServerlessExecutionRolePolicy kebijakan terlampir. IAMPeran ini diasumsikan oleh Canvas untuk menciptakan EMR pekerjaan Tanpa Server.

      2. Atau, jika Anda sudah memiliki peran eksekusi dengan hubungan kepercayaan untuk EMR Tanpa Server, pilih Gunakan peran eksekusi yang ada dan pilih peran Anda dari menu tarik-turun.

        • Peran yang ada harus memiliki nama yang dimulai dengan awalanAmazonSageMakerCanvasEMRSExecutionAccess-.

        • Peran yang Anda pilih juga harus memiliki setidaknya izin yang dijelaskan dalam AWS kebijakan terkelola: AmazonSageMakerCanvas EMRServerlessExecutionRolePolicy kebijakan.

        • Peran tersebut harus memiliki kebijakan kepercayaan EMR Tanpa Server, seperti yang ditunjukkan di bawah ini:

          { "Version": "2012-10-17", "Statement": [ { "Sid": "EMRServerlessTrustPolicy", "Effect": "Allow", "Principal": { "Service": "emr-serverless.amazonaws.com" }, "Action": "sts:AssumeRole", "Condition": { "StringEquals": { "aws:SourceAccount": "<your-account-id>" } } } ] }
  3. (Opsional) Tambahkan izin Amazon S3 untuk bucket Amazon S3 kustom:

    1. Kebijakan terkelola Canvas secara otomatis memberikan izin baca dan tulis untuk bucket Amazon S3 sagemaker dengan SageMaker atau dalam namanya. Ini juga memberikan izin baca untuk objek di bucket Amazon S3 khusus dengan tag. "SageMaker": "true"

    2. Untuk bucket Amazon S3 khusus tanpa tag yang diperlukan, tambahkan kebijakan berikut ke peran Tanpa Server AndaEMR:

    3. { "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "s3:GetObject", "s3:PutObject", "s3:DeleteObject" ], "Resource": [ "arn:aws:s3:::*" ] } ] }
    4. Kami menyarankan Anda untuk memasukkan izin ke bucket Amazon S3 tertentu yang ingin diakses Canvas.

  4. Simpan perubahan Anda dan mulai ulang aplikasi SageMaker Canvas Anda.

Skenario 2: Pengaturan domain khusus (dengan akses internet publik/tanpaVPC)

Jika Anda membuat atau menggunakan domain kustom, ikuti langkah 1-3 dari Skenario 1, lalu lakukan langkah-langkah tambahan ini:

  1. Tambahkan izin untuk ECR DescribeImages operasi Amazon ke peran SageMaker eksekusi Amazon Anda, karena Canvas menggunakan gambar Amazon ECR Docker publik untuk persiapan data dan pelatihan model:

    1. Masuk ke AWS konsol dan buka IAM konsol di https://console.aws.amazon.com/iam/.

    2. Pilih Peran.

    3. Di kotak pencarian, cari peran SageMaker eksekusi Anda berdasarkan nama dan pilih.

    4. Tambahkan kebijakan berikut ke peran SageMaker eksekusi Anda. Ini dapat dilakukan baik dengan menambahkannya sebagai kebijakan inline baru atau dengan menambahkan pernyataan kebijakan ke yang sudah ada. Perhatikan bahwa IAM peran dapat memiliki maksimal 10 kebijakan yang dilampirkan.

      { "Version": "2012-10-17", "Statement": [{ "Sid": "ECRDescribeImagesOperation", "Effect": "Allow", "Action": "ecr:DescribeImages", "Resource": [ "arn:aws:ecr:*:*:repository/sagemaker-data-wrangler-emr-container", "arn:aws:ecr:*:*:repository/ap-dataprep-emr" ] }] }
  2. Simpan perubahan Anda dan mulai ulang aplikasi SageMaker Canvas Anda.

Skenario 3: Pengaturan domain khusus (dengan VPC dan tanpa akses internet publik)

Jika Anda membuat atau menggunakan domain kustom, ikuti semua langkah dari Skenario 2, lalu ikuti langkah-langkah tambahan ini:

  1. Pastikan VPC subnet Anda bersifat pribadi:

    1. Verifikasi bahwa tabel rute untuk subnet Anda tidak memiliki pemetaan entri 0.0.0.0/0 ke Internet Gateway.

  2. Tambahkan izin untuk membuat antarmuka jaringan:

    1. Saat menggunakan SageMaker Canvas dengan EMR Tanpa Server untuk pemrosesan data skala besar, EMR Tanpa Server memerlukan kemampuan untuk membuat Amazon EC2 ENIs untuk mengaktifkan komunikasi jaringan antara aplikasi Tanpa EMR Server dan sumber daya Anda. VPC

    2. Tambahkan kebijakan berikut ke peran SageMaker eksekusi Amazon Anda. Ini dapat dilakukan baik dengan menambahkannya sebagai kebijakan inline baru atau dengan menambahkan pernyataan kebijakan ke yang sudah ada. Perhatikan bahwa IAM peran dapat memiliki maksimal 10 kebijakan yang dilampirkan.

      { "Version": "2012-10-17", "Statement": [ { "Sid": "AllowEC2ENICreation", "Effect": "Allow", "Action": [ "ec2:CreateNetworkInterface" ], "Resource": [ "arn:aws:ec2:*:*:network-interface/*" ], "Condition": { "StringEquals": { "aws:CalledViaLast": "ops.emr-serverless.amazonaws.com" } } } ] }
  3. (Opsional) Batasi ENI pembuatan ke subnet tertentu:

    1. Untuk lebih mengamankan pengaturan Anda dengan membatasi pembuatan ENIs subnet tertentu di dalam AndaVPC, Anda dapat menandai setiap subnet dengan kondisi tertentu.

    2. Gunakan IAM kebijakan berikut untuk memastikan bahwa aplikasi EMR Tanpa Server hanya dapat membuat Amazon EC2 ENIs dalam subnet dan grup keamanan yang diizinkan:

      { "Sid": "AllowEC2ENICreationInSubnetAndSecurityGroupWithEMRTags", "Effect": "Allow", "Action": [ "ec2:CreateNetworkInterface" ], "Resource": [ "arn:aws:ec2:*:*:subnet/*", "arn:aws:ec2:*:*:security-group/*" ], "Condition": { "StringEquals": { "aws:ResourceTag/KEY": "VALUE" } } }
  4. Ikuti langkah-langkah pada halaman Konfigurasikan Amazon SageMaker Canvas VPC tanpa akses internet untuk mengatur VPC titik akhir untuk Amazon S3, yang diperlukan EMR oleh Tanpa Server dan lainnya AWS layanan yang digunakan oleh SageMaker Canvas.

  5. Simpan perubahan Anda dan mulai ulang aplikasi SageMaker Canvas Anda.

Dengan mengikuti langkah-langkah ini, Anda dapat mengaktifkan pemrosesan data besar di SageMaker Canvas untuk berbagai pengaturan domain, termasuk yang memiliki konfigurasi khususVPC. Ingatlah untuk memulai ulang aplikasi SageMaker Canvas Anda setelah membuat perubahan ini untuk menerapkan izin baru.