Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Berikan Izin Pengguna untuk Menggunakan Data Besar di seluruh Siklus Hidup ML
Pengguna Amazon SageMaker Canvas yang bekerja dengan kumpulan data yang lebih besar dari 10 GB dalam format CSV atau 2,5 GB dalam format Parket memerlukan izin khusus untuk pemrosesan data besar. Izin ini sangat penting untuk mengelola data skala besar di seluruh siklus hidup pembelajaran mesin. Ketika kumpulan data melebihi ambang batas yang dinyatakan, atau kapasitas memori lokal aplikasi, Canvas menggunakan SageMaker Amazon EMR Tanpa Server untuk pemrosesan yang efisien. Ini berlaku untuk:
-
Impor Data: Mengimpor kumpulan data besar dengan pengambilan sampel acak atau bertingkat.
-
Persiapan Data: Mengekspor data yang diproses dari Data Wrangler di Canvas ke Amazon S3, ke dataset Canvas baru, atau ke model Canvas.
-
Model Building: Model pelatihan pada dataset besar.
-
Inferensi: Membuat prediksi pada kumpulan data besar.
Secara default, SageMaker Canvas menggunakan EMR Tanpa Server untuk menjalankan pekerjaan jarak jauh ini dengan pengaturan aplikasi berikut:
-
Kapasitas Pra-Inisialisasi: Tidak dikonfigurasi
-
Batas aplikasi: Kapasitas maksimum 400 vCPUs, maks bersamaan 16 v CPUs per akun, memori 3000 GB, disk 20000 GB
-
Konfigurasi metastore: AWS Glue Data Catalog
-
Log aplikasi: penyimpanan AWS terkelola (diaktifkan), menggunakan kunci enkripsi yang AWS dimiliki
-
Perilaku aplikasi: Mulai otomatis pada pengiriman pekerjaan dan berhenti otomatis setelah aplikasi menganggur selama 15 menit
Untuk mengaktifkan kemampuan pemrosesan data yang besar ini, pengguna memerlukan izin yang diperlukan, yang dapat diberikan melalui pengaturan domain Amazon SageMaker AI. Metode pemberian izin ini bergantung pada bagaimana domain Amazon SageMaker AI Anda disiapkan pada awalnya. Kami akan membahas tiga skenario utama:
-
Pengaturan domain cepat
-
Pengaturan domain khusus (dengan akses internet publik/tanpa VPC)
-
Pengaturan domain khusus (dengan VPC dan tanpa akses internet publik)
Setiap skenario memerlukan langkah-langkah khusus untuk memastikan bahwa pengguna memiliki izin yang diperlukan untuk memanfaatkan EMR Tanpa Server untuk pemrosesan data besar di seluruh siklus hidup pembelajaran mesin di Canvas. SageMaker
Skenario 1: Pengaturan domain cepat
Jika Anda menggunakan opsi Pengaturan cepat saat membuat domain SageMaker AI, ikuti langkah-langkah berikut:
-
Arahkan ke pengaturan domain Amazon SageMaker AI:
-
Buka konsol Amazon SageMaker AI di https://console.aws.amazon.com/sagemaker/
. -
Di panel navigasi kiri, pilih Domain.
-
Pilih domain Anda.
-
Pilih tab Konfigurasi Aplikasi.
-
Gulir ke bagian Canvas dan pilih Edit.
-
-
Aktifkan pemrosesan data besar:
-
Di bagian konfigurasi pemrosesan data besar, aktifkan Aktifkan EMR Tanpa Server untuk pemrosesan data besar.
-
Buat atau pilih peran EMR Tanpa Server:
-
Pilih Buat dan gunakan peran eksekusi baru untuk membuat peran IAM baru yang memiliki hubungan kepercayaan dengan EMR Tanpa Server dan kebijakan terlampir. AWS kebijakan terkelola: AmazonSageMakerCanvas EMRServerless ExecutionRolePolicy Peran IAM ini diasumsikan oleh Canvas untuk membuat pekerjaan EMR Tanpa Server.
-
Atau, jika Anda sudah memiliki peran eksekusi dengan hubungan kepercayaan untuk EMR Tanpa Server, pilih Gunakan peran eksekusi yang ada dan pilih peran Anda dari menu tarik-turun.
-
Peran yang ada harus memiliki nama yang dimulai dengan awalan
AmazonSageMakerCanvasEMRSExecutionAccess-
. -
Peran yang Anda pilih juga harus memiliki setidaknya izin yang dijelaskan dalam AWS kebijakan terkelola: AmazonSageMakerCanvas EMRServerless ExecutionRolePolicy kebijakan.
-
Peran tersebut harus memiliki kebijakan kepercayaan EMR Tanpa Server, seperti yang ditunjukkan di bawah ini:
{ "Version": "2012-10-17", "Statement": [ { "Sid": "EMRServerlessTrustPolicy", "Effect": "Allow", "Principal": { "Service": "emr-serverless.amazonaws.com" }, "Action": "sts:AssumeRole", "Condition": { "StringEquals": { "aws:SourceAccount": "
<your-account-id>
" } } } ] }
-
-
-
-
(Opsional) Tambahkan izin Amazon S3 untuk bucket Amazon S3 kustom:
-
Kebijakan terkelola Canvas secara otomatis memberikan izin baca dan tulis untuk bucket Amazon S3
sagemaker
denganSageMaker AI
atau dalam nama mereka. Ini juga memberikan izin baca untuk objek di bucket Amazon S3 khusus dengan tag."SageMaker": "true"
-
Untuk bucket Amazon S3 kustom tanpa tag yang diperlukan, tambahkan kebijakan berikut ke peran EMR Tanpa Server Anda:
-
{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "s3:GetObject", "s3:PutObject", "s3:DeleteObject" ], "Resource": [ "arn:aws:s3:::*" ] } ] }
-
Kami menyarankan Anda untuk memasukkan izin ke bucket Amazon S3 tertentu yang ingin diakses Canvas.
-
-
Simpan perubahan Anda dan mulai ulang aplikasi SageMaker Canvas Anda.
Skenario 2: Pengaturan domain khusus (dengan akses internet publik/tanpa VPC)
Jika Anda membuat atau menggunakan domain kustom, ikuti langkah 1-3 dari Skenario 1, lalu lakukan langkah-langkah tambahan ini:
-
Tambahkan izin untuk
DescribeImages
operasi Amazon ECR ke peran eksekusi Amazon SageMaker AI Anda, karena Canvas menggunakan image Amazon ECR Docker publik untuk persiapan data dan pelatihan model:-
Masuk ke AWS konsol dan buka konsol IAM di https://console.aws.amazon.com/iam/
. -
Pilih Peran.
-
Di kotak pencarian, cari peran eksekusi SageMaker AI Anda berdasarkan nama dan pilih.
-
Tambahkan kebijakan berikut ke peran eksekusi SageMaker AI Anda. Ini dapat dilakukan baik dengan menambahkannya sebagai kebijakan inline baru atau dengan menambahkan pernyataan kebijakan ke yang sudah ada. Perhatikan bahwa peran IAM dapat memiliki maksimal 10 kebijakan yang dilampirkan.
{ "Version": "2012-10-17", "Statement": [{ "Sid": "ECRDescribeImagesOperation", "Effect": "Allow", "Action": "ecr:DescribeImages", "Resource": [ "arn:aws:ecr:*:*:repository/sagemaker-data-wrangler-emr-container", "arn:aws:ecr:*:*:repository/ap-dataprep-emr" ] }] }
-
-
Simpan perubahan Anda dan mulai ulang aplikasi SageMaker Canvas Anda.
Skenario 3: Pengaturan domain khusus (dengan VPC dan tanpa akses internet publik)
Jika Anda membuat atau menggunakan domain kustom, ikuti semua langkah dari Skenario 2, lalu ikuti langkah-langkah tambahan ini:
-
Pastikan subnet VPC Anda bersifat pribadi:
-
Verifikasi bahwa tabel rute untuk subnet Anda tidak memiliki pemetaan entri
0.0.0.0/0
ke Internet Gateway.
-
-
Tambahkan izin untuk membuat antarmuka jaringan:
-
Saat menggunakan SageMaker Canvas dengan EMR Serverless untuk pemrosesan data skala besar, EMR Serverless memerlukan kemampuan untuk membuat Amazon EC2 ENIs untuk mengaktifkan komunikasi jaringan antara aplikasi EMR Tanpa Server dan sumber daya VPC Anda.
-
Tambahkan kebijakan berikut ke peran eksekusi Amazon SageMaker AI Anda. Ini dapat dilakukan baik dengan menambahkannya sebagai kebijakan inline baru atau dengan menambahkan pernyataan kebijakan ke yang sudah ada. Perhatikan bahwa peran IAM dapat memiliki maksimal 10 kebijakan yang dilampirkan.
{ "Version": "2012-10-17", "Statement": [ { "Sid": "AllowEC2ENICreation", "Effect": "Allow", "Action": [ "ec2:CreateNetworkInterface" ], "Resource": [ "arn:aws:ec2:*:*:network-interface/*" ], "Condition": { "StringEquals": { "aws:CalledViaLast": "ops.emr-serverless.amazonaws.com" } } } ] }
-
-
(Opsional) Batasi pembuatan ENI ke subnet tertentu:
-
Untuk lebih mengamankan pengaturan Anda dengan membatasi pembuatan ENIs subnet tertentu dalam VPC Anda, Anda dapat menandai setiap subnet dengan kondisi tertentu.
-
Gunakan kebijakan IAM berikut untuk memastikan bahwa aplikasi EMR Tanpa Server hanya dapat membuat EC2 ENIs Amazon dalam subnet dan grup keamanan yang diizinkan:
{ "Sid": "AllowEC2ENICreationInSubnetAndSecurityGroupWithEMRTags", "Effect": "Allow", "Action": [ "ec2:CreateNetworkInterface" ], "Resource": [ "arn:aws:ec2:*:*:subnet/*", "arn:aws:ec2:*:*:security-group/*" ], "Condition": { "StringEquals": { "aws:ResourceTag/KEY": "VALUE" } } }
-
-
Ikuti langkah-langkah pada halaman Konfigurasikan Amazon SageMaker Canvas di VPC tanpa akses internet untuk mengatur titik akhir VPC untuk Amazon S3, yang diperlukan oleh EMR Tanpa Server dan layanan lain yang digunakan oleh Canvas. AWS SageMaker
-
Simpan perubahan Anda dan mulai ulang aplikasi SageMaker Canvas Anda.
Dengan mengikuti langkah-langkah ini, Anda dapat mengaktifkan pemrosesan data besar di SageMaker Canvas untuk berbagai pengaturan domain, termasuk yang memiliki konfigurasi VPC khusus. Ingatlah untuk memulai ulang aplikasi SageMaker Canvas Anda setelah membuat perubahan ini untuk menerapkan izin baru.