Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Buat Pekerjaan Regresi atau Klasifikasi untuk Data Tabular Menggunakan AutoML API
Anda dapat membuat pekerjaan regresi atau klasifikasi Autopilot untuk data tabular secara terprogram dengan memanggil CreateAutoMLJobV2
APItindakan dalam bahasa apa pun yang didukung oleh Autopilot atau. AWS CLI Berikut ini adalah kumpulan parameter permintaan input wajib dan opsional untuk CreateAutoMLJobV2
API tindakan tersebut. Anda dapat menemukan informasi alternatif untuk versi sebelumnya dari tindakan ini,CreateAutoMLJob
. Namun, kami sarankan untuk menggunakanCreateAutoMLJobV2
.
Untuk informasi tentang cara API tindakan ini diterjemahkan ke dalam fungsi dalam bahasa pilihan Anda, lihat bagian Lihat Juga CreateAutoMLJobV2
dan pilih. SDK Sebagai contoh, untuk pengguna Python, lihat sintaks permintaan lengkap dari in. create_auto_ml_job_v2
AWS SDK for Python (Boto3)
catatan
CreateAutoMLJobV2dan DescribeAutoMLJobV2merupakan versi baru CreateAutoMLJobdan DescribeAutoMLJobyang menawarkan kompatibilitas mundur.
Kami merekomendasikan menggunakanCreateAutoMLJobV2
. CreateAutoMLJobV2
dapat mengelola jenis masalah tabular yang identik dengan versi sebelumnyaCreateAutoMLJob
, serta jenis masalah non-tabular seperti klasifikasi gambar atau teks, atau peramalan deret waktu.
Minimal, semua eksperimen pada data tabular memerlukan spesifikasi nama eksperimen, menyediakan lokasi untuk data input dan output, dan menentukan data target mana yang akan diprediksi. Secara opsional, Anda juga dapat menentukan jenis masalah yang ingin Anda selesaikan (regresi, klasifikasi, klasifikasi multiclass), pilih strategi pemodelan Anda (ansambel bertumpuk atau optimasi hiperparameter), pilih daftar algoritma yang digunakan oleh pekerjaan Autopilot untuk melatih data, dan banyak lagi.
Setelah eksperimen berjalan, Anda dapat membandingkan uji coba dan mempelajari detail langkah pra-pemrosesan, algoritme, dan rentang hiperparameter dari setiap model. Anda juga memiliki opsi untuk mengunduh laporan penjelasan dan kinerjanya. Gunakan buku catatan yang disediakan untuk melihat hasil eksplorasi data otomatis atau definisi model kandidat.
Temukan panduan tentang cara memigrasi CreateAutoMLJob
ke CreateAutoMLJobV2
inMigrasi a ke CreateAuto MLJob CreateAuto MLJobV2.
Parameter yang diperlukan
Semua parameter lainnya adalah opsional.
Parameter opsional
Bagian berikut memberikan rincian beberapa parameter opsional yang dapat Anda teruskan ke CreateAutoMLJobV2
API tindakan Anda saat menggunakan data tabular. Anda dapat menemukan informasi alternatif untuk versi sebelumnya dari tindakan ini,CreateAutoMLJob
. Namun, kami sarankan untuk menggunakanCreateAutoMLJobV2
.
Untuk data tabular, kumpulan algoritme yang dijalankan pada data Anda untuk melatih kandidat model Anda bergantung pada strategi pemodelan Anda (ENSEMBLING
atauHYPERPARAMETER_TUNING
). Berikut ini detail cara mengatur mode pelatihan ini.
Jika Anda tetap kosong (ataunull
), Mode
disimpulkan berdasarkan ukuran kumpulan data Anda.
Untuk informasi tentang ansambel bertumpuk Autopilot dan metode pelatihan pengoptimalan hiperparameter, lihat Mode pelatihan dan dukungan algoritme
Pilihan fitur
Autopilot menyediakan langkah-langkah pra-pemrosesan data otomatis termasuk pemilihan fitur dan ekstraksi fitur. Namun, Anda dapat secara manual memberikan fitur yang akan digunakan dalam pelatihan dengan FeatureSpecificatioS3Uri
atribut.
Fitur yang dipilih harus terkandung dalam JSON file dalam format berikut:
{ "FeatureAttributeNames":["col1", "col2", ...] }
Nilai yang tercantum dalam ["col1", "col2", ...]
peka huruf besar/kecil. Mereka harus berupa daftar string yang berisi nilai unik yang merupakan himpunan bagian dari nama kolom dalam data input.
catatan
Daftar kolom yang disediakan sebagai fitur tidak dapat menyertakan kolom target.
Pemilihan algoritma
Secara default, pekerjaan Autopilot Anda menjalankan daftar algoritme yang telah ditentukan sebelumnya pada kumpulan data Anda untuk melatih kandidat model. Daftar algoritma tergantung pada mode pelatihan (ENSEMBLING
atauHYPERPARAMETER_TUNING
) yang digunakan oleh pekerjaan.
Anda dapat memberikan subset dari pemilihan algoritme default.
Untuk daftar algoritma yang tersedia per pelatihanMode
, lihat AutoMLAlgorithms
. Untuk detail tentang setiap algoritma, lihatMode pelatihan dan dukungan algoritme.
Anda dapat memberikan kumpulan data validasi dan rasio pemisahan data khusus Anda sendiri, atau membiarkan Autopilot membagi kumpulan data secara otomatis.
Untuk informasi tentang validasi split dan cross-validasi di Autopilot lihat. Validasi silang di Autopilot
catatan
Dalam beberapa kasus, Autopilot tidak dapat menyimpulkan ProblemType
dengan kepercayaan diri yang cukup tinggi, dalam hal ini Anda harus memberikan nilai agar pekerjaan berhasil.
Anda dapat menambahkan kolom bobot sampel ke kumpulan data tabular Anda dan kemudian meneruskannya ke pekerjaan AutoML Anda untuk meminta baris kumpulan data untuk ditimbang selama pelatihan dan evaluasi.
Support untuk bobot sampel hanya tersedia dalam mode ensembling. Bobot Anda harus numerik dan non-negatif. Poin data dengan nilai bobot tidak valid atau tidak ada dikecualikan. Untuk informasi selengkapnya tentang metrik objektif yang tersedia, lihatMetrik tertimbang autopilot.
Anda dapat mengonfigurasi AutoML job V2 untuk secara otomatis memulai pekerjaan jarak jauh di Amazon EMR Tanpa Server saat sumber daya komputasi tambahan diperlukan untuk memproses kumpulan data besar. Dengan transisi mulus ke EMR Tanpa Server saat diperlukan, pekerjaan AutoML dapat menangani kumpulan data yang akan melebihi sumber daya yang awalnya disediakan, tanpa intervensi manual dari Anda. EMRTanpa server tersedia untuk jenis masalah tabular dan deret waktu. Kami merekomendasikan pengaturan opsi ini untuk kumpulan data tabular yang lebih besar dari 5 GB.
Agar AutoML job V2 Anda secara otomatis beralih ke EMR Tanpa Server untuk kumpulan data besar, Anda perlu menyediakan EmrServerlessComputeConfig
objek, yang menyertakan ExecutionRoleARN
bidang, ke permintaan input AutoML job V2. AutoMLComputeConfig
ExecutionRoleARN
Ini adalah IAM peran ARN yang memberikan pekerjaan AutoML V2 izin yang diperlukan untuk EMR menjalankan pekerjaan Tanpa Server.
Peran ini harus memiliki hubungan kepercayaan berikut:
{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Principal": { "Service": "emr-serverless.amazonaws.com" }, "Action": "sts:AssumeRole" } ] }
Dan berikan izin untuk:
-
Buat, daftar, dan perbarui EMR aplikasi Tanpa Server.
-
Mulai, daftar, dapatkan, atau batalkan pekerjaan berjalan pada aplikasi EMR Tanpa Server.
-
Tandai EMR sumber daya tanpa server.
-
Lulus IAM peran ke layanan EMR Tanpa Server untuk dieksekusi.
Dengan memberikan
iam:PassRole
izin, pekerjaan AutoML V2 dapat mengambil peranEMRServerlessRuntimeRole-*
sementara dan meneruskannya ke EMR layanan Tanpa Server. Ini adalah IAM peran yang digunakan oleh lingkungan eksekusi pekerjaan EMR Tanpa Server untuk mengakses AWS layanan dan sumber daya lain yang diperlukan selama runtime, seperti Amazon S3 untuk akses data, CloudWatch untuk pencatatan, akses ke Katalog AWS Glue Data, atau layanan lain berdasarkan persyaratan beban kerja Anda.Lihat Peran runtime Job untuk Amazon EMR Tanpa Server untuk detail tentang izin peran ini.
IAMKebijakan yang ditetapkan dalam JSON dokumen yang disediakan memberikan izin tersebut:
{ "Version": "2012-10-17", "Statement": [{ + "Sid": "EMRServerlessCreateApplicationOperation", + "Effect": "Allow", + "Action": "emr-serverless:CreateApplication", + "Resource": "arn:aws:emr-serverless:*:*:/*", + "Condition": { + "StringEquals": { + "aws:RequestTag/sagemaker:is-canvas-resource": "True", + "aws:ResourceAccount": "${aws:PrincipalAccount}" + } + } + }, + { + "Sid": "EMRServerlessListApplicationOperation", + "Effect": "Allow", + "Action": "emr-serverless:ListApplications", + "Resource": "arn:aws:emr-serverless:*:*:/*", + "Condition": { + "StringEquals": { + "aws:ResourceAccount": "${aws:PrincipalAccount}" + } + } + }, + { + "Sid": "EMRServerlessApplicationOperations", + "Effect": "Allow", + "Action": [ + "emr-serverless:UpdateApplication", + "emr-serverless:GetApplication" + ], + "Resource": "arn:aws:emr-serverless:*:*:/applications/*", + "Condition": { + "StringEquals": { + "aws:ResourceTag/sagemaker:is-canvas-resource": "True", + "aws:ResourceAccount": "${aws:PrincipalAccount}" + } + } + }, + { + "Sid": "EMRServerlessStartJobRunOperation", + "Effect": "Allow", + "Action": "emr-serverless:StartJobRun", + "Resource": "arn:aws:emr-serverless:*:*:/applications/*", + "Condition": { + "StringEquals": { + "aws:RequestTag/sagemaker:is-canvas-resource": "True", + "aws:ResourceAccount": "${aws:PrincipalAccount}" + } + } + }, + { + "Sid": "EMRServerlessListJobRunOperation", + "Effect": "Allow", + "Action": "emr-serverless:ListJobRuns", + "Resource": "arn:aws:emr-serverless:*:*:/applications/*", + "Condition": { + "StringEquals": { + "aws:ResourceTag/sagemaker:is-canvas-resource": "True", + "aws:ResourceAccount": "${aws:PrincipalAccount}" + } + } + }, + { + "Sid": "EMRServerlessJobRunOperations", + "Effect": "Allow", + "Action": [ + "emr-serverless:GetJobRun", + "emr-serverless:CancelJobRun" + ], + "Resource": "arn:aws:emr-serverless:*:*:/applications/*/jobruns/*", + "Condition": { + "StringEquals": { + "aws:ResourceTag/sagemaker:is-canvas-resource": "True", + "aws:ResourceAccount": "${aws:PrincipalAccount}" + } + } + }, + { + "Sid": "EMRServerlessTagResourceOperation", + "Effect": "Allow", + "Action": "emr-serverless:TagResource", + "Resource": "arn:aws:emr-serverless:*:*:/*", + "Condition": { + "StringEquals": { + "aws:RequestTag/sagemaker:is-canvas-resource": "True", + "aws:ResourceAccount": "${aws:PrincipalAccount}" + } + } + }, + { + "Sid": "IAMPassOperationForEMRServerless", + "Effect": "Allow", + "Action": "iam:PassRole", + "Resource": "arn:aws:iam::*:role/EMRServerlessRuntimeRole-*", + "Condition": { + "StringEquals": { + "iam:PassedToService": "emr-serverless.amazonaws.com", + "aws:ResourceAccount": "${aws:PrincipalAccount}" + } + } } ] }
Migrasi a ke CreateAuto MLJob CreateAuto MLJobV2
Kami menyarankan pengguna CreateAutoMLJob
untuk bermigrasi keCreateAutoMLJobV2
.
Bagian ini menjelaskan perbedaan parameter input antara CreateAutoMLJobdan CreateAutoMLJobV2dengan menyoroti perubahan posisi, nama, atau struktur objek dan atribut permintaan input antara dua versi.
-
Minta atribut yang tidak berubah antar versi.
{ "AutoMLJobName": "string", "AutoMLJobObjective": { "MetricName": "string" }, "ModelDeployConfig": { "AutoGenerateEndpointName": boolean, "EndpointName": "string" }, "OutputDataConfig": { "KmsKeyId": "string", "S3OutputPath": "string" }, "RoleArn": "string", "Tags": [ { "Key": "string", "Value": "string" } ] }
-
Minta atribut yang mengubah posisi dan struktur antar versi.
Atribut berikut berubah posisi:
DataSplitConfig
,Security Config
,CompletionCriteria
,Mode
,FeatureSpecificationS3Uri
,SampleWeightAttributeName
,TargetAttributeName
. -
Atribut berikut mengubah posisi dan struktur antar versi.
Berikut ini JSON mengilustrasikan bagaimana A utoMLJob Config. CandidateGenerationConfigTipe A utoMLCandidate GenerationConfig pindah ke A utoMLProblemTypeConfig. TabularJobConfig. CandidateGenerationConfigdari tipe CandidateGenerationConfigdi V2.
-
Minta atribut yang mengubah nama dan struktur.
Berikut ini JSON menggambarkan bagaimana InputDataConfig(Sebuah array dari A utoMLChannel) berubah menjadi A utoMLJob InputDataConfig (Sebuah array dari A utoMLJob Channel) di V2. Perhatikan bahwa atribut
SampleWeightAttributeName
danTargetAttributeName
bergerak keluarInputDataConfig
dan masukAutoMLProblemTypeConfig
.