Kami tidak lagi memperbarui layanan Amazon Machine Learning atau menerima pengguna baru untuk itu. Dokumentasi ini tersedia untuk pengguna yang sudah ada, tetapi kami tidak lagi memperbaruinya. Untuk informasi selengkapnya, lihatApa itu Amazon Machine Learning.
Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Penataan Data
Fungsi penataan ulang data memungkinkan Anda untuk membuat sumber data yang didasarkan pada hanya sebagian dari data input yang ditunjukkannya. Misalnya, ketika Anda membuat Model L menggunakanBuat Model MLwizard di konsol Amazon ML-nya, dan pilih opsi evaluasi default, Amazon IL secara otomatis menyimpan 30% data Anda untuk evaluasi model ML-nya, dan menggunakan 70% lainnya untuk pelatihan. Fungsionalitas ini diaktifkan oleh fitur Penataan Ulang Data Amazon ML-nya.
Jika Anda menggunakan API Amazon XML untuk membuat sumber data, Anda dapat menentukan bagian mana dari data input yang akan didasarkan pada sumber data baru. Anda melakukan ini dengan melewati instruksi diDataRearrangement
parameter keCreateDataSourceFromS3
,CreateDataSourceFromRedshift
atauCreateDataSourceFromRDS
API. Isi dari string DataArrangement adalah string JSON yang berisi awal dan akhir lokasi data Anda, dinyatakan sebagai persentase, bendera pelengkap, dan strategi membelah. Misalnya, string DataArrangement berikut menentukan bahwa 70% pertama dari data akan digunakan untuk membuat sumber data:
{ "splitting": { "percentBegin": 0, "percentEnd": 70, "complement": false, "strategy": "sequential" } }
Parameter DatareArrangement
Untuk mengubah cara Amazon ML-membuat sumber data, gunakan parameter berikut.
- PersentBegin (Opsional)
-
Gunakan
percentBegin
untuk menunjukkan di mana data untuk sumber data dimulai. Jika Anda tidak menyertakanpercentBegin
danpercentEnd
, Amazon IL menyertakan semua data saat membuat sumber data.Nilai yang valid adalah
0
kepada100
, inklusif. - PercentEnd (Opsional)
-
Gunakan
percentEnd
untuk menunjukkan di mana data untuk datasource berakhir. Jika Anda tidak menyertakanpercentBegin
danpercentEnd
, Amazon IL menyertakan semua data saat membuat sumber data.Nilai yang valid adalah
0
kepada100
, inklusif. - Pelengkap (Opsional)
-
Parameter
complement
parameter memberitahu Amazon IL untuk menggunakan data yang tidak termasuk dalam kisaranpercentBegin
kepadapercentEnd
untuk membuat datasource. Parametercomplement
berguna jika Anda perlu membuat sumber data komplementer untuk pelatihan dan evaluasi. Untuk membuat sumber data komplementer, gunakan nilai yang sama untukpercentBegin
danpercentEnd
, bersama dengancomplement
parameter.Misalnya, dua sumber data berikut tidak berbagi data apapun, dan dapat digunakan untuk melatih dan mengevaluasi model. Sumber data pertama memiliki 25 persen dari data, dan yang kedua memiliki 75 persen dari data.
Sumber data untuk evaluasi:
{ "splitting":{ "percentBegin":0, "percentEnd":25 } }
Datasource untuk pelatihan:
{ "splitting":{ "percentBegin":0, "percentEnd":25, "complement":"true" } }
Nilai yang valid adalah
true
danfalse
. - Strategi (Opsional)
-
Untuk mengubah cara Amazon ML-membagi data untuk sumber data, gunakan
strategy
parameter.Nilai default untuk
strategy
parametersequential
, yang berarti bahwa Amazon ML-mengambil semua data record antarapercentBegin
danpercentEnd
parameter untuk datasource, dalam urutan bahwa catatan muncul dalam input dataBerikut dua
DataRearrangement
garis adalah contoh pelatihan berurutan memerintahkan dan evaluasi datasources:Sumber data untuk evaluasi:
{"splitting":{"percentBegin":70, "percentEnd":100, "strategy":"sequential"}}
Datasource untuk pelatihan:
{"splitting":{"percentBegin":70, "percentEnd":100, "strategy":"sequential", "complement":"true"}}
Untuk membuat datasource dari pilihan acak data, atur
strategy
parameterrandom
dan menyediakan string yang digunakan sebagai nilai benih untuk pemisahan data acak (misalnya, Anda dapat menggunakan jalur S3 untuk data Anda sebagai string benih acak). Jika Anda memilih strategi split acak, Amazon ML-memberikan setiap baris data nomor pseudo-acak, dan kemudian memilih baris yang memiliki nomor yang ditetapkan antarapercentBegin
danpercentEnd
. Nomor pseudo-acak ditugaskan menggunakan byte offset sebagai benih, sehingga mengubah hasil data dalam perpecahan yang berbeda. Setiap pemesanan yang ada dipertahankan. Strategi pemisahan acak memastikan bahwa variabel dalam data pelatihan dan evaluasi didistribusikan sama. Hal ini berguna dalam kasus-kasus di mana data input mungkin memiliki urutan semacam implisit, yang sebaliknya akan menghasilkan pelatihan dan evaluasi sumber data yang berisi catatan data yang tidak serupa.Berikut dua
DataRearrangement
baris adalah contoh pelatihan non-berurutan memerintahkan dan evaluasi datasources:Sumber data untuk evaluasi:
{ "splitting":{ "percentBegin":70, "percentEnd":100, "strategy":"random", "strategyParams": { "randomSeed":"RANDOMSEED" } } }
Datasource untuk pelatihan:
{ "splitting":{ "percentBegin":70, "percentEnd":100, "strategy":"random", "strategyParams": { "randomSeed":"RANDOMSEED" } "complement":"true" } }
Nilai yang valid adalah
sequential
danrandom
. - Strategi (Opsional): randomSeed
-
Amazon ML-nyaAcomSeeduntuk membagi data. Benih default untuk API adalah string kosong. Untuk menentukan benih untuk strategi split acak, lulus dalam string. Untuk informasi lebih lanjut tentang biji acak, lihatMemisahkan Data Anda secara acakdiPanduan Pengembang Amazon Machine Learning.
Untuk kode contoh yang menunjukkan cara menggunakan validasi silang dengan Amazon MLnya, bukaSampel Machine Learning