Penataan Data - Amazon Machine Learning

Kami tidak lagi memperbarui layanan Amazon Machine Learning atau menerima pengguna baru untuk itu. Dokumentasi ini tersedia untuk pengguna yang sudah ada, tetapi kami tidak lagi memperbaruinya. Untuk informasi selengkapnya, lihatApa itu Amazon Machine Learning.

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Penataan Data

Fungsi penataan ulang data memungkinkan Anda untuk membuat sumber data yang didasarkan pada hanya sebagian dari data input yang ditunjukkannya. Misalnya, ketika Anda membuat Model L menggunakanBuat Model MLwizard di konsol Amazon ML-nya, dan pilih opsi evaluasi default, Amazon IL secara otomatis menyimpan 30% data Anda untuk evaluasi model ML-nya, dan menggunakan 70% lainnya untuk pelatihan. Fungsionalitas ini diaktifkan oleh fitur Penataan Ulang Data Amazon ML-nya.

Jika Anda menggunakan API Amazon XML untuk membuat sumber data, Anda dapat menentukan bagian mana dari data input yang akan didasarkan pada sumber data baru. Anda melakukan ini dengan melewati instruksi diDataRearrangementparameter keCreateDataSourceFromS3,CreateDataSourceFromRedshiftatauCreateDataSourceFromRDSAPI. Isi dari string DataArrangement adalah string JSON yang berisi awal dan akhir lokasi data Anda, dinyatakan sebagai persentase, bendera pelengkap, dan strategi membelah. Misalnya, string DataArrangement berikut menentukan bahwa 70% pertama dari data akan digunakan untuk membuat sumber data:

{ "splitting": { "percentBegin": 0, "percentEnd": 70, "complement": false, "strategy": "sequential" } }

Parameter DatareArrangement

Untuk mengubah cara Amazon ML-membuat sumber data, gunakan parameter berikut.

PersentBegin (Opsional)

GunakanpercentBeginuntuk menunjukkan di mana data untuk sumber data dimulai. Jika Anda tidak menyertakanpercentBegindanpercentEnd, Amazon IL menyertakan semua data saat membuat sumber data.

Nilai yang valid adalah0kepada100, inklusif.

PercentEnd (Opsional)

GunakanpercentEnduntuk menunjukkan di mana data untuk datasource berakhir. Jika Anda tidak menyertakanpercentBegindanpercentEnd, Amazon IL menyertakan semua data saat membuat sumber data.

Nilai yang valid adalah0kepada100, inklusif.

Pelengkap (Opsional)

Parametercomplementparameter memberitahu Amazon IL untuk menggunakan data yang tidak termasuk dalam kisaranpercentBeginkepadapercentEnduntuk membuat datasource. Parametercomplementberguna jika Anda perlu membuat sumber data komplementer untuk pelatihan dan evaluasi. Untuk membuat sumber data komplementer, gunakan nilai yang sama untukpercentBegindanpercentEnd, bersama dengancomplementparameter.

Misalnya, dua sumber data berikut tidak berbagi data apapun, dan dapat digunakan untuk melatih dan mengevaluasi model. Sumber data pertama memiliki 25 persen dari data, dan yang kedua memiliki 75 persen dari data.

Sumber data untuk evaluasi:

{ "splitting":{ "percentBegin":0, "percentEnd":25 } }

Datasource untuk pelatihan:

{ "splitting":{ "percentBegin":0, "percentEnd":25, "complement":"true" } }

Nilai yang valid adalah true dan false.

Strategi (Opsional)

Untuk mengubah cara Amazon ML-membagi data untuk sumber data, gunakanstrategyparameter.

Nilai default untukstrategyparametersequential, yang berarti bahwa Amazon ML-mengambil semua data record antarapercentBegindanpercentEndparameter untuk datasource, dalam urutan bahwa catatan muncul dalam input data

Berikut duaDataRearrangementgaris adalah contoh pelatihan berurutan memerintahkan dan evaluasi datasources:

Sumber data untuk evaluasi:{"splitting":{"percentBegin":70, "percentEnd":100, "strategy":"sequential"}}

Datasource untuk pelatihan:{"splitting":{"percentBegin":70, "percentEnd":100, "strategy":"sequential", "complement":"true"}}

Untuk membuat datasource dari pilihan acak data, aturstrategyparameterrandomdan menyediakan string yang digunakan sebagai nilai benih untuk pemisahan data acak (misalnya, Anda dapat menggunakan jalur S3 untuk data Anda sebagai string benih acak). Jika Anda memilih strategi split acak, Amazon ML-memberikan setiap baris data nomor pseudo-acak, dan kemudian memilih baris yang memiliki nomor yang ditetapkan antarapercentBegindanpercentEnd. Nomor pseudo-acak ditugaskan menggunakan byte offset sebagai benih, sehingga mengubah hasil data dalam perpecahan yang berbeda. Setiap pemesanan yang ada dipertahankan. Strategi pemisahan acak memastikan bahwa variabel dalam data pelatihan dan evaluasi didistribusikan sama. Hal ini berguna dalam kasus-kasus di mana data input mungkin memiliki urutan semacam implisit, yang sebaliknya akan menghasilkan pelatihan dan evaluasi sumber data yang berisi catatan data yang tidak serupa.

Berikut duaDataRearrangementbaris adalah contoh pelatihan non-berurutan memerintahkan dan evaluasi datasources:

Sumber data untuk evaluasi:

{ "splitting":{ "percentBegin":70, "percentEnd":100, "strategy":"random", "strategyParams": { "randomSeed":"RANDOMSEED" } } }

Datasource untuk pelatihan:

{ "splitting":{ "percentBegin":70, "percentEnd":100, "strategy":"random", "strategyParams": { "randomSeed":"RANDOMSEED" } "complement":"true" } }

Nilai yang valid adalah sequential dan random.

Strategi (Opsional): randomSeed

Amazon ML-nyaAcomSeeduntuk membagi data. Benih default untuk API adalah string kosong. Untuk menentukan benih untuk strategi split acak, lulus dalam string. Untuk informasi lebih lanjut tentang biji acak, lihatMemisahkan Data Anda secara acakdiPanduan Pengembang Amazon Machine Learning.

Untuk kode contoh yang menunjukkan cara menggunakan validasi silang dengan Amazon MLnya, bukaSampel Machine Learning.