Penataan Ulang Data

Fungsionalitas penataan ulang data memungkinkan Anda membuat sumber data yang hanya didasarkan pada sebagian data input yang ditunjukkannya. Misalnya, saat Anda membuat Model ML menggunakan wizard Buat Model ML di konsol Amazon, dan memilih opsi evaluasi default, Amazon ML secara otomatis menyimpan 30% data Anda untuk evaluasi model ML, dan menggunakan 70% lainnya untuk pelatihan. Fungsionalitas ini diaktifkan oleh fitur Penataan Ulang Data Amazon ML.

Jika Anda menggunakan Amazon MLAPI untuk membuat sumber data, Anda dapat menentukan bagian mana dari data input sumber data baru yang akan didasarkan. Anda melakukan ini dengan meneruskan instruksi dalam DataRearrangement parameter keCreateDataSourceFromS3, CreateDataSourceFromRedshift atau CreateDataSourceFromRDS APIs. Isi DataRearrangement string adalah string JSON yang berisi lokasi awal dan akhir data Anda, dinyatakan sebagai persentase, tanda pelengkap, dan strategi pemisahan. Misalnya, DataRearrangement string berikut menentukan bahwa 70% pertama dari data akan digunakan untuk membuat sumber data:


{
    "splitting": {
        "percentBegin": 0,
        "percentEnd": 70,
        "complement": false,
        "strategy": "sequential"
    }
}

DataRearrangement Parameter

Untuk mengubah cara Amazon ML membuat sumber data, gunakan parameter ikuti.

PercentBegin (Opsional)

Gunakan percentBegin untuk menunjukkan di mana data untuk sumber data dimulai. Jika Anda tidak menyertakan percentBegin danpercentEnd, Amazon ML menyertakan semua data saat membuat sumber data.

Nilai yang valid adalah 0 untuk100, inklusif.

PercentEnd (Opsional)

Gunakan percentEnd untuk menunjukkan di mana data untuk sumber data berakhir. Jika Anda tidak menyertakan percentBegin danpercentEnd, Amazon ML menyertakan semua data saat membuat sumber data.

Nilai yang valid adalah 0 untuk100, inklusif.

Pelengkap (Opsional)

complementParameter memberitahu Amazon MLuntuk menggunakan data yang tidak termasuk dalam rentang percentBegin percentEnd untuk membuat sumber data. complementParameter ini berguna jika Anda perlu membuat sumber data pelengkap untuk pelatihan dan evaluasi. Untuk membuat sumber data komplementer, gunakan nilai yang sama untuk percentBegin danpercentEnd, bersama dengan parameternya. complement

Misalnya, dua sumber data berikut tidak berbagi data apa pun, dan dapat digunakan untuk melatih dan mengevaluasi model. Sumber data pertama memiliki 25 persen data, dan yang kedua memiliki 75 persen data.

Sumber data untuk evaluasi:


{
    "splitting":{
        "percentBegin":0, 
        "percentEnd":25
    }
}

Sumber data untuk pelatihan:


{
    "splitting":{
        "percentBegin":0, 
        "percentEnd":25, 
        "complement":"true"
    }
}

Nilai yang valid adalah true dan false.

Strategi (Opsional)

Untuk mengubah cara Amazon ML membagi data untuk sumber data, gunakan parameternya. strategy

Nilai default untuk strategy parameter adalahsequential, artinya Amazon MLmengambil semua catatan data antara percentBegin dan percentEnd parameter untuk sumber data, dalam urutan bahwa catatan muncul dalam data input

Dua DataRearrangement baris berikut adalah contoh sumber data pelatihan dan evaluasi yang diurutkan secara berurutan:

Sumber data untuk evaluasi: {"splitting":{"percentBegin":70, "percentEnd":100, "strategy":"sequential"}}

Sumber data untuk pelatihan: {"splitting":{"percentBegin":70, "percentEnd":100, "strategy":"sequential", "complement":"true"}}

Untuk membuat sumber data dari pemilihan data secara acak, atur strategy parameter ke random dan berikan string yang digunakan sebagai nilai benih untuk pemisahan data acak (misalnya, Anda dapat menggunakan jalur S3 ke data Anda sebagai string benih acak). Jika Anda memilih strategi pemisahan acak, Amazon ML menetapkan setiap baris data nomor pseudo-acak, dan kemudian memilih baris yang memiliki nomor yang ditetapkan antara dan. percentBegin percentEnd Nomor pseudo-acak ditetapkan menggunakan byte offset sebagai benih, sehingga mengubah data menghasilkan pemisahan yang berbeda. Setiap pemesanan yang ada dipertahankan. Strategi pemisahan acak memastikan bahwa variabel dalam data pelatihan dan evaluasi didistribusikan dengan cara yang sama. Ini berguna dalam kasus di mana data input mungkin memiliki urutan pengurutan implisit, yang jika tidak akan menghasilkan sumber data pelatihan dan evaluasi yang berisi catatan data yang tidak serupa.

Dua DataRearrangement baris berikut adalah contoh sumber data pelatihan dan evaluasi yang tidak diurutkan secara berurutan:

Sumber data untuk evaluasi:


{
    "splitting":{
        "percentBegin":70, 
        "percentEnd":100, 
        "strategy":"random", 
        "strategyParams": {
            "randomSeed":"RANDOMSEED"
        }
    }
}

Sumber data untuk pelatihan:


{
    "splitting":{
        "percentBegin":70, 
        "percentEnd":100, 
        "strategy":"random", 
        "strategyParams": {
            "randomSeed":"RANDOMSEED"
        }
        "complement":"true"
    }
}

Nilai yang valid adalah sequential dan random.

(Opsional) Strategi: RandomSeed

Amazon ML menggunakan RandomSeed untuk membagi data. Benih default untuk API adalah string kosong. Untuk menentukan benih untuk strategi pemisahan acak, berikan string. Untuk informasi selengkapnya tentang benih acak, lihat Memisahkan Data Anda Secara Acak di Panduan Pengembang Amazon Machine Learning.

Untuk contoh kode yang menunjukkan cara menggunakan validasi silang dengan Amazon, buka Sampel Machine Learning Github.

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Referensi Transformasi Data

Mengevaluasi Model ML