Data tabular - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Data tabular

Data tabular mengacu pada data yang dapat dimuat ke dalam bingkai data dua dimensi. Dalam bingkai, setiap baris mewakili catatan, dan setiap catatan memiliki satu atau lebih kolom. Nilai dalam setiap sel bingkai data dapat berupa tipe data numerik, kategoris, atau teks.

Prasyarat kumpulan data tabel

Sebelum analisis, dataset Anda seharusnya memiliki langkah-langkah pra-pemrosesan yang diperlukan yang sudah diterapkan. Ini termasuk pembersihan data atau rekayasa fitur.

Anda dapat menyediakan satu atau beberapa kumpulan data. Jika Anda menyediakan beberapa kumpulan data, gunakan yang berikut ini untuk mengidentifikasinya ke pekerjaan pemrosesan SageMaker Clarify.

  • Gunakan konfigurasi ProcessingInputbernama dataset atau analisis dataset_uri untuk menentukan kumpulan data utama. Untuk informasi selengkapnyadataset_uri, lihat daftar parameter diFile Konfigurasi Analisis.

  • Gunakan baseline parameter yang disediakan dalam file konfigurasi analisis. Dataset dasar diperlukan untuk analisis. SHAP Untuk informasi selengkapnya tentang file konfigurasi analisis, termasuk contoh, lihatFile Konfigurasi Analisis.

Tabel berikut mencantumkan format data yang didukung, ekstensi file, dan MIME jenisnya.

Format data Ekstensi file MIMEjenis

CSV

csv

text/csv

JSONGaris

jsonl

application/jsonlines

JSON

json

application/json

Parquet

parquet

“aplikasi/x-parket”

Bagian berikut menunjukkan contoh kumpulan data tabular dalam formatCSV, JSON Garis, dan Parket Apache.

Pekerjaan pemrosesan SageMaker Clarify dirancang untuk memuat file CSV data dalam dialek csv.excel. Namun, ini cukup fleksibel untuk mendukung terminator baris lainnya, termasuk \n dan\r.

Untuk kompatibilitas, semua file CSV data yang disediakan untuk pekerjaan pemrosesan SageMaker Clarify harus dikodekan dalam UTF -8.

Jika dataset Anda tidak berisi baris header, lakukan hal berikut:

  • Atur label konfigurasi analisis ke indeks0. Ini berarti bahwa kolom pertama adalah label kebenaran dasar.

  • Jika parameter headers diatur, atur label ke header kolom label untuk menunjukkan lokasi kolom label. Semua kolom lainnya ditetapkan sebagai fitur.

    Berikut ini adalah contoh dari dataset yang tidak berisi baris header.

    1,5,2.8,2.538,This is a good product 0,1,0.79,0.475,Bad shopping experience ...

Jika data Anda berisi baris header, atur parameter label ke indeks0. Untuk menunjukkan lokasi kolom label, gunakan header label kebenaran dasarLabel. Semua kolom lainnya ditetapkan sebagai fitur.

Berikut ini adalah contoh dari dataset yang berisi baris header.

Label,Rating,A12,A13,Comments 1,5,2.8,2.538,This is a good product 0,1,0.79,0.475,Bad shopping experience ...

JSONadalah format fleksibel untuk mewakili data terstruktur yang berisi tingkat kompleksitas apa pun. Dukungan SageMaker Clarify untuk JSON tidak terbatas pada format tertentu dan dengan demikian memungkinkan format data yang lebih fleksibel dibandingkan dengan kumpulan data dalam format CSV atau JSON Garis. Panduan ini menunjukkan cara mengatur konfigurasi analisis untuk data tabular dalam JSON format.

catatan

Untuk memastikan kompatibilitas, semua file JSON data yang disediakan untuk pekerjaan pemrosesan SageMaker Clarify harus dikodekan dalam UTF -8.

Berikut ini adalah contoh data input dengan catatan yang berisi kunci tingkat atas, daftar fitur, dan label.

[ {"features":[1,5,2.8,2.538,"This is a good product"],"label":1}, {"features":[0,1,0.79,0.475,"Bad shopping experience"],"label":0}, ... ]

Contoh analisis konfigurasi untuk contoh dataset input sebelumnya harus menetapkan parameter berikut:

  • labelParameter harus menggunakan JMESPathekspresi [*].label untuk mengekstrak label kebenaran dasar untuk setiap catatan dalam kumpulan data. JMESPathEkspresi harus menghasilkan daftar label di mana label ke-i sesuai dengan catatan ke-i.

  • featuresParameter harus menggunakan JMESPath ekspresi [*].features untuk mengekstrak array fitur untuk setiap record dalam dataset. JMESPathEkspresi harus menghasilkan array 2D atau matriks di mana baris ke-i berisi nilai fitur yang sesuai dengan catatan ke-i.

    Berikut ini adalah contoh data masukan dengan catatan yang berisi kunci tingkat atas dan kunci bersarang yang berisi daftar fitur dan label untuk setiap rekaman.

{ "data": [ {"features":[1,5,2.8,2.538,"This is a good product"],"label":1}}, {"features":[0,1,0.79,0.475,"Bad shopping experience"],"label":0}} ] }

Contoh analisis konfigurasi untuk contoh dataset input sebelumnya harus menetapkan parameter berikut:

  • labelParameter menggunakan JMESPathekspresi data[*].label untuk mengekstrak label kebenaran dasar untuk setiap catatan dalam kumpulan data. JMESPathEkspresi harus menghasilkan daftar label di mana label i th adalah untuk catatan ke-i.

  • featuresParameter menggunakan JMESPath ekspresi data[*].features untuk mengekstrak array fitur, untuk setiap catatan dalam dataset. JMESPathEkspresi harus menghasilkan array 2D atau matriks di mana baris ke-i berisi nilai fitur untuk catatan ke-i.

JSONGaris adalah format teks untuk mewakili data terstruktur di mana setiap baris adalah JSON objek yang valid. Saat ini pekerjaan pemrosesan SageMaker Clarify hanya mendukung JSON Garis Format SageMaker Padat. Agar sesuai dengan format yang diperlukan, semua fitur catatan harus dicantumkan dalam satu JSON array. Untuk informasi selengkapnya tentang JSON Garis, lihatJSONLINESformat permintaan.

catatan

Semua file data JSON Lines yang disediakan untuk pekerjaan pemrosesan SageMaker Clarify harus dikodekan dalam UTF -8 untuk memastikan kompatibilitas.

Berikut ini adalah contoh cara mengatur konfigurasi analisis untuk catatan yang berisi kunci tingkat atas dan daftar elemen.

{"features":[1,5,2.8,2.538,"This is a good product"],"label":1} {"features":[0,1,0.79,0.475,"Bad shopping experience"],"label":0} ...

Analisis konfigurasi untuk contoh kumpulan data sebelumnya harus menetapkan parameter sebagai berikut:

  • Untuk menunjukkan lokasi label kebenaran dasar, parameter label harus diatur ke JMESPath ekspresilabel.

  • Untuk menunjukkan lokasi array fitur, parameter features harus diatur ke JMESPath ekspresifeatures.

Berikut ini adalah contoh cara mengatur konfigurasi analisis untuk catatan yang berisi kunci tingkat atas dan kunci bersarang yang berisi daftar elemen.

{"data":{"features":[1,5,2.8,2.538,"This is a good product"],"label":1}} {"data":{"features":[0,1,0.79,0.475,"Bad shopping experience"],"label":0}} ...

Analisis konfigurasi untuk contoh kumpulan data sebelumnya harus menetapkan parameter sebagai berikut:

  • Parameter label harus diatur ke JMESPath ekspresi data.label untuk menunjukkan lokasi label kebenaran dasar.

  • Parameter features harus diatur data.features ke JMESPath ekspresi untuk menunjukkan lokasi array fitur.

Parket adalah format data biner berorientasi kolom. Saat ini, SageMaker pekerjaan pemrosesan Clarify mendukung pemuatan file data Parket hanya ketika jumlah instance pemrosesan. 1

Karena pekerjaan pemrosesan SageMaker Klarifikasi tidak mendukung permintaan titik akhir atau respons titik akhir dalam format Parket, Anda harus menentukan format data permintaan titik akhir dengan menyetel parameter konfigurasi analisis content_type ke format yang didukung. Untuk informasi selengkapnya, lihat content_type di File Konfigurasi Analisis.

Data Parket harus memiliki nama kolom yang diformat sebagai string. Gunakan label parameter konfigurasi analisis untuk mengatur nama kolom label untuk menunjukkan lokasi label kebenaran dasar. Semua kolom lainnya ditetapkan sebagai fitur.