Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Data tabular
Data tabular mengacu pada data yang dapat dimuat ke dalam bingkai data dua dimensi. Dalam bingkai, setiap baris mewakili catatan, dan setiap catatan memiliki satu atau lebih kolom. Nilai dalam setiap sel bingkai data dapat berupa tipe data numerik, kategoris, atau teks.
Prasyarat kumpulan data tabel
Sebelum analisis, dataset Anda seharusnya memiliki langkah-langkah pra-pemrosesan yang diperlukan yang sudah diterapkan. Ini termasuk pembersihan data atau rekayasa fitur.
Anda dapat menyediakan satu atau beberapa kumpulan data. Jika Anda menyediakan beberapa kumpulan data, gunakan yang berikut ini untuk mengidentifikasinya ke pekerjaan pemrosesan SageMaker Clarify.
-
Gunakan konfigurasi ProcessingInputbernama
dataset
atau analisisdataset_uri
untuk menentukan kumpulan data utama. Untuk informasi selengkapnyadataset_uri
, lihat daftar parameter diFile Konfigurasi Analisis. -
Gunakan
baseline
parameter yang disediakan dalam file konfigurasi analisis. Dataset dasar diperlukan untuk analisis. SHAP Untuk informasi selengkapnya tentang file konfigurasi analisis, termasuk contoh, lihatFile Konfigurasi Analisis.
Tabel berikut mencantumkan format data yang didukung, ekstensi file, dan MIME jenisnya.
Format data | Ekstensi file | MIMEjenis |
---|---|---|
CSV |
csv |
|
JSONGaris |
jsonl |
|
JSON |
json |
|
Parquet |
parquet |
“aplikasi/x-parket” |
Bagian berikut menunjukkan contoh kumpulan data tabular dalam formatCSV, JSON Garis, dan Parket Apache.
Pekerjaan pemrosesan SageMaker Clarify dirancang untuk memuat file CSV data dalam dialek csv.excel.\n
dan\r
.
Untuk kompatibilitas, semua file CSV data yang disediakan untuk pekerjaan pemrosesan SageMaker Clarify harus dikodekan dalam UTF -8.
Jika dataset Anda tidak berisi baris header, lakukan hal berikut:
-
Atur label konfigurasi analisis ke indeks
0
. Ini berarti bahwa kolom pertama adalah label kebenaran dasar. -
Jika parameter
headers
diatur, aturlabel
ke header kolom label untuk menunjukkan lokasi kolom label. Semua kolom lainnya ditetapkan sebagai fitur.Berikut ini adalah contoh dari dataset yang tidak berisi baris header.
1,5,2.8,2.538,This is a good product 0,1,0.79,0.475,Bad shopping experience ...
Jika data Anda berisi baris header, atur parameter label
ke indeks0
. Untuk menunjukkan lokasi kolom label, gunakan header label kebenaran dasarLabel
. Semua kolom lainnya ditetapkan sebagai fitur.
Berikut ini adalah contoh dari dataset yang berisi baris header.
Label,Rating,A12,A13,Comments 1,5,2.8,2.538,This is a good product 0,1,0.79,0.475,Bad shopping experience ...
JSONadalah format fleksibel untuk mewakili data terstruktur yang berisi tingkat kompleksitas apa pun. Dukungan SageMaker Clarify untuk JSON tidak terbatas pada format tertentu dan dengan demikian memungkinkan format data yang lebih fleksibel dibandingkan dengan kumpulan data dalam format CSV atau JSON Garis. Panduan ini menunjukkan cara mengatur konfigurasi analisis untuk data tabular dalam JSON format.
catatan
Untuk memastikan kompatibilitas, semua file JSON data yang disediakan untuk pekerjaan pemrosesan SageMaker Clarify harus dikodekan dalam UTF -8.
Berikut ini adalah contoh data input dengan catatan yang berisi kunci tingkat atas, daftar fitur, dan label.
[ {"features":[1,5,2.8,2.538,"This is a good product"],"label":1}, {"features":[0,1,0.79,0.475,"Bad shopping experience"],"label":0}, ... ]
Contoh analisis konfigurasi untuk contoh dataset input sebelumnya harus menetapkan parameter berikut:
-
label
Parameter harus menggunakan JMESPathekspresi [*].label
untuk mengekstrak label kebenaran dasar untuk setiap catatan dalam kumpulan data. JMESPathEkspresi harus menghasilkan daftar label di mana label ke-i sesuai dengan catatan ke-i. -
features
Parameter harus menggunakan JMESPath ekspresi[*].features
untuk mengekstrak array fitur untuk setiap record dalam dataset. JMESPathEkspresi harus menghasilkan array 2D atau matriks di mana baris ke-i berisi nilai fitur yang sesuai dengan catatan ke-i.Berikut ini adalah contoh data masukan dengan catatan yang berisi kunci tingkat atas dan kunci bersarang yang berisi daftar fitur dan label untuk setiap rekaman.
{ "data": [ {"features":[1,5,2.8,2.538,"This is a good product"],"label":1}}, {"features":[0,1,0.79,0.475,"Bad shopping experience"],"label":0}} ] }
Contoh analisis konfigurasi untuk contoh dataset input sebelumnya harus menetapkan parameter berikut:
-
label
Parameter menggunakan JMESPathekspresi data[*].label
untuk mengekstrak label kebenaran dasar untuk setiap catatan dalam kumpulan data. JMESPathEkspresi harus menghasilkan daftar label di mana label i th adalah untuk catatan ke-i. -
features
Parameter menggunakan JMESPath ekspresidata[*].features
untuk mengekstrak array fitur, untuk setiap catatan dalam dataset. JMESPathEkspresi harus menghasilkan array 2D atau matriks di mana baris ke-i berisi nilai fitur untuk catatan ke-i.
JSONGaris adalah format teks untuk mewakili data terstruktur di mana setiap baris adalah JSON objek yang valid. Saat ini pekerjaan pemrosesan SageMaker Clarify hanya mendukung JSON Garis Format SageMaker Padat. Agar sesuai dengan format yang diperlukan, semua fitur catatan harus dicantumkan dalam satu JSON array. Untuk informasi selengkapnya tentang JSON Garis, lihatJSONLINESformat permintaan.
catatan
Semua file data JSON Lines yang disediakan untuk pekerjaan pemrosesan SageMaker Clarify harus dikodekan dalam UTF -8 untuk memastikan kompatibilitas.
Berikut ini adalah contoh cara mengatur konfigurasi analisis untuk catatan yang berisi kunci tingkat atas dan daftar elemen.
{"features":[1,5,2.8,2.538,"This is a good product"],"label":1} {"features":[0,1,0.79,0.475,"Bad shopping experience"],"label":0} ...
Analisis konfigurasi untuk contoh kumpulan data sebelumnya harus menetapkan parameter sebagai berikut:
-
Untuk menunjukkan lokasi label kebenaran dasar, parameter
label
harus diatur ke JMESPath ekspresilabel
. -
Untuk menunjukkan lokasi array fitur, parameter
features
harus diatur ke JMESPath ekspresifeatures
.
Berikut ini adalah contoh cara mengatur konfigurasi analisis untuk catatan yang berisi kunci tingkat atas dan kunci bersarang yang berisi daftar elemen.
{"data":{"features":[1,5,2.8,2.538,"This is a good product"],"label":1}} {"data":{"features":[0,1,0.79,0.475,"Bad shopping experience"],"label":0}} ...
Analisis konfigurasi untuk contoh kumpulan data sebelumnya harus menetapkan parameter sebagai berikut:
-
Parameter
label
harus diatur ke JMESPath ekspresidata.label
untuk menunjukkan lokasi label kebenaran dasar. -
Parameter
features
harus diaturdata.features
ke JMESPath ekspresi untuk menunjukkan lokasi array fitur.
Parket1
Karena pekerjaan pemrosesan SageMaker Klarifikasi tidak mendukung permintaan titik akhir atau respons titik akhir dalam format Parket, Anda harus menentukan format data permintaan titik akhir dengan menyetel parameter konfigurasi analisis content_type
ke format yang didukung. Untuk informasi selengkapnya, lihat content_type
di File Konfigurasi Analisis.
Data Parket harus memiliki nama kolom yang diformat sebagai string. Gunakan label
parameter konfigurasi analisis untuk mengatur nama kolom label untuk menunjukkan lokasi label kebenaran dasar. Semua kolom lainnya ditetapkan sebagai fitur.