Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
features
Bidang dineptune_ml
Nilai properti dan literal RDF datang dalam berbagai format dan tipe data. Untuk mencapai kinerja yang baik dalam pembelajaran mesin, penting untuk mengubah nilai-nilai tersebut menjadi pengkodean numerik yang dikenal sebagai fitur.
Neptune MLmelakukan ekstraksi fitur dan pengkodean sebagai bagian dari langkah-langkah data-ekspor dan pemrosesan data, seperti yang dijelaskan dalamEncoding fitur dalam Neptune Neptune Neptune Neptune Neptune.
Untuk kumpulan data grafik properti, proses ekspor secara otomatis menyimpulkanauto
fitur untuk properti string dan untuk properti numerik yang berisi nilai kelipatan. Untuk properti numerik yang mengandung nilai tunggal, itu menyimpulkannumerical
fitur. Untuk properti tanggal itu menyimpulkandatetime
fitur.
Jika Anda ingin mengganti spesifikasi fitur yang disimpulkan secara otomatis, atau menambahkan spesifikasi bucket numerik, TF-IDF FastText, atau SBERT untuk properti, Anda dapat mengontrol pengkodean fitur menggunakan bidang fitur.
catatan
Anda hanya dapat menggunakanfeatures
bidang untuk mengontrol spesifikasi fitur untuk data grafik properti, bukan untuk data RDF.
Untuk teks bentuk bebas, Neptune MLdapat menggunakan beberapa model yang berbeda untuk mengubah urutan token dalam nilai properti string menjadi vektor nilai nyata ukuran tetap:
text_fasttext- Menggunakan pengkodean fastText
. Ini adalah pengkodean yang direkomendasikan untuk fitur yang menggunakan satu dan hanya satu dari lima bahasa yang didukung fastText. text_sbert- Menggunakan model pengkodean Kalimat BERT
(SBERT). Ini adalah pengkodean yang disarankan untuk teks yang text_fasttext
tidak mendukung.text_word2vec- Menggunakan algoritma Word2Vec
yang awalnya diterbitkan oleh Google untuk menyandikan teks. Word2Vec hanya mendukung bahasa Inggris. text_tfidf- Menggunakan istilah frekuensi — frekuensi dokumen terbalik
(TF-IDF) vectorizer untuk encoding teks. TF-IDF encoding mendukung fitur statistik bahwa pengkodean lainnya tidak.
features
Bidang berisi array JSON fitur properti simpul. Objek dalam array dapat berisi kolom berikut:
Daftar Isi
node
Bidang difeatures
node
Bidang menentukan label properti-grafik dari vertex fitur. Misalnya:
"node": "Person"
Jika sebuah vertex memiliki beberapa label, gunakan array untuk memuat mereka. Misalnya:
"node": ["Admin", "Person"]
edge
Bidang difeatures
edge
Bidang menentukan jenis tepi tepi fitur. Tipe edge terdiri dari array yang berisi label properti-grafik dari vertex sumber, label properti-grafik dari edge, dan label properti-grafik dari vertex tujuan. Anda harus menyediakan ketiga nilai saat menentukan fitur tepi. Misalnya:
"edge": ["User", "reviewed", "Movie"]
Jika titik sumber atau tujuan dari tipe tepi memiliki beberapa label, gunakan array lain untuk menampungnya. Misalnya:
"edge": [["Admin", "Person"]. "edited", "Post"]
property
Bidang difeatures
Gunakan parameter properti untuk menentukan properti dari titik diidentifikasi olehnode
parameter. Misalnya:
"property" : "age"
Nilai yang mungkin daritype
bidang untuk fitur
type
Parameter menentukan tipe fitur yang didefinisikan. Misalnya:
"type": "bucket_numerical"
Nilai yang mungkin daritype
parameter
-
"auto"
- Menentukan bahwa Neptune MLharus secara otomatis mendeteksi jenis properti dan menerapkan pengkodean fitur yang tepat.auto
Fitur juga dapat memilikiseparator
bidang opsional. -
"category"
- Pengkodean fitur ini mewakili nilai properti sebagai salah satu dari sejumlah kategori. Dengan kata lain, fitur dapat mengambil satu atau lebih nilai diskrit.category
Fitur juga dapat memilikiseparator
bidang opsional.Lihat Fitur kategoris dalam Neptune Neptune Neptune Neptune Neptune MLs.
-
"numerical"
- Pengkodean fitur ini mewakili nilai properti numerik sebagai angka dalam interval kontinu di mana “lebih besar dari” dan “kurang dari” memiliki makna.Sebuah
numerical
fitur juga dapat memiliki opsionalnorm
,imputer
, danseparator
bidang.Lihat Fitur numerik dalam Neptune Neptune Neptune Neptune MLs.
-
"bucket_numerical"
- Pengkodean fitur ini membagi nilai properti numerik menjadi satu set ember atau kategori.Misalnya, Anda dapat menyandikan usia orang dalam 4 ember: anak-anak (0-20), dewasa muda (20-40), paruh baya (40-60), dan orang tua (60 ke atas).
Sebuah
bucket_numerical
fitur membutuhkanrange
danbucket_cnt
bidang, dan opsional juga dapat mencakupimputer
dan/atauslide_window_size
bidang. -
"datetime"
- Pengkodean fitur ini mewakili nilai properti datetime sebagai array dari fitur kategoris ini: tahun, bulan, hari kerja, dan jam.Satu atau lebih dari empat kategori ini dapat dihilangkan dengan menggunakan
datetime_parts
parameter. -
"text_fasttext"
- Pengkodean fitur ini mengubah nilai properti yang terdiri dari kalimat atau teks bentuk bebas menjadi vektor numerik menggunakan model fastText. Ini mendukung lima bahasa, yaitu Inggris ( en
), China (zh
), Hindi (hi
), Spanyol (es
), dan Prancis (fr
). Untuk nilai properti teks dalam salah satu lima bahasa,text_fasttext
adalah encoding direkomendasikan. Namun, ia tidak dapat menangani kasus di mana kalimat yang sama berisi kata-kata dalam lebih dari satu bahasa.Untuk bahasa lain selain bahasa yang didukung fastText, gunakan
text_sbert
pengkodean.Jika Anda memiliki banyak string teks nilai properti lebih lama dari, katakanlah, 120 token, gunakan
max_length
bidang untuk membatasi jumlah token di setiap string yang"text_fasttext"
mengkodekan.Lihat Pengkodean fastText nilai properti teks di Neptune ML.
-
"text_sbert"
- Pengkodean ini mengubah nilai properti teks menjadi vektor numerik menggunakan model Sentence BERT(SBERT). Neptune mendukung dua metode SBERT, yaitu text_sbert128
, yang merupakan default jika Anda hanya menentukantext_sbert
, dantext_sbert512
. Perbedaan antara mereka adalah jumlah maksimum token dalam properti teks yang akan dikodekan.text_sbert128
Pengkodean hanya mengkodekan 128 token pertama, sementaratext_sbert512
mengkodekan hingga 512 token. Akibatnya, penggunaantext_sbert512
dapat membutuhkan lebih banyak waktu pemrosesan daripadatext_sbert128
. Kedua metode lebih lambat daritext_fasttext
.text_sbert
Metode mendukung banyak bahasa, dan dapat menyandikan kalimat yang berisi lebih dari satu bahasa.*
Lihat Kalimat BERT (SBERT) pengkodean fitur teks di Neptune.
-
"text_word2vec"
- Pengkodean ini mengubah nilai properti teks menjadi vektor numerik menggunakan algoritma Word2Vec. Ini hanya mendukung bahasa Inggris. -
"text_tfidf"
- Pengkodean ini mengubah nilai properti teks menjadi vektor numerik menggunakan frekuensi istilah — vektor frekuensi dokumen terbalik(TF-IDF). Anda menentukan parameter pengkodean
text_tfidf
fitur menggunakanngram_range
bidang,min_df
bidang, danmax_features
bidang. -
"none"
- Menggunakannone
jenis menyebabkan tidak ada pengkodean fitur terjadi. Nilai properti mentah diurai dan disimpan sebagai gantinya.Gunakan
none
hanya jika Anda berencana untuk melakukan pengkodean fitur khusus Anda sendiri sebagai bagian dari pelatihan model khusus.
norm
Bidang
Bidang ini diperlukan untuk fitur numerik. Ini menentukan metode normalisasi untuk digunakan pada nilai numerik:
"norm": "min-max"
Mendukung metode normalisasi berikut:
-
“min-max” — Menormalkan setiap nilai dengan mengurangi nilai minimum darinya dan kemudian membaginya dengan perbedaan antara nilai maksimum dan minimum.
-
“standard” — Menormalkan setiap nilai dengan membaginya dengan jumlah semua nilai.
-
“none” - Jangan menormalkan nilai numerik selama pengkodean.
Lihat Fitur numerik dalam Neptune Neptune Neptune Neptune MLs.
language
Bidang
Bidang bahasa menentukan bahasa yang digunakan dalam nilai properti teks. Penggunaannya tergantung pada metode pengkodean teks:
-
Untuk text_fasttextpengkodean, bidang ini diperlukan, dan harus menentukan salah satu bahasa berikut:
en
(Bahasa Inggris)zh
(Mandarin)hi
(Hindi)es
(Spanyol)fr
(Perancis)
Untuk text_sbertpengkodean, bidang ini tidak digunakan, karena pengkodean SBERT bersifat multibahasa.
-
Untuk text_word2vecpengkodean, bidang ini opsional, karena
text_word2vec
hanya mendukung bahasa Inggris. Jika ada, itu harus menentukan nama model bahasa Inggris:"language" : "en_core_web_lg"
Untuk text_tfidfpengkodean, bidang ini tidak digunakan.
max_length
Bidang
max_length
Bidang ini opsional untuktext_fasttext
fitur, di mana ia menentukan jumlah maksimum token dalam fitur teks input yang akan dikodekan. Masukan teks yangmax_length
lebih panjang dari dipotong. Misalnya, pengaturan max_length ke 128 menunjukkan bahwa token apa pun setelah 128 dalam urutan teks akan diabaikan:
"max_length": 128
separator
Bidang
Bidang ini digunakan opsional dengancategory
,numerical
danauto
fitur. Ini menentukan karakter yang dapat digunakan untuk membagi nilai properti menjadi beberapa nilai kategoris atau nilai numerik:
"separator": ";"
Hanya gunakanseparator
kolom ketika properti menyimpan beberapa nilai dibatasi dalam string tunggal, seperti"Actor;Director"
or"0.1;0.2"
.
LihatFitur kategoris,Fitur numerik, danEncoding otomatis.
range
Bidang
Bidang ini diperlukan untukbucket_numerical
fitur. Ini menentukan kisaran nilai numerik yang akan dibagi menjadi ember, dalam format[
:lower-bound
, upper-bound
]
"range" : [20, 100]
Jika nilai properti lebih kecil dari batas bawah maka ditugaskan ke bucket pertama, atau jika lebih besar dari batas atas, itu ditetapkan ke bucket terakhir.
Lihat Fitur ember-numerik di Neptune.
bucket_cnt
Bidang
Bidang ini diperlukan untukbucket_numerical
fitur. Ini menentukan jumlah ember bahwa rentang numerik yang didefinisikan olehrange
parameter harus dibagi menjadi:
"bucket_cnt": 10
Lihat Fitur ember-numerik di Neptune.
slide_window_size
Bidang
Bidang ini digunakan secara opsional denganbucket_numerical
fitur untuk menetapkan nilai ke lebih dari satu bucket:
"slide_window_size": 5
Cara kerja jendela slide adalah bahwa Neptune MLmengambil ukuran jendela s
dan mengubah setiap nilai v
numerik properti menjadi rentang dari v - s/2
melalui v + s/2
. Nilai tersebut kemudian ditetapkan ke setiap bucket yang rentang tumpang tindih.
Lihat Fitur ember-numerik di Neptune.
imputer
Bidang
Bidang ini digunakan secara opsional dengannumerical
danbucket_numerical
fitur untuk memberikan teknik imputasi untuk mengisi nilai yang hilang:
"imputer": "mean"
Teknik imputasi yang didukung adalah:
"mean"
"median"
"most-frequent"
Jika Anda tidak menyertakan parameter komputer, preprocessing data akan berhenti dan keluar saat nilai yang hilang ditemukan.
Lihat Fitur numerik dalam Neptune Neptune Neptune Neptune MLs dan Fitur ember-numerik di Neptune.
max_features
Bidang
Bidang ini digunakan secara opsional olehtext_tfidf
fitur untuk menentukan jumlah istilah maksimum untuk dikodekan:
"max_features": 100
Pengaturan 100 menyebabkan vectorizer TF-IDF hanya menyandikan 100 istilah yang paling umum. Nilai default jika Anda tidak menyertakanmax_features
adalah 5.000.
Lihat Pengkodean fitur teks TF-IDF di Neptune ML.
min_df
Bidang
Bidang ini digunakan secara opsional olehtext_tfidf
fitur untuk menentukan frekuensi dokumen minimum istilah untuk dikodekan:
"min_df": 5
Pengaturan 5 menunjukkan bahwa istilah harus muncul dalam setidaknya 5 nilai properti yang berbeda untuk dikodekan.
Nilai default jika Anda tidak menyertakanmin_df
parameter adalah2
.
Lihat Pengkodean fitur teks TF-IDF di Neptune ML.
ngram_range
Bidang
Bidang ini digunakan secara opsional olehtext_tfidf
fitur untuk menentukan urutan ukuran kata atau token apa yang harus dianggap sebagai istilah individu potensional untuk dikodekan:
"ngram_range": [2, 4]
Nilai[2, 4]
menentukan bahwa urutan 2, 3 dan 4 kata harus dianggap sebagai istilah individu potensional.
Default jika Anda tidak menyetel secara eksplisitngram_range
adalah[1, 1]
, artinya hanya satu kata atau token yang dianggap sebagai istilah untuk dikodekan.
Lihat Pengkodean fitur teks TF-IDF di Neptune ML.
datetime_parts
Bidang
Bidang ini digunakan secara opsional olehdatetime
fitur untuk menentukan bagian mana dari nilai datetime untuk dikodekan secara kategoris:
"datetime_parts": ["weekday", "hour"]
Jika Anda tidak menyertakandatetime_parts
, secara default Neptune MLmengkodekan tahun, bulan, hari kerja, dan jam bagian dari nilai datetime. Nilai["weekday", "hour"]
menunjukkan bahwa hanya hari kerja dan jam dari nilai datetime yang harus dikodekan secara kategoris dalam fitur.
Jika salah satu bagian tidak memiliki lebih dari satu nilai unik dalam set pelatihan, itu tidak dikodekan.
Lihat Fitur Datetime di Neptune MLs.