featuresBidang dineptune_ml - Amazon Neptune

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

featuresBidang dineptune_ml

Nilai properti dan literal RDF datang dalam berbagai format dan tipe data. Untuk mencapai kinerja yang baik dalam pembelajaran mesin, penting untuk mengubah nilai-nilai tersebut menjadi pengkodean numerik yang dikenal sebagai fitur.

Neptune MLmelakukan ekstraksi fitur dan pengkodean sebagai bagian dari langkah-langkah data-ekspor dan pemrosesan data, seperti yang dijelaskan dalamEncoding fitur dalam Neptune Neptune Neptune Neptune Neptune.

Untuk kumpulan data grafik properti, proses ekspor secara otomatis menyimpulkanauto fitur untuk properti string dan untuk properti numerik yang berisi nilai kelipatan. Untuk properti numerik yang mengandung nilai tunggal, itu menyimpulkannumerical fitur. Untuk properti tanggal itu menyimpulkandatetime fitur.

Jika Anda ingin mengganti spesifikasi fitur yang disimpulkan secara otomatis, atau menambahkan spesifikasi bucket numerik, TF-IDF FastText, atau SBERT untuk properti, Anda dapat mengontrol pengkodean fitur menggunakan bidang fitur.

catatan

Anda hanya dapat menggunakanfeatures bidang untuk mengontrol spesifikasi fitur untuk data grafik properti, bukan untuk data RDF.

Untuk teks bentuk bebas, Neptune MLdapat menggunakan beberapa model yang berbeda untuk mengubah urutan token dalam nilai properti string menjadi vektor nilai nyata ukuran tetap:

  • text_fasttext- Menggunakan pengkodean fastText. Ini adalah pengkodean yang direkomendasikan untuk fitur yang menggunakan satu dan hanya satu dari lima bahasa yang didukung fastText.

  • text_sbert- Menggunakan model pengkodean Kalimat BERT (SBERT). Ini adalah pengkodean yang disarankan untuk teks yangtext_fasttext tidak mendukung.

  • text_word2vec- Menggunakan algoritma Word2Vec yang awalnya diterbitkan oleh Google untuk menyandikan teks. Word2Vec hanya mendukung bahasa Inggris.

  • text_tfidf- Menggunakan istilah frekuensi — frekuensi dokumen terbalik (TF-IDF) vectorizer untuk encoding teks. TF-IDF encoding mendukung fitur statistik bahwa pengkodean lainnya tidak.

featuresBidang berisi array JSON fitur properti simpul. Objek dalam array dapat berisi kolom berikut:

nodeBidang difeatures

nodeBidang menentukan label properti-grafik dari vertex fitur. Misalnya:

"node": "Person"

Jika sebuah vertex memiliki beberapa label, gunakan array untuk memuat mereka. Misalnya:

"node": ["Admin", "Person"]

edgeBidang difeatures

edgeBidang menentukan jenis tepi tepi fitur. Tipe edge terdiri dari array yang berisi label properti-grafik dari vertex sumber, label properti-grafik dari edge, dan label properti-grafik dari vertex tujuan. Anda harus menyediakan ketiga nilai saat menentukan fitur tepi. Misalnya:

"edge": ["User", "reviewed", "Movie"]

Jika titik sumber atau tujuan dari tipe tepi memiliki beberapa label, gunakan array lain untuk menampungnya. Misalnya:

"edge": [["Admin", "Person"]. "edited", "Post"]

propertyBidang difeatures

Gunakan parameter properti untuk menentukan properti dari titik diidentifikasi olehnode parameter. Misalnya:

"property" : "age"

Nilai yang mungkin daritype bidang untuk fitur

typeParameter menentukan tipe fitur yang didefinisikan. Misalnya:

"type": "bucket_numerical"
Nilai yang mungkin daritype parameter
  • "auto"- Menentukan bahwa Neptune MLharus secara otomatis mendeteksi jenis properti dan menerapkan pengkodean fitur yang tepat. autoFitur juga dapat memilikiseparator bidang opsional.

    Lihat Encoding fitur otomatis di Neptune MLs.

  • "category"- Pengkodean fitur ini mewakili nilai properti sebagai salah satu dari sejumlah kategori. Dengan kata lain, fitur dapat mengambil satu atau lebih nilai diskrit. categoryFitur juga dapat memilikiseparator bidang opsional.

    Lihat Fitur kategoris dalam Neptune Neptune Neptune Neptune Neptune MLs.

  • "numerical"- Pengkodean fitur ini mewakili nilai properti numerik sebagai angka dalam interval kontinu di mana “lebih besar dari” dan “kurang dari” memiliki makna.

    Sebuahnumerical fitur juga dapat memiliki opsionalnorm,imputer, danseparator bidang.

    Lihat Fitur numerik dalam Neptune Neptune Neptune Neptune MLs.

  • "bucket_numerical"- Pengkodean fitur ini membagi nilai properti numerik menjadi satu set ember atau kategori.

    Misalnya, Anda dapat menyandikan usia orang dalam 4 ember: anak-anak (0-20), dewasa muda (20-40), paruh baya (40-60), dan orang tua (60 ke atas).

    Sebuahbucket_numerical fitur membutuhkanrange danbucket_cnt bidang, dan opsional juga dapat mencakupimputer dan/atauslide_window_size bidang.

    Lihat Fitur ember-numerik di Neptune.

  • "datetime"- Pengkodean fitur ini mewakili nilai properti datetime sebagai array dari fitur kategoris ini: tahun, bulan, hari kerja, dan jam.

    Satu atau lebih dari empat kategori ini dapat dihilangkan dengan menggunakandatetime_parts parameter.

    Lihat Fitur Datetime di Neptune MLs.

  • "text_fasttext"- Pengkodean fitur ini mengubah nilai properti yang terdiri dari kalimat atau teks bentuk bebas menjadi vektor numerik menggunakan model fastText. Ini mendukung lima bahasa, yaitu Inggris (en), China (zh), Hindi (hi), Spanyol (es), dan Prancis (fr). Untuk nilai properti teks dalam salah satu lima bahasa,text_fasttext adalah encoding direkomendasikan. Namun, ia tidak dapat menangani kasus di mana kalimat yang sama berisi kata-kata dalam lebih dari satu bahasa.

    Untuk bahasa lain selain bahasa yang didukung fastText, gunakantext_sbert pengkodean.

    Jika Anda memiliki banyak string teks nilai properti lebih lama dari, katakanlah, 120 token, gunakanmax_length bidang untuk membatasi jumlah token di setiap string yang"text_fasttext" mengkodekan.

    Lihat Pengkodean fastText nilai properti teks di Neptune ML.

  • "text_sbert"- Pengkodean ini mengubah nilai properti teks menjadi vektor numerik menggunakan model Sentence BERT (SBERT). Neptune mendukung dua metode SBERT, yaitutext_sbert128, yang merupakan default jika Anda hanya menentukantext_sbert, dantext_sbert512. Perbedaan antara mereka adalah jumlah maksimum token dalam properti teks yang akan dikodekan. text_sbert128Pengkodean hanya mengkodekan 128 token pertama, sementaratext_sbert512 mengkodekan hingga 512 token. Akibatnya, penggunaantext_sbert512 dapat membutuhkan lebih banyak waktu pemrosesan daripadatext_sbert128. Kedua metode lebih lambat daritext_fasttext.

    text_sbert*Metode mendukung banyak bahasa, dan dapat menyandikan kalimat yang berisi lebih dari satu bahasa.

    Lihat Kalimat BERT (SBERT) pengkodean fitur teks di Neptune.

  • "text_word2vec"- Pengkodean ini mengubah nilai properti teks menjadi vektor numerik menggunakan algoritma Word2Vec. Ini hanya mendukung bahasa Inggris.

    Lihat Pengkodean Word2Vec fitur teks di Neptune ML.

  • "text_tfidf"- Pengkodean ini mengubah nilai properti teks menjadi vektor numerik menggunakan frekuensi istilah — vektor frekuensi dokumen terbalik (TF-IDF).

    Anda menentukan parameter pengkodeantext_tfidf fitur menggunakanngram_range bidang,min_df bidang, danmax_features bidang.

    Lihat Pengkodean fitur teks TF-IDF di Neptune ML.

  • "none"- Menggunakannone jenis menyebabkan tidak ada pengkodean fitur terjadi. Nilai properti mentah diurai dan disimpan sebagai gantinya.

    Gunakannone hanya jika Anda berencana untuk melakukan pengkodean fitur khusus Anda sendiri sebagai bagian dari pelatihan model khusus.

normBidang

Bidang ini diperlukan untuk fitur numerik. Ini menentukan metode normalisasi untuk digunakan pada nilai numerik:

"norm": "min-max"

Mendukung metode normalisasi berikut:

  • “min-max” — Menormalkan setiap nilai dengan mengurangi nilai minimum darinya dan kemudian membaginya dengan perbedaan antara nilai maksimum dan minimum.

  • “standard” — Menormalkan setiap nilai dengan membaginya dengan jumlah semua nilai.

  • “none” - Jangan menormalkan nilai numerik selama pengkodean.

Lihat Fitur numerik dalam Neptune Neptune Neptune Neptune MLs.

languageBidang

Bidang bahasa menentukan bahasa yang digunakan dalam nilai properti teks. Penggunaannya tergantung pada metode pengkodean teks:

  • Untuk text_fasttextpengkodean, bidang ini diperlukan, dan harus menentukan salah satu bahasa berikut:

    • en(Bahasa Inggris)

    • zh(Mandarin)

    • hi(Hindi)

    • es(Spanyol)

    • fr(Perancis)

  • Untuk text_sbertpengkodean, bidang ini tidak digunakan, karena pengkodean SBERT bersifat multibahasa.

  • Untuk text_word2vecpengkodean, bidang ini opsional, karenatext_word2vec hanya mendukung bahasa Inggris. Jika ada, itu harus menentukan nama model bahasa Inggris:

    "language" : "en_core_web_lg"
  • Untuk text_tfidfpengkodean, bidang ini tidak digunakan.

max_lengthBidang

max_lengthBidang ini opsional untuktext_fasttext fitur, di mana ia menentukan jumlah maksimum token dalam fitur teks input yang akan dikodekan. Masukan teks yangmax_length lebih panjang dari dipotong. Misalnya, pengaturan max_length ke 128 menunjukkan bahwa token apa pun setelah 128 dalam urutan teks akan diabaikan:

"max_length": 128

separatorBidang

Bidang ini digunakan opsional dengancategory,numerical danauto fitur. Ini menentukan karakter yang dapat digunakan untuk membagi nilai properti menjadi beberapa nilai kategoris atau nilai numerik:

"separator": ";"

Hanya gunakanseparator kolom ketika properti menyimpan beberapa nilai dibatasi dalam string tunggal, seperti"Actor;Director" or"0.1;0.2".

LihatFitur kategoris,Fitur numerik, danEncoding otomatis.

rangeBidang

Bidang ini diperlukan untukbucket_numerical fitur. Ini menentukan kisaran nilai numerik yang akan dibagi menjadi ember, dalam format[lower-bound, upper-bound]:

"range" : [20, 100]

Jika nilai properti lebih kecil dari batas bawah maka ditugaskan ke bucket pertama, atau jika lebih besar dari batas atas, itu ditetapkan ke bucket terakhir.

Lihat Fitur ember-numerik di Neptune.

bucket_cntBidang

Bidang ini diperlukan untukbucket_numerical fitur. Ini menentukan jumlah ember bahwa rentang numerik yang didefinisikan olehrange parameter harus dibagi menjadi:

"bucket_cnt": 10

Lihat Fitur ember-numerik di Neptune.

slide_window_sizeBidang

Bidang ini digunakan secara opsional denganbucket_numerical fitur untuk menetapkan nilai ke lebih dari satu bucket:

"slide_window_size": 5

Cara kerja jendela slide adalah bahwa Neptune MLmengambil ukuran jendela sdan mengubah setiap nilai vnumerik properti menjadi rentang dari v - s/2 melalui v + s/2 . Nilai tersebut kemudian ditetapkan ke setiap bucket yang rentang tumpang tindih.

Lihat Fitur ember-numerik di Neptune.

imputerBidang

Bidang ini digunakan secara opsional dengannumerical danbucket_numerical fitur untuk memberikan teknik imputasi untuk mengisi nilai yang hilang:

"imputer": "mean"

Teknik imputasi yang didukung adalah:

  • "mean"

  • "median"

  • "most-frequent"

Jika Anda tidak menyertakan parameter komputer, preprocessing data akan berhenti dan keluar saat nilai yang hilang ditemukan.

Lihat Fitur numerik dalam Neptune Neptune Neptune Neptune MLs dan Fitur ember-numerik di Neptune.

max_featuresBidang

Bidang ini digunakan secara opsional olehtext_tfidf fitur untuk menentukan jumlah istilah maksimum untuk dikodekan:

"max_features": 100

Pengaturan 100 menyebabkan vectorizer TF-IDF hanya menyandikan 100 istilah yang paling umum. Nilai default jika Anda tidak menyertakanmax_features adalah 5.000.

Lihat Pengkodean fitur teks TF-IDF di Neptune ML.

min_dfBidang

Bidang ini digunakan secara opsional olehtext_tfidf fitur untuk menentukan frekuensi dokumen minimum istilah untuk dikodekan:

"min_df": 5

Pengaturan 5 menunjukkan bahwa istilah harus muncul dalam setidaknya 5 nilai properti yang berbeda untuk dikodekan.

Nilai default jika Anda tidak menyertakanmin_df parameter adalah2.

Lihat Pengkodean fitur teks TF-IDF di Neptune ML.

ngram_rangeBidang

Bidang ini digunakan secara opsional olehtext_tfidf fitur untuk menentukan urutan ukuran kata atau token apa yang harus dianggap sebagai istilah individu potensional untuk dikodekan:

"ngram_range": [2, 4]

Nilai[2, 4] menentukan bahwa urutan 2, 3 dan 4 kata harus dianggap sebagai istilah individu potensional.

Default jika Anda tidak menyetel secara eksplisitngram_range adalah[1, 1], artinya hanya satu kata atau token yang dianggap sebagai istilah untuk dikodekan.

Lihat Pengkodean fitur teks TF-IDF di Neptune ML.

datetime_partsBidang

Bidang ini digunakan secara opsional olehdatetime fitur untuk menentukan bagian mana dari nilai datetime untuk dikodekan secara kategoris:

"datetime_parts": ["weekday", "hour"]

Jika Anda tidak menyertakandatetime_parts, secara default Neptune MLmengkodekan tahun, bulan, hari kerja, dan jam bagian dari nilai datetime. Nilai["weekday", "hour"] menunjukkan bahwa hanya hari kerja dan jam dari nilai datetime yang harus dikodekan secara kategoris dalam fitur.

Jika salah satu bagian tidak memiliki lebih dari satu nilai unik dalam set pelatihan, itu tidak dikodekan.

Lihat Fitur Datetime di Neptune MLs.