Memberangkai Stopwords Sinonim Mengkonfigurasi Skema Analisis Menggunakan Konsol Mengkonfigurasi Skema Analisis Menggunakan AWS CLI Mengkonfigurasi Skema Analisis Menggunakan AWS SDKs Pengindeksan Bigram untuk bahasa Mandarin, Jepang, dan Korea Menyesuaikan Tokenisasi Jepang

Mengkonfigurasi Skema Analisis Teks untuk Amazon CloudSearch

Amazon CloudSearch memungkinkan Anda mengonfigurasi skema analisis khusus bahasa untuk masing-masing bidangtext. text-array Skema analisis mengontrol bagaimana isi bidang diproses selama pengindeksan. Meskipun default untuk setiap bahasa bekerja dengan baik dalam banyak kasus, menyempurnakan opsi analisis memungkinkan Anda untuk mengoptimalkan hasil pencarian berdasarkan pengetahuan Anda tentang data yang Anda cari. Untuk daftar bahasa yang didukung, lihat Bahasa yang Didukung.

Skema analisis menentukan bahasa teks yang akan diproses dan opsi analisis berikut:

Algorithmic stemming — menentukan tingkat pembatalan algoritmik untuk dilakukan. Tingkat stemming yang tersedia bervariasi tergantung pada bahasa.
Kamus Tokenisasi Jepang —menentukan penggantian tokenisasi algoritmik saat memproses bahasa Jepang. Kamus menentukan bagaimana set karakter tertentu harus dikelompokkan ke dalam kata-kata.
Kamus stemming —menentukan penggantian untuk hasil stemming algoritmik. Kamus memetakan kata-kata terkait tertentu ke akar kata atau batang umum.
Stopwords —menentukan kata-kata yang harus diabaikan selama pengindeksan dan pencarian.
Sinonim — menentukan kata-kata yang memiliki arti yang sama dengan kata-kata yang muncul dalam data Anda dan harus menghasilkan hasil pencarian yang sama.

Selama pemrosesan teks, nilai bidang dan istilah pencarian diubah menjadi huruf kecil (dilipat huruf kecil), sehingga kata kunci, batang, dan sinonim tidak peka huruf besar/kecil. Untuk informasi selengkapnya tentang cara Amazon CloudSearch memproses teks selama pengindeksan dan saat menangani permintaan penelusuran, lihatPemrosesan Teks di Amazon CloudSearch.

Anda harus menentukan bahasa untuk setiap skema analisis dan mengkonfigurasi skema analisis untuk masing-masing text text-array bidang. Saat Anda mengonfigurasi bidang melalui CloudSearch konsol Amazon, skema analisis default ke skema analisis. _en_default_ Jika Anda tidak menentukan opsi analisis untuk skema analisis, Amazon CloudSearch menggunakan opsi default untuk bahasa yang ditentukan. Untuk informasi tentang default untuk setiap bahasa, lihat. Pengaturan Khusus Bahasa

Cara termudah untuk menentukan skema analisis adalah melalui halaman Skema Analisis di CloudSearch konsol Amazon. Anda harus menerapkan skema analisis ke bidang agar dapat diterapkan. Anda dapat menerapkan skema analisis ke bidang dari halaman Opsi Pengindeksan. Anda juga dapat menentukan skema analisis dan mengonfigurasi skema analisis untuk setiap bidang melalui alat baris perintah dan AWS SDKs.

Saat menerapkan skema analisis baru ke bidang indeks atau memodifikasi skema analisis yang sedang digunakan, Anda harus secara eksplisit rebuild the index agar perubahan tersebut tercermin dalam hasil penelusuran.

Topik

Berasal di Amazon CloudSearch
Stopwords di Amazon CloudSearch
Sinonim di Amazon CloudSearch
Mengkonfigurasi Skema Analisis Menggunakan Konsol Amazon CloudSearch
Mengkonfigurasi Skema Analisis Menggunakan AWS CLI
Mengkonfigurasi Skema Analisis Menggunakan AWS SDKs
Pengindeksan Bigram untuk China, Jepang, dan Korea di Amazon CloudSearch
Menyesuaikan Tokenisasi Jepang di Amazon CloudSearch

Berasal di Amazon CloudSearch

Stemming adalah proses pemetaan kata-kata terkait ke batang umum. Batang biasanya merupakan akar atau kata dasar dari mana varian diturunkan. Misalnya, lari adalah batang berlari dan berlari. Stemming dilakukan selama pengindeksan serta pada waktu kueri. Stemming mengurangi jumlah istilah yang disertakan dalam indeks, dan memfasilitasi kecocokan ketika istilah pencarian adalah varian dari istilah yang muncul dalam konten yang dicari. Misalnya, jika Anda memetakan istilah yang berjalan ke stem run dan kemudian mencari running, permintaan tersebut cocok dengan dokumen yang berisi run serta running.

Amazon CloudSearch mendukung kamus stemming algoritmik dan stemming eksplisit. Anda mengonfigurasi stemming algoritmik dengan menentukan tingkat stemming yang ingin Anda gunakan. Tingkat pembatalan algoritmik yang tersedia bervariasi tergantung pada bahasa:

tidak ada—nonaktifkan pembendungan algoritmik
minimal—lakukan pembendungan dasar dengan menghapus sufiks jamak
cahaya—menargetkan noun/adjective infleksi yang paling umum dan sufiks turunan
infleksi batang penuh—agresif dan sufiks

Selain mengontrol tingkat pembatalan algoritmik yang dilakukan, Anda dapat menentukan kamus stemming yang memetakan kata-kata terkait tertentu ke batang umum. Anda menentukan kamus sebagai objek JSON yang berisi kumpulan pasangan string:value yang memetakan istilah ke batangnya, misalnya,. {"term1": "stem1", "term2": "stem2", "term3": "stem3"} Kamus stemming diterapkan selain stemming algoritmik apa pun. Ini memungkinkan Anda untuk mengesampingkan hasil pembatalan algoritmik untuk memperbaiki kasus-kasus tertentu dari overstemming atau understemming. Ukuran maksimum kamus stemming adalah 500 KB. Entri kamus stemming harus huruf kecil.

Anda menggunakan StemmingDictionary kunci untuk menentukan kamus stemming kustom dalam skema analisis. Karena Anda meneruskan kamus ke Amazon CloudSearch sebagai string, Anda harus menghindari semua tanda kutip ganda dalam string. Misalnya, skema analisis berikut mendefinisikan batang untuk berlari dan melompat:


{
    "AnalysisSchemeName": "myscheme",
    "AnalysisSchemeLanguage": "en",
    "AnalysisOptions": {
        "AlgorithmicStemming": "light",
        "StemmingDictionary": "{\"running\": \"run\",\"jumping\": \"jump\"}"
    }
}

Jika Anda tidak menentukan tingkat stemming algoritmik atau kamus stemming dalam skema analisis Anda, Amazon CloudSearch menggunakan tingkat pembatalan algoritmik default untuk bahasa yang ditentukan. Meskipun stemming dapat membantu pengguna menemukan dokumen yang relevan yang mungkin dikecualikan dari hasil pencarian, overstemming dapat mengakibatkan terlalu banyak kecocokan dengan relevansi yang dipertanyakan. Tingkat default stemming algoritmik yang dikonfigurasi untuk setiap bahasa berfungsi dengan baik untuk sebagian besar kasus penggunaan. Secara umum, yang terbaik adalah memulai dengan default dan kemudian membuat penyesuaian untuk mengoptimalkan relevansi hasil pencarian untuk kasus penggunaan Anda. Untuk informasi tentang default untuk setiap bahasa, lihat. Pengaturan Khusus Bahasa

Stopwords di Amazon CloudSearch

Stopwords adalah kata-kata yang biasanya harus diabaikan baik selama pengindeksan dan pada waktu pencarian karena mereka tidak signifikan atau sangat umum sehingga memasukkannya akan menghasilkan sejumlah besar kecocokan.

Selama pengindeksan, Amazon CloudSearch menggunakan kamus stopword saat memproses text dan text-array bidang. Dalam kebanyakan kasus, stopword tidak termasuk dalam indeks. Kamus stopword juga digunakan untuk memfilter permintaan pencarian.

Kamus stopwords adalah array istilah JSON, misalnya,. ["a", "an", "the", "of"] Kamus stopwords harus secara eksplisit mencantumkan setiap kata yang ingin Anda abaikan. Wildcard dan ekspresi reguler tidak didukung.

Anda menggunakan Stopwords kunci untuk menentukan kamus stopwords kustom dalam skema analisis. Karena Anda meneruskan kamus ke Amazon CloudSearch sebagai string, Anda harus menghindari semua tanda kutip ganda dalam string. Misalnya, skema analisis berikut mengkonfigurasi stopwords a, an, dan:


{
    "AnalysisSchemeName": "myscheme",
    "AnalysisSchemeLanguage": "en",
    "AnalysisOptions": {
        "Stopwords": "[\"a\",\"an\",\"the\"]"
    }
}

Jika Anda tidak menentukan kamus stopwords dalam skema analisis Anda, Amazon CloudSearch menggunakan kamus stopword default untuk bahasa yang ditentukan. Stopword default yang dikonfigurasi untuk setiap bahasa berfungsi dengan baik untuk sebagian besar kasus penggunaan. Secara umum, yang terbaik adalah memulai dengan default dan kemudian membuat penyesuaian untuk mengoptimalkan relevansi hasil pencarian untuk kasus penggunaan Anda. Untuk informasi tentang default untuk setiap bahasa, lihat. Pengaturan Khusus Bahasa

Sinonim di Amazon CloudSearch

Anda dapat mengonfigurasi sinonim untuk istilah yang muncul di data yang Anda cari. Dengan begitu, jika pengguna mencari sinonim daripada istilah yang diindeks, hasilnya akan menyertakan dokumen yang berisi istilah yang diindeks. Misalnya, Anda dapat menentukan sinonim kustom untuk melakukan hal berikut:

Petakan kesalahan ejaan umum ke ejaan yang benar
Mendefinisikan istilah yang setara, seperti film dan movie
Memetakan istilah umum ke istilah yang lebih spesifik, seperti fish dan barracuda
Memetakan beberapa kata ke satu kata atau sebaliknya, seperti tool box dan toolbox

Ketika Anda mendefinisikan sinonim, sinonim ditambahkan ke indeks di mana pun token dasar terjadi. Misalnya, jika Anda mendefinisikan fish sebagai sinonim daribarracuda, istilah fish ditambahkan ke setiap dokumen yang berisi istilah. barracuda Menambahkan sejumlah besar sinonim dapat meningkatkan ukuran indeks serta latensi kueri — sinonim meningkatkan jumlah kecocokan dan semakin banyak kecocokan, semakin lama waktu yang dibutuhkan untuk memproses hasilnya.

Kamus sinonim digunakan selama pengindeksan untuk mengonfigurasi pemetaan untuk istilah yang terjadi di bidang teks. Tidak ada pemrosesan sinonim yang dilakukan pada permintaan pencarian. Secara default, Amazon CloudSearch tidak mendefinisikan sinonim apa pun.

Anda dapat menentukan sinonim dengan dua cara:

Sebagai kelompok konflasi di mana setiap istilah dalam kelompok dianggap sebagai sinonim dari setiap istilah lain dalam kelompok.
Sebagai alias untuk istilah tertentu. Alias dianggap sebagai sinonim dari istilah yang ditentukan, tetapi istilah tersebut tidak dianggap sebagai sinonim dari alias.

Kamus sinonim ditentukan sebagai objek JSON yang mendefinisikan kelompok sinonim dan alias. groupsNilainya adalah array array, di mana setiap sub-array adalah grup konflasi. aliasesNilai adalah objek yang berisi kumpulan pasangan string:value di mana string menentukan istilah dan array nilai menentukan masing-masing sinonim untuk istilah itu. Contoh berikut mencakup grup konflasi dan alias:


{
    "groups": [["1st", "first", "one"], ["2nd", "second", "two"]],
    "aliases": { "youth": ["child", "kid", "boy", "girl"], 
                 "adult": ["men", "women"] }
}

Kedua grup dan alias mendukung sinonim multiword. Dalam contoh berikut, sinonim multiword digunakan dalam grup konflasi serta alias:


{
    "groups": [["tool box", "toolbox"], ["band saw", "bandsaw"]],
    "aliases": { "workbench": ["work bench"]}
}

Anda menggunakan Synonyms kunci untuk menentukan kamus sinonim kustom dalam skema analisis. Karena Anda meneruskan kamus ke Amazon CloudSearch sebagai string, Anda harus menghindari semua tanda kutip ganda dalam string. Misalnya, skema analisis berikut mengonfigurasi alias untuk istilah pemuda:


{
    "AnalysisSchemeName": "myscheme",
    "AnalysisSchemeLanguage": "en",
    "AnalysisOptions": {
        "Synonyms": "{\"aliases\": {\"youth\": [\"child\",\"kid\"]}}"
    }
}

Mengkonfigurasi Skema Analisis Menggunakan Konsol Amazon CloudSearch

Anda dapat menentukan skema analisis dari panel Skema Analisis di CloudSearch konsol Amazon.

Untuk mendefinisikan skema analisis

Buka CloudSearch konsol Amazon di https://console.aws.amazon.com/cloudsearch/rumah.
Dari panel nagivasi kiri, pilih Domain.
Pilih nama domain Anda untuk membuka konfigurasinya.
Buka tab Opsi pencarian lanjutan.
Di panel Skema analisis, pilih Tambahkan skema analisis.
Tentukan nama untuk skema analisis dan pilih bahasa.
Pilih Berikutnya.
Dalam tiga langkah berikutnya, konfigurasikan opsi stopword, stemming, dan sinonim teks skema. Anda dapat mengonfigurasi kata kunci, batang, dan sinonim individual, atau mengedit kamus yang ditampilkan secara langsung. Kamus diformat dalam JSON. Stopwords ditentukan sebagai array string. Batang ditentukan sebagai objek yang berisi satu atau lebih pasangan key:value. Alias sinonim juga ditentukan sebagai objek JSON dengan satu atau pasangan pindahkan kunci:nilai, di mana nilai alias ditentukan sebagai array string. Sebuah grup sinonim ditentukan sebagai array JSON. (Kamus sinonim adalah array array.)

Jika Anda memilih bahasa Jepang sebagai bahasa, Anda juga memiliki opsi untuk menentukan kamus tokenisasi kustom yang mengesampingkan tokenisasi default frasa tertentu. Untuk informasi selengkapnya, lihat Menyesuaikan Tokenisasi Jepang.
Pada halaman ringkasan, tinjau konfigurasi skema analisis dan pilih Simpan.

penting

Untuk menggunakan skema analisis, Anda harus menerapkannya ke satu atau lebih text atau text-array bidang dan membangun kembali indeks. Anda dapat mengonfigurasi skema analisis bidang dari tab Opsi pengindeksan. Untuk membangun kembali indeks Anda, pilih Tindakan, Jalankan pengindeksan.

Mengkonfigurasi Skema Analisis Menggunakan AWS CLI

Anda menggunakan aws cloudsearch define-analysis-scheme perintah untuk menentukan opsi pemrosesan teks khusus bahasa, termasuk opsi stemming, stopword, dan sinonim. Untuk informasi tentang menginstal dan menyiapkan AWS CLI, lihat Panduan AWS Command Line Interface Pengguna.

Anda menentukan skema analisis sebagai bagian dari konfigurasi masing-masing text atau text-array bidang. Untuk informasi selengkapnya, lihat configure indexing options.

Untuk mendefinisikan skema analisis

Jalankan aws cloudsearch define-analysis-scheme perintah dan tentukan --analysis-scheme opsi dan objek JSON yang berisi opsi analisis Anda. Skema analisis harus JSON yang valid. Kunci opsi analisis dan pasangan nilai harus diapit tanda kutip, dan semua tanda kutip dalam nilai opsi harus diloloskan dengan garis miring terbalik. Untuk format opsi analisis, lihat define-analysis-schemedi Referensi AWS CLI Perintah. Lihat Mengkonfigurasi Skema Analisis untuk informasi selengkapnya tentang menentukan opsi stemming, stopword, dan sinonim.

Jika Anda menentukan Japanese (ja) sebagai bahasa, Anda juga memiliki opsi untuk menentukan kamus tokenisasi kustom yang mengesampingkan tokenisasi default frasa tertentu. Untuk informasi selengkapnya, lihat Menyesuaikan Tokenisasi Jepang.
Tip
Cara termudah untuk mengkonfigurasi skema analisis dengan AWS CLI adalah dengan menyimpan skema analisis dalam file teks dan menentukan file itu sebagai --analysis-scheme nilai. Ini memungkinkan Anda untuk memformat skema sehingga lebih mudah dibaca. Misalnya, skema berikut mendefinisikan skema analisis bahasa Inggris yang disebut myscheme yang menggunakan stemming algoritmik ringan dan mengkonfigurasi dua stopword:
```
{
    "AnalysisSchemeName": "myscheme",
    "AnalysisSchemeLanguage": "en",
    "AnalysisOptions": {
        "AlgorithmicStemming": "light",
        "Stopwords": "[\"a\", \"the\"]"     
    }
}
```
Jika Anda menyimpan skema ini dalam file teks yang disebutmyscheme.txt, Anda dapat meneruskan file sebagai nilai --analysis-scheme parameter:
```
aws cloudsearch define-analysis-scheme --region us-east-1 --domain-name movies --analysis-scheme file://myscheme.txt
```

penting

Untuk menggunakan skema analisis, Anda harus menerapkannya ke satu atau lebih text atau text-array bidang dan membangun kembali indeks. Anda dapat mengonfigurasi skema analisis bidang dengan aws cloudsearch define-index-field perintah. Untuk membangun kembali indeks, hubungiaws cloudsearch index-documents.

Mengkonfigurasi Skema Analisis Menggunakan AWS SDKs

AWS SDKs (kecuali Android dan iOS SDKs) mendukung semua CloudSearch tindakan Amazon yang ditentukan dalam API CloudSearch Konfigurasi Amazon, termasukDefineAnalysisScheme. Untuk informasi selengkapnya tentang menginstal dan menggunakan AWS SDKs, lihat AWS Software Development Kits.

penting

Untuk menggunakan skema analisis, Anda harus menerapkannya ke satu atau lebih text atau text-array bidang dan membangun kembali indeks. Anda dapat mengonfigurasi skema analisis bidang dengan metode bidang indeks definisi. Untuk membangun kembali indeks Anda, Anda menggunakan metode dokumen indeks.

Pengindeksan Bigram untuk China, Jepang, dan Korea di Amazon CloudSearch

Tionghoa, Jepang, dan Korea tidak memiliki batasan kata yang eksplisit. Cukup mengindeks karakter individu (unigram) dapat menghasilkan kecocokan yang tidak terlalu relevan dengan kueri penelusuran. Salah satu solusinya adalah mengindeks bigram. Bigram adalah setiap urutan dari dua karakter yang berdekatan dalam sebuah string. Misalnya, contoh berikut menunjukkan bigram untuk string :


我的  的氣  氣墊  墊船  船裝  裝滿  滿了  了鱔  鱔魚

Meskipun pengindeksan bigram dapat meningkatkan kualitas hasil pencarian, perlu diingat bahwa itu dapat secara signifikan meningkatkan ukuran indeks Anda.

Untuk mengindeks bigram untuk bahasa China, Jepang, dan Korea

Buat skema analisis teks dan atur bahasa ke beberapa bahasa (mul).
Konfigurasikan kolom indeks yang berisi data CJK untuk menggunakan skema analisis multi-bahasa Anda.

Saat Anda menetapkan skema analisis yang menetapkan bahasa bidangmul, Amazon CloudSearch secara otomatis menghasilkan bigram untuk semua teks Mandarin, Jepang, dan Korea dalam bidang tersebut.

Untuk informasi selengkapnya tentang membuat dan menggunakan skema analisis, lihatMengkonfigurasi Skema Analisis.

Jika Anda mengindeks konten Jepang, Anda mungkin juga tertarik untuk menggunakan kamus tokenisasi kustom dengan prosesor bahasa Jepang standar. Untuk informasi selengkapnya, lihat Menyesuaikan Tokenisasi Jepang.

Menyesuaikan Tokenisasi Jepang di Amazon CloudSearch

Jika Anda memerlukan kontrol lebih besar atas cara Amazon CloudSearch memberi token bahasa Jepang, Anda dapat menambahkan kamus tokenisasi Jepang khusus ke skema analisis Anda. Mengkonfigurasi kamus tokenisasi kustom memungkinkan Anda untuk mengganti bagaimana entri tertentu diberi token oleh prosesor bahasa Jepang standar. Ini dapat meningkatkan akurasi hasil pencarian dalam beberapa kasus, terutama ketika Anda perlu mengindeks dan mengambil frase khusus domain.

Kamus tokenisasi adalah kumpulan entri di mana setiap entri menentukan satu set karakter, bagaimana karakter harus diberi token, bagaimana setiap token harus diucapkan (bacaan), dan tag. part-of-speech Anda menentukan kamus sebagai array, dan setiap entri kamus adalah array string. Entri adalah dari bentuk berikut:


["<text>","<token 1> ... <token n>","<reading 1> ... <reading n>","<part-of-speech tag>"]

Anda harus menentukan bacaan untuk setiap token dan part-of-speech tag untuk entri. Lihat bagian Part-of-SpeechTag Jepang tag ucapan yang diperlakukan sebagai stopword.

Anda menggunakan JapaneseTokenizationDictionary kunci untuk menentukan kamus tokenisasi kustom dalam skema analisis. Karena Anda meneruskan kamus tokenisasi ke Amazon CloudSearch sebagai string, Anda harus menghindari semua tanda kutip ganda dalam string. Misalnya, kamus dalam skema analisis berikut menentukan penggantian segmentasi untuk senyawa Kanji dan Katakana, dan pembacaan khusus untuk nama yang tepat:


{       
    "AnalysisSchemeName": "jascheme",
    "AnalysisSchemeLanguage": "ja",
    "AnalysisOptions": {
        "Stopwords": "[\"a\", \"the\"]",
        "AlgorithmicStemming": "full",
        "JapaneseTokenizationDictionary": "[ [\"日本経済新聞\",\"日本 経済 新聞\",\"ニホン ケイザイ シンブン\",\"カスタム名詞\"],[\"トートバッグ\",\"トート バッグ\",\"トート バッグ\",\"かずカナ名詞\"],[\"朝青龍\",\"朝青龍\",\"アサショウリュウ\",\"カスタム人名\"] ]"
    }
}

Saat mengonfigurasi skema analisis dengan AWS CLI, Anda dapat menyimpan skema analisis dalam file teks dan menentukan file itu sebagai --analysis-scheme nilainya. Ini memungkinkan Anda untuk memformat skema sehingga lebih mudah dibaca. Misalnya, jika Anda menyimpan skema jascheme analisis dalam file bernamajascheme.txt, Anda dapat meneruskan file itu saat Anda meneleponaws cloudsearch define-analysis-scheme:


aws cloudsearch define-analysis-scheme --region us-east-1 --domain-name
mydomain --analysis-scheme file://jascheme.txt

Untuk informasi selengkapnya tentang membuat dan menggunakan skema analisis, lihatMengkonfigurasi Skema Analisis.

Part-of-SpeechTag Jepang di Amazon CloudSearch

Saat Anda menggunakan kamus tokenisasi khusus untuk bahasa Jepang, Anda menentukan part-of-speech tag untuk setiap entri. Jika part-of-speech tag cocok dengan salah satu tag yang dikonfigurasi sebagai tag berhenti, entri diperlakukan sebagai stopword.

Tabel berikut menunjukkan bagian dari tag ucapan yang dikonfigurasi sebagai tag berhenti di Amazon CloudSearch.

Hentikan Tag
Tag	Bagian dari pidato	Deskripsi
助動詞	Kata kerja bantu	Kata kerja yang menambahkan makna fungsional atau tata bahasa pada klausa di mana ia muncul.
接続詞	Konjungsi	Konjungsi yang dapat terjadi secara independen.
ー	Pengisi	Aizuchi yang terjadi selama percakapan atau suara dimasukkan sebagai pengisi.
非言語音	Non-verbal	Suara non-verbal.
-	Kata seru lainnya	Kata-kata yang sulit diklasifikasikan sebagai kata benda-sufiks atau partikel akhir kalimat.
-	Partikel-adnominalizer	Kata “ni” dan “to” yang muncul mengikuti kata benda dan kata keterangan.
-	Partikel-adnominalizer	Kata “tidak” yang melekat pada kata benda dan memodifikasi kata-kata non-infleksional.
-	Partikel-adverbial	Kata keterangan yang digunakan untuk menunjukkan posisi, arah gerakan, dan sebagainya.
-／／	Partikel- adverbial/conjunctive/final	Partikel “ka” ketika tidak diketahui apakah itu adverbial, konjungtif, atau kalimat final.
--	P article-case-compound	Senyawa partikel dan kata kerja yang terutama berperilaku seperti partikel kasus.
---	P article-case-misc	Partikel kasus.
--	P article-case-quote	Kata “ke” yang muncul setelah kata benda, ucapan seseorang, tanda kutip, ekspresi keputusan dari rapat, alasan, penilaian, dugaan, dan sebagainya.
-	Kasus partikel	Partikel kasus di mana subklasifikasi tidak terdefinisi.
-	Partikel-konjungtif	Partikel konjungtif.
-	Partikel-koordinat	Partikel koordinat.
-	Ketergantungan partikel	Partikel ketergantungan.
-	Partikel-final	Partikel akhir.
-	Partikel-interjektif	Partikel dengan peran tata bahasa interjektif.
-	Partikel-khusus	Sebuah partikel yang tidak cocok dengan salah satu klasifikasi lainnya. Ini termasuk partikel yang digunakan dalam Tanka, Haiku, dan puisi lainnya.
助詞	Partikel	Partikel yang tidak diklasifikasikan.
-	Simbol-Close_bracket	Tutup braket:].
-	Simbol-koma	Koma:,.
-	Simbol-Lain-lain	Simbol umum tidak dalam salah satu kategori lainnya.
-	Simbol-Open_Bracket	Braket terbuka: [.
-	Periode simbol	Periode dan pemberhentian penuh.
-	Simbol-ruang	Spasi putih lebar penuh.
記号	Simbol	Simbol yang tidak diklasifikasikan.

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Menggunakan Bidang Dinamis

Pengolahan Teks

Mengkonfigurasi Skema Analisis Teks untuk Amazon CloudSearch

Topik

Berasal di Amazon CloudSearch

Stopwords di Amazon CloudSearch

Sinonim di Amazon CloudSearch

Mengkonfigurasi Skema Analisis Menggunakan Konsol Amazon CloudSearch

Untuk mendefinisikan skema analisis

penting

Mengkonfigurasi Skema Analisis Menggunakan AWS CLI

Untuk mendefinisikan skema analisis

Tip

penting

Mengkonfigurasi Skema Analisis Menggunakan AWS SDKs

penting

Pengindeksan Bigram untuk China, Jepang, dan Korea di Amazon CloudSearch

Untuk mengindeks bigram untuk bahasa China, Jepang, dan Korea

Menyesuaikan Tokenisasi Jepang di Amazon CloudSearch

Part-of-SpeechTag Jepang di Amazon CloudSearch