Bahasa dominan

Anda dapat menggunakan Amazon Comprehend untuk memeriksa teks untuk menentukan bahasa dominan. Amazon Comprehend mengidentifikasi bahasa menggunakan pengidentifikasi dari RFC 5646 — jika ada pengidentifikasi ISO 639-1 2 huruf, dengan subtag regional jika perlu, ia menggunakannya. Jika tidak, ia menggunakan kode 3 huruf ISO 639-2.

Untuk informasi selengkapnya tentang RFC 5646, lihat Tag untuk mengidentifikasi bahasa di situs web IETF Tools.

Tanggapan tersebut mencakup skor yang menunjukkan tingkat kepercayaan yang dimiliki Amazon Comprehend bahwa bahasa tertentu adalah bahasa dominan dalam dokumen. Setiap skor tidak tergantung pada skor lainnya. Skor tidak menunjukkan bahwa bahasa membentuk persentase tertentu dari dokumen.

Jika dokumen panjang (seperti buku) berisi beberapa bahasa, Anda dapat memecah dokumen panjang menjadi potongan-potongan kecil dan menjalankan DetectDominantLanguage operasi pada masing-masing bagian. Anda kemudian dapat menggabungkan hasil untuk menentukan persentase setiap bahasa dalam dokumen yang lebih panjang.

Amazon Comprehend deteksi bahasa memiliki batasan sebagai berikut:

Itu tidak mendukung deteksi bahasa fonetik. Misalnya, ia tidak mendeteksi “arigato” sebagai bahasa Jepang atau “nihao” sebagai bahasa Mandarin.
Ini mungkin memiliki perbedaan yang membedakan pasangan bahasa dekat, seperti Indonesia dan Melayu; atau Bosnia, Kroasia, dan Serbia.
Untuk hasil terbaik, berikan setidaknya 20 karakter teks input.

Amazon Comprehend mendeteksi bahasa-bahasa berikut.

Kode	Bahasa
af	Afrikaans
am	Amharik
ar	Arab
as	Assam
az	Orang Azerbaijan
ba	Bashkir
be	Belarusia
bn	Bengali
bs	Orang Bosnia
bg	Bulgaria
ca	bahasa katala
ceb	Cebuano
cs	Bahasa Ceko
cv	Chuvash
cy	Welsh
da	Orang Denmark
de	Bahasa Jerman
el	Yunani
en	Bahasa Inggris
eo	Esperanto
et	Estonia
eu	Basque
fa	Persia
fi	orang Finlandia
fr	Prancis
gd	Gaelik Skotlandia
ga	orang Irlandia
gl	Galicia
gu	Gujarat
ht	Haiti
he	Ibrani
ha	Hausa
hi	bahasa Hindi
hr	orang Kroasia
hu	Bahasa Hungaria
hy	Orang Armenia
ilo	Iloko
id	orang Indonesia
is	Islandia
it	Bahasa Italia
jv	Orang Jawa
ja	Bahasa Jepang
kn	Kannada
ka	Orang Georgia
kk	Kazakh
km	Khmer Tengah
ky	Kirghiz
ko	Bahasa Korea
ku	bahasa Kurdi
lo	Lao
la	bahasa Latin
lv	Latvia
lt	Lituania
lb	Luksemburg
ml	Malayalam
mt	Malta
mr	Marathi
mk	Makedonia
mg	Malagasi
mn	Mongolia
ms	Melayu
my	Burma
ne	Nepal
new	Newari
nl	Bahasa Belanda
no	Norwegia
or	Oriya
om	Oromo
pa	Punjabi
pl	Polandia
pt	Bahasa Portugis
ps	Pushto
qu	Quechua
ro	Rumania
ru	Bahasa Rusia
sa	Sansekerta
si	Sinhala
sk	Orang Slovakia
sl	Bahasa Slovenia
sd	Sindhi
so	Somalia
es	Bahasa Spanyol
sq	bahasa Albania
sr	Serbia
su	Sunda
sw	Swahili
sv	Bahasa Swedia
ta	Tamil
tt	Tatar
te	Telugu
tg	Tajik
tl	Tagalog
th	Thai
tk	Turkmenistan
tr	Turki
ug	Uighur
uk	orang Ukraina
ur	Urdu
uz	Uzbek
vi	Vietnam
yi	Bahasa Yiddish
yo	Yoruba
zh	Mandarin (Sederhana)
zh-TW	Mandarin (Tradisional)

Anda dapat menggunakan salah satu operasi berikut untuk mendeteksi bahasa dominan dalam dokumen atau kumpulan dokumen.

DetectDominantLanguageOperasi mengembalikan DominantLanguageobjek. BatchDetectDominantLanguageOperasi mengembalikan daftar DominantLanguage objek, satu untuk setiap dokumen dalam batch. StartDominantLanguageDetectionJobOperasi memulai pekerjaan asinkron yang menghasilkan file yang berisi daftar DominantLanguage objek, satu untuk setiap dokumen dalam pekerjaan.

Contoh berikut adalah respon dari DetectDominantLanguage operasi.


{
    "Languages": [
        {
            "LanguageCode": "en",
            "Score": 0.9793661236763
        }
    ]
}

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Frasa kunci

Sentimen