Bahasa dominan - Amazon Comprehend

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Bahasa dominan

Anda dapat menggunakan Amazon Comprehend untuk memeriksa teks untuk menentukan bahasa dominan. Amazon Comprehend mengidentifikasi bahasa menggunakan pengidentifikasi dari RFC 5646 — jika ada pengidentifikasi ISO 639-1 2 huruf, dengan subtag regional jika perlu, ia menggunakannya. Jika tidak, ia menggunakan kode 3 huruf ISO 639-2.

Untuk informasi selengkapnya tentang RFC 5646, lihat Tag untuk mengidentifikasi bahasa di situs web IETF Tools.

Tanggapan tersebut mencakup skor yang menunjukkan tingkat kepercayaan yang dimiliki Amazon Comprehend bahwa bahasa tertentu adalah bahasa dominan dalam dokumen. Setiap skor tidak tergantung pada skor lainnya. Skor tidak menunjukkan bahwa bahasa membentuk persentase tertentu dari dokumen.

Jika dokumen panjang (seperti buku) berisi beberapa bahasa, Anda dapat memecah dokumen panjang menjadi potongan-potongan kecil dan menjalankan DetectDominantLanguage operasi pada masing-masing bagian. Anda kemudian dapat menggabungkan hasil untuk menentukan persentase setiap bahasa dalam dokumen yang lebih panjang.

Amazon Comprehend deteksi bahasa memiliki batasan sebagai berikut:

  • Itu tidak mendukung deteksi bahasa fonetik. Misalnya, ia tidak mendeteksi “arigato” sebagai bahasa Jepang atau “nihao” sebagai bahasa Mandarin.

  • Ini mungkin memiliki perbedaan yang membedakan pasangan bahasa dekat, seperti Indonesia dan Melayu; atau Bosnia, Kroasia, dan Serbia.

  • Untuk hasil terbaik, berikan setidaknya 20 karakter teks input.

Amazon Comprehend mendeteksi bahasa-bahasa berikut.

Kode Bahasa
af Afrikaans
am Amharik
ar Arab
as Assam
az Orang Azerbaijan
ba Bashkir
be Belarusia
bn Bengali
bs Orang Bosnia
bg Bulgaria
ca bahasa katala
ceb Cebuano
cs Bahasa Ceko
cv Chuvash
cy Welsh
da Orang Denmark
de Bahasa Jerman
el Yunani
en Bahasa Inggris
eo Esperanto
et Estonia
eu Basque
fa Persia
fi orang Finlandia
fr Prancis
gd Gaelik Skotlandia
ga orang Irlandia
gl Galicia
gu Gujarat
ht Haiti
he Ibrani
ha Hausa
hi bahasa Hindi
hr orang Kroasia
hu Bahasa Hungaria
hy Orang Armenia
ilo Iloko
id orang Indonesia
is Islandia
it Bahasa Italia
jv Orang Jawa
ja Bahasa Jepang
kn Kannada
ka Orang Georgia
kk Kazakh
km Khmer Tengah
ky Kirghiz
ko Bahasa Korea
ku bahasa Kurdi
lo Lao
la bahasa Latin
lv Latvia
lt Lituania
lb Luksemburg
ml Malayalam
mt Malta
mr Marathi
mk Makedonia
mg Malagasi
mn Mongolia
ms Melayu
my Burma
ne Nepal
new Newari
nl Bahasa Belanda
no Norwegia
or Oriya
om Oromo
pa Punjabi
pl Polandia
pt Bahasa Portugis
ps Pushto
qu Quechua
ro Rumania
ru Bahasa Rusia
sa Sansekerta
si Sinhala
sk Orang Slovakia
sl Bahasa Slovenia
sd Sindhi
so Somalia
es Bahasa Spanyol
sq bahasa Albania
sr Serbia
su Sunda
sw Swahili
sv Bahasa Swedia
ta Tamil
tt Tatar
te Telugu
tg Tajik
tl Tagalog
th Thai
tk Turkmenistan
tr Turki
ug Uighur
uk orang Ukraina
ur Urdu
uz Uzbek
vi Vietnam
yi Bahasa Yiddish
yo Yoruba
zh Mandarin (Sederhana)
zh-TW Mandarin (Tradisional)

Anda dapat menggunakan salah satu operasi berikut untuk mendeteksi bahasa dominan dalam dokumen atau kumpulan dokumen.

DetectDominantLanguageOperasi mengembalikan DominantLanguageobjek. BatchDetectDominantLanguageOperasi mengembalikan daftar DominantLanguage objek, satu untuk setiap dokumen dalam batch. StartDominantLanguageDetectionJobOperasi memulai pekerjaan asinkron yang menghasilkan file yang berisi daftar DominantLanguage objek, satu untuk setiap dokumen dalam pekerjaan.

Contoh berikut adalah respon dari DetectDominantLanguage operasi.

{ "Languages": [ { "LanguageCode": "en", "Score": 0.9793661236763 } ] }