Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Bahasa dominan
Anda dapat menggunakan Amazon Comprehend untuk memeriksa teks untuk menentukan bahasa dominan. Amazon Comprehend mengidentifikasi bahasa menggunakan pengidentifikasi dari RFC 5646 — jika ada pengidentifikasi ISO 639-1 2 huruf, dengan subtag regional jika perlu, ia menggunakannya. Jika tidak, ia menggunakan kode 3 huruf ISO 639-2.
Untuk informasi selengkapnya tentang RFC 5646, lihat Tag untuk mengidentifikasi bahasa di situs web
Tanggapan tersebut mencakup skor yang menunjukkan tingkat kepercayaan yang dimiliki Amazon Comprehend bahwa bahasa tertentu adalah bahasa dominan dalam dokumen. Setiap skor tidak tergantung pada skor lainnya. Skor tidak menunjukkan bahwa bahasa membentuk persentase tertentu dari dokumen.
Jika dokumen panjang (seperti buku) berisi beberapa bahasa, Anda dapat memecah dokumen panjang menjadi potongan-potongan kecil dan menjalankan DetectDominantLanguage
operasi pada masing-masing bagian. Anda kemudian dapat menggabungkan hasil untuk menentukan persentase setiap bahasa dalam dokumen yang lebih panjang.
Amazon Comprehend deteksi bahasa memiliki batasan sebagai berikut:
-
Itu tidak mendukung deteksi bahasa fonetik. Misalnya, ia tidak mendeteksi “arigato” sebagai bahasa Jepang atau “nihao” sebagai bahasa Mandarin.
-
Ini mungkin memiliki perbedaan yang membedakan pasangan bahasa dekat, seperti Indonesia dan Melayu; atau Bosnia, Kroasia, dan Serbia.
-
Untuk hasil terbaik, berikan setidaknya 20 karakter teks input.
Amazon Comprehend mendeteksi bahasa-bahasa berikut.
Kode | Bahasa |
---|---|
af | Afrikaans |
am | Amharik |
ar | Arab |
as | Assam |
az | Orang Azerbaijan |
ba | Bashkir |
be | Belarusia |
bn | Bengali |
bs | Orang Bosnia |
bg | Bulgaria |
ca | bahasa katala |
ceb | Cebuano |
cs | Bahasa Ceko |
cv | Chuvash |
cy | Welsh |
da | Orang Denmark |
de | Bahasa Jerman |
el | Yunani |
en | Bahasa Inggris |
eo | Esperanto |
et | Estonia |
eu | Basque |
fa | Persia |
fi | orang Finlandia |
fr | Prancis |
gd | Gaelik Skotlandia |
ga | orang Irlandia |
gl | Galicia |
gu | Gujarat |
ht | Haiti |
he | Ibrani |
ha | Hausa |
hi | bahasa Hindi |
hr | orang Kroasia |
hu | Bahasa Hungaria |
hy | Orang Armenia |
ilo | Iloko |
id | orang Indonesia |
is | Islandia |
it | Bahasa Italia |
jv | Orang Jawa |
ja | Bahasa Jepang |
kn | Kannada |
ka | Orang Georgia |
kk | Kazakh |
km | Khmer Tengah |
ky | Kirghiz |
ko | Bahasa Korea |
ku | bahasa Kurdi |
lo | Lao |
la | bahasa Latin |
lv | Latvia |
lt | Lituania |
lb | Luksemburg |
ml | Malayalam |
mt | Malta |
mr | Marathi |
mk | Makedonia |
mg | Malagasi |
mn | Mongolia |
ms | Melayu |
my | Burma |
ne | Nepal |
new | Newari |
nl | Bahasa Belanda |
no | Norwegia |
or | Oriya |
om | Oromo |
pa | Punjabi |
pl | Polandia |
pt | Bahasa Portugis |
ps | Pushto |
qu | Quechua |
ro | Rumania |
ru | Bahasa Rusia |
sa | Sansekerta |
si | Sinhala |
sk | Orang Slovakia |
sl | Bahasa Slovenia |
sd | Sindhi |
so | Somalia |
es | Bahasa Spanyol |
sq | bahasa Albania |
sr | Serbia |
su | Sunda |
sw | Swahili |
sv | Bahasa Swedia |
ta | Tamil |
tt | Tatar |
te | Telugu |
tg | Tajik |
tl | Tagalog |
th | Thai |
tk | Turkmenistan |
tr | Turki |
ug | Uighur |
uk | orang Ukraina |
ur | Urdu |
uz | Uzbek |
vi | Vietnam |
yi | Bahasa Yiddish |
yo | Yoruba |
zh | Mandarin (Sederhana) |
zh-TW | Mandarin (Tradisional) |
Anda dapat menggunakan salah satu operasi berikut untuk mendeteksi bahasa dominan dalam dokumen atau kumpulan dokumen.
DetectDominantLanguage
Operasi mengembalikan DominantLanguageobjek. BatchDetectDominantLanguage
Operasi mengembalikan daftar DominantLanguage
objek, satu untuk setiap dokumen dalam batch. StartDominantLanguageDetectionJob
Operasi memulai pekerjaan asinkron yang menghasilkan file yang berisi daftar DominantLanguage
objek, satu untuk setiap dokumen dalam pekerjaan.
Contoh berikut adalah respon dari DetectDominantLanguage
operasi.
{
"Languages": [
{
"LanguageCode": "en",
"Score": 0.9793661236763
}
]
}