本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
您可以使用 Amazon Comprehend 來檢查文字,以判斷慣用語言。Amazon Comprehend 使用 RFC 5646 的識別符來識別語言,如果有 2 個字母的 ISO 639-1 識別符,並在必要時使用區域子標籤,則會使用該識別符。否則,它會使用 ISO 639-2 3 字母代碼。
如需 RFC 5646 的詳細資訊,請參閱 IETF 工具網站上的識別語言的標籤
回應包含分數,指出 Amazon Comprehend 擁有的可信度等級,即特定語言是文件中的主要語言。每個分數與其他分數無關。分數不表示語言佔文件的特定百分比。
如果長文件 (例如書籍) 包含多種語言,您可以將長文件分成較小的部分,並在個別部分上執行 DetectDominantLanguage
操作。然後,您可以彙總結果,以判斷較長文件中每種語言的百分比。
Amazon Comprehend 語言偵測有下列限制:
-
它不支援語音語言偵測。例如,它不會將 "arigato" 偵測為日文,或將 "nihao" 偵測為中文。
-
它可能有區分近語配對的困難,例如印尼文和馬來文;或波斯尼亞文、克羅埃西亞文和塞爾維亞文。
-
為了獲得最佳結果,請提供至少 20 個字元的輸入文字。
Amazon Comprehend 會偵測下列語言。
代碼 | 語言 |
---|---|
af | 南非荷蘭文 |
am | 阿姆哈拉文 |
ar | Arabic |
as | 刺客文 |
az | 亞塞拜然文 |
ba | 巴什基爾文 |
be | 白俄羅斯文 |
bn | 孟加拉文 |
bs | 波士尼亞文 |
bg | 保加利亞文 |
ca | 加泰隆尼亞文 |
ceb | 塞布亞諾文 |
cs | 捷克文 |
cv | Chuvash |
cy | 威爾斯文 |
da | 丹麥文 |
de | 德文 |
el | Greek |
en | 英文 |
eo | 埃斯巴蘭托 |
et | Estonian |
eu | 巴斯克文 |
fa | 波斯文 |
fi | 芬蘭文 |
fr | 法文 |
gd | 蘇格蘭蓋爾文 |
ga | 愛爾蘭文 |
gl | 加利西亞文 |
gu | 古吉拉特文 |
ht | 海地文 |
he | Hebrew |
ha | 豪沙文 |
hi | 北印度文 |
hr | 克羅埃西亞文 |
hu | 匈牙利文 |
hy | 亞美尼亞文 |
ilo | Iloko |
id | 印尼文 |
is | 冰島文 |
it | 義大利文 |
jv | Javanese |
ja | 日文 |
kn | 坎那達文 |
ka | 喬治亞文 |
kk | 哈薩克文 |
km | 中高棉 |
ky | Kirghiz |
ko | 韓文 |
ku | 庫德文 |
lo | 寮國 |
la | 拉丁文 |
lv | 拉脫維亞文 |
lt | 立陶宛文 |
lb | 盧森堡文 |
ml | 馬來亞拉姆文 |
mt | 馬爾他文 |
mr | 馬拉地文 |
mk | 馬其頓文 |
mg | 惡意 |
mn | Mongolian |
ms | 馬來文 |
my | 緬甸文 |
ne | 尼泊利 |
new | Newari |
nl | 荷蘭文 |
no | 挪威文 |
or | Oriya |
om | Oromo |
pa | 旁遮普文 |
pl | Polish |
pt | 葡萄牙文 |
ps | Pushto |
qu | 基楓 |
ro | 羅馬尼亞文 |
ru | 俄文 |
sa | 梵文 |
si | 僧伽羅文 |
sk | 斯洛伐克文 |
sl | 斯洛維尼亞文 |
sd | 信代 |
so | 索馬利亞文 |
es | 西班牙文 |
sq | 阿爾巴尼亞文 |
sr | 塞爾維亞文 |
su | 巽他文 |
sw | 史瓦西里文 |
sv | 瑞典文 |
ta | 坦米爾文 |
tt | 韃靼語 |
te | 特拉古 |
tg | Tajik |
tl | 他加祿文 |
th | Thai |
tk | 土庫門 |
tr | Turkish |
ug | 優勝爾 |
uk | 烏克蘭文 |
ur | 烏都文 |
uz | 烏茲別克文 |
vi | 越南文 |
yi | 意地緒語 |
yo | 約魯巴 |
zh | 簡體中文 |
zh-TW | 繁體中文 |
您可以使用下列任何操作來偵測文件或一組文件中的主要語言。
DetectDominantLanguage
操作會傳回 DominantLanguage 物件。BatchDetectDominantLanguage
操作會傳回DominantLanguage
物件清單,一個用於批次中的每個文件。StartDominantLanguageDetectionJob
操作會啟動非同步任務,該任務會產生包含DominantLanguage
物件清單的檔案,每個文件各一個。
下列範例是 DetectDominantLanguage
操作的回應。
{
"Languages": [
{
"LanguageCode": "en",
"Score": 0.9793661236763
}
]
}