本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
主要语言
您可以使用 Amazon Comprehend 來檢查文字,以判斷主要語言。Amazon Comprehend 使用來自 RFC 5646 的識別碼來識別語言 — 如果有兩個字母的 ISO 639-1 識別碼,並在必要時具有區域子標籤,則會使用該識別碼。否則,它會使用 ISO 639-2 3 個字母的代碼。
如需 RFC 5646 的詳細資訊,請參閱 IETF 工具網站上用於識別語言的標籤
回應包含一個分數,指出 Amazon Comprehend 具有特定語言是文件中主要語言的信賴等級。每個分數獨立於其他分數。分數並不表示某種語言構成了文檔的特定百分比。
如果長文件 (例如書冊) 包含多種語言,您可以將長文件分成較小的部分,然後在個別片段上執行DetectDominantLanguage
作業。然後,您可以彙總結果,以決定較長文件中每種語言的百分比。
Amazon Comprehend 語言偵測有下列限制:
-
它不支持語音語言檢測。例如,它不會將「arigato」檢測為日語或「nihao」檢測為中文。
-
它可能具有不同區分的近距語言對,例如印度尼西亞語和馬來語;或波斯尼亞語,克羅地亞語和塞爾維亞語。
-
為獲得最佳結果,請至少提供 20 個字元的輸入文字。
亞馬遜偵測到下列語言。
代碼 | 語言 |
---|---|
af | 南非荷蘭文 |
am | 阿姆哈拉文 |
ar | Arabic |
as | 阿薩姆 |
az | 亞塞拜然文 |
ba | 巴什基爾文 |
be | 白俄羅斯文 |
bn | 孟加拉文 |
bs | 波士尼亞文 |
bg | 保加利亞文 |
ca | 加泰隆尼亞文 |
ceb | 宿雾 |
cs | 捷克文 |
cv | 楚瓦什 |
cy | 威爾斯文 |
da | 丹麥文 |
de | 德文 |
el | Greek |
en | 英文 |
eo | 世界語 |
et | Estonian |
eu | 巴斯克文 |
fa | 波斯文 |
fi | 芬蘭文 |
fr | 法文 |
gd | 苏格兰盖尔语 |
ga | 愛爾蘭人 |
gl | 加利西亞文 |
gu | 古吉拉特文 |
ht | 海地人 |
he | Hebrew |
ha | 豪沙文 |
hi | 北印度文 |
hr | 克羅埃西亞文 |
hu | 匈牙利文 |
hy | 亞美尼亞文 |
ilo | 伊洛克 |
id | 印尼文 |
is | 冰島文 |
it | 義大利文 |
jv | 爪哇語 |
ja | 日文 |
kn | 坎那達文 |
ka | 喬治亞文 |
kk | 哈薩克文 |
km | 中部高棉 |
ky | 吉尔吉斯 |
ko | 韓文 |
ku | 庫爾德人 |
lo | 老挝 |
la | 拉丁語 |
lv | 拉脫維亞文 |
lt | 立陶宛文 |
lb | 卢森堡语 |
ml | 馬來亞拉姆文 |
mt | 馬爾他文 |
mr | 馬拉地文 |
mk | 馬其頓文 |
mg | 馬達加斯加的 |
mn | Mongolian |
ms | 馬來文 |
my | 緬甸語 |
ne | 尼泊爾人 |
new | 紐瓦里 |
nl | 荷蘭文 |
no | 挪威文 |
or | 奧里亞 |
om | 奧羅莫 |
pa | 旁遮普文 |
pl | Polish |
pt | 葡萄牙文 |
ps | 普什托 |
qu | 克丘亞 |
ro | 羅馬尼亞文 |
ru | 俄文 |
sa | 梵文 |
si | 僧伽羅文 |
sk | 斯洛伐克文 |
sl | 斯洛維尼亞文 |
sd | 信德 |
so | 索馬利亞文 |
es | 西班牙文 |
sq | 阿爾巴尼亞文 |
sr | 塞爾維亞文 |
su | 巽他文 |
sw | 史瓦西里文 |
sv | 瑞典文 |
ta | 坦米爾文 |
tt | 韃靼語 |
te | 特拉古 |
tg | 塔吉克人的 |
tl | 他加祿文 |
th | Thai |
tk | 土庫曼 |
tr | Turkish |
ug | 维吾尔族 |
uk | 烏克蘭文 |
ur | 烏都文 |
uz | 烏茲別克文 |
vi | 越南文 |
yi | 意第緒語 |
yo | 約魯巴 |
zh | 簡體中文 |
zh-TW | 繁體中文 |
您可以使用下列任何操作來偵測文件或一組文件中的主要語言。
該DetectDominantLanguage
操作返回一個DominantLanguage對象。此BatchDetectDominantLanguage
作業會傳回DominantLanguage
物件清單,批次中的每個文件都會傳回一份物件清單。StartDominantLanguageDetectionJob
作業會啟動非同步工作,該工作會產生一個包含DominantLanguage
物件清單的檔案,該檔案用於工作中的每個文件。
下列範例是來自DetectDominantLanguage
作業的回應。
{
"Languages": [
{
"LanguageCode": "en",
"Score": 0.9793661236763
}
]
}