主要语言 - Amazon Comprehend

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

主要语言

您可以使用 Amazon Comprehend 來檢查文字,以判斷主要語言。Amazon Comprehend 使用來自 RFC 5646 的識別碼來識別語言 — 如果有兩個字母的 ISO 639-1 識別碼,並在必要時具有區域子標籤,則會使用該識別碼。否則,它會使用 ISO 639-2 3 個字母的代碼。

如需 RFC 5646 的詳細資訊,請參閱 IETF 工具網站上用於識別語言的標籤

回應包含一個分數,指出 Amazon Comprehend 具有特定語言是文件中主要語言的信賴等級。每個分數獨立於其他分數。分數並不表示某種語言構成了文檔的特定百分比。

如果長文件 (例如書冊) 包含多種語言,您可以將長文件分成較小的部分,然後在個別片段上執行DetectDominantLanguage作業。然後,您可以彙總結果,以決定較長文件中每種語言的百分比。

Amazon Comprehend 語言偵測有下列限制:

  • 它不支持語音語言檢測。例如,它不會將「arigato」檢測為日語或「nihao」檢測為中文。

  • 它可能具有不同區分的近距語言對,例如印度尼西亞語和馬來語;或波斯尼亞語,克羅地亞語和塞爾維亞語。

  • 為獲得最佳結果,請至少提供 20 個字元的輸入文字。

亞馬遜偵測到下列語言。

代碼 語言
af 南非荷蘭文
am 阿姆哈拉文
ar Arabic
as 阿薩姆
az 亞塞拜然文
ba 巴什基爾文
be 白俄羅斯文
bn 孟加拉文
bs 波士尼亞文
bg 保加利亞文
ca 加泰隆尼亞文
ceb 宿雾
cs 捷克文
cv 楚瓦什
cy 威爾斯文
da 丹麥文
de 德文
el Greek
en 英文
eo 世界語
et Estonian
eu 巴斯克文
fa 波斯文
fi 芬蘭文
fr 法文
gd 苏格兰盖尔语
ga 愛爾蘭人
gl 加利西亞文
gu 古吉拉特文
ht 海地人
he Hebrew
ha 豪沙文
hi 北印度文
hr 克羅埃西亞文
hu 匈牙利文
hy 亞美尼亞文
ilo 伊洛克
id 印尼文
is 冰島文
it 義大利文
jv 爪哇語
ja 日文
kn 坎那達文
ka 喬治亞文
kk 哈薩克文
km 中部高棉
ky 吉尔吉斯
ko 韓文
ku 庫爾德人
lo 老挝
la 拉丁語
lv 拉脫維亞文
lt 立陶宛文
lb 卢森堡语
ml 馬來亞拉姆文
mt 馬爾他文
mr 馬拉地文
mk 馬其頓文
mg 馬達加斯加的
mn Mongolian
ms 馬來文
my 緬甸語
ne 尼泊爾人
new 紐瓦里
nl 荷蘭文
no 挪威文
or 奧里亞
om 奧羅莫
pa 旁遮普文
pl Polish
pt 葡萄牙文
ps 普什托
qu 克丘亞
ro 羅馬尼亞文
ru 俄文
sa 梵文
si 僧伽羅文
sk 斯洛伐克文
sl 斯洛維尼亞文
sd 信德
so 索馬利亞文
es 西班牙文
sq 阿爾巴尼亞文
sr 塞爾維亞文
su 巽他文
sw 史瓦西里文
sv 瑞典文
ta 坦米爾文
tt 韃靼語
te 特拉古
tg 塔吉克人的
tl 他加祿文
th Thai
tk 土庫曼
tr Turkish
ug 维吾尔族
uk 烏克蘭文
ur 烏都文
uz 烏茲別克文
vi 越南文
yi 意第緒語
yo 約魯巴
zh 簡體中文
zh-TW 繁體中文

您可以使用下列任何操作來偵測文件或一組文件中的主要語言。

DetectDominantLanguage操作返回一個DominantLanguage對象。此BatchDetectDominantLanguage作業會傳回DominantLanguage物件清單,批次中的每個文件都會傳回一份物件清單。StartDominantLanguageDetectionJob作業會啟動非同步工作,該工作會產生一個包含DominantLanguage物件清單的檔案,該檔案用於工作中的每個文件。

下列範例是來自DetectDominantLanguage作業的回應。

{ "Languages": [ { "LanguageCode": "en", "Score": 0.9793661236763 } ] }