기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
지배적 언어
Amazon Comprehend를 사용하여 텍스트를 검사하여 지배적 언어를 확인할 수 있습니다. Amazon Comprehend는 RFC 5646의 식별자를 사용하여 언어를 식별합니다. 2자리 ISO 639-1 식별자가 있고 필요한 경우 리전별 하위 태그가 있다면 해당 식별자를 사용합니다. 그렇지 않으면 ISO 639-2 3자리 코드를 사용합니다.
RFC 5646에 대한 자세한 내용은 IETF Tools 웹 사이트의 언어 식별을 위한 태그
응답에는 문서에서 특정 언어가 지배적인 언어라는 Amazon Comprehend의 신뢰 수준을 나타내는 점수가 포함됩니다. 각 점수는 다른 점수와 무관합니다. 이 점수가 특정 언어가 문서에서 특정 비율을 차지한다는 것을 의미하지는 않습니다.
책과 같이 긴 문서에 여러 언어가 포함된 경우, 긴 문서를 작은 조각으로 나누고 개별 문서에 대해 DetectDominantLanguage
작업을 실행할 수 있습니다. 그런 다음 결과를 집계하여 긴 문서에서 각 언어의 비율을 확인할 수 있습니다.
Amazon Comprehend 언어 감지에는 다음과 같은 제한 사항이 있습니다.
-
음성 언어 감지는 지원하지 않습니다. 예를 들어 “arigato”를 일본어로, “nihao”를 중국어로 감지하지 못합니다.
-
인도네시아어와 말레이시아어 혹은 보스니아어, 크로아티아어, 세르비아어와 같이 가까운 언어 쌍을 구분하기 어려울 수 있습니다.
-
최상의 결과를 얻으려면 20자 이상의 입력 텍스트를 제공하십시오.
Amazon Comprehend는 다음 언어를 감지합니다.
코드 | 언어 |
---|---|
af | 아프리칸스어 |
am | 암하라어 |
ar | 아랍어 |
as | 아삼어 |
az | 아제르바이잔어 |
ba | 바쉬르어 |
be | 벨라루스어 |
bn | 벵골어 |
bs | 보스니아어 |
bg | 불가리아어 |
ca | 카탈루냐어 |
ceb | 세부아노어 |
cs | 체코어 |
cv | 추바시어 |
cy | 웨일스어 |
da | 덴마크어 |
de | 독일어 |
el | 그리스어 |
en | 영어 |
eo | 에스페란토어 |
et | 에스토니아어 |
eu | 바스크어 |
fa | 페르시아어 |
fi | 핀란드어 |
fr | 프랑스어 |
gd | 스코틀랜드 게일어 |
ga | 아일랜드어 |
gl | 갈리시아어 |
gu | 구자라트어 |
ht | 아이티어 |
he | 히브리어 |
ha | 하우사어 |
hi | 힌디어 |
hr | 크로아티아어 |
hu | 헝가리어 |
hy | 아르메니아어 |
ilo | 일로코어 |
id | 인도네시아어 |
is | 아이슬란드어 |
it | 이탈리아어 |
jv | 자바어 |
ja | 일본어 |
kn | 칸나다어 |
ka | 조지아어 |
kk | 카자흐스탄어 |
km | 중부 크메르어 |
ky | 키르기즈어 |
ko | 한국어 |
ku | 쿠르드어 |
lo | 라오스어 |
la | 라틴어 |
lv | 라트비아어 |
lt | 리투아니아어 |
lb | 룩셈부르크어 |
ml | 말라얄람어 |
mt | 몰타어 |
mr | 마라티어 |
mk | 마케도니아어 |
mg | 마다가스카르어 |
mn | 몽골어 |
ms | 말레이어 |
my | 버마어 |
ne | 네팔어 |
new | 네와리어 |
nl | 네덜란드어 |
no | 노르웨이어 |
or | 오리야어 |
om | 오로모어 |
pa | 펀자브어 |
pl | 폴란드어 |
pt | 포르투갈어 |
ps | 푸시토어 |
qu | 케추아어 |
ro | 루마니아어 |
ru | 러시아어 |
sa | 산스크리트어 |
si | 신할라어 |
sk | 슬로바키아어 |
sl | 슬로베니아어 |
sd | 신디어 |
so | 소말리아어 |
es | 스페인어 |
sq | 알바니아어 |
sr | 세르비아어 |
su | 순다어 |
sw | 스와힐리어 |
sv | 스웨덴어 |
ta | 타밀어 |
tt | 타타르어 |
te | 텔루구어 |
tg | 타지크어 |
tl | 타갈로그어 |
th | 태국어 |
tk | 투르크멘어 |
tr | 터키어 |
ug | 위구르어 |
uk | 우크라이나어 |
ur | 우르두어 |
uz | 우즈베크어 |
vi | 베트남어 |
yi | 이디시어 |
yo | 요루바어 |
zh | 중국어 간체 |
zh-TW | 중국어 번체 |
다음 작업 중 하나를 사용하여 문서 또는 문서 집합에서 지배적 언어를 감지할 수 있습니다.
이 DetectDominantLanguage
작업은 DominantLanguage객체를 반환합니다. BatchDetectDominantLanguage
작업은 배치의 각 문서에 대해 하나씩 DominantLanguage
객체 목록을 반환합니다. StartDominantLanguageDetectionJob
작업은 작업의 문서마다 하나씩 DominantLanguage
객체 목록이 포함된 파일을 생성하는 비동기 작업을 시작합니다.
다음 예제는 DetectDominantLanguage
작업의 응답입니다.
{
"Languages": [
{
"LanguageCode": "en",
"Score": 0.9793661236763
}
]
}