Idioma dominante

Você pode usar o Amazon Comprehend para examinar o texto e determinar o idioma dominante. O Amazon Comprehend identifica o idioma usando identificadores segundo o RFC 5646: se houver um identificador ISO 639-1 de 2 letras, com uma subtag regional, se necessário, ele usará essas informações. Caso contrário, ele usará o código ISO 639-2 de 3 letras.

Para obter mais informações sobre o RFC 5646, consulte Tags para identificação de idiomas no site IETF Tools.

A resposta inclui uma pontuação que indica o nível de confiança que o Amazon Comprehend tem de que um determinado idioma é o idioma dominante no documento. Cada pontuação é independente das outras pontuações. A pontuação não indica que um idioma compõe uma porcentagem específica de um documento.

Se um documento longo (como um livro) contiver vários idiomas, você poderá dividi-lo em partes menores e executar a operação DetectDominantLanguage nas partes individuais. Em seguida, você poderá agregar os resultados para determinar a porcentagem de cada idioma no documento mais longo.

A detecção de linguagens do Amazon Comprehend tem as seguintes limitações:

Ela não oferece suporte à detecção de linguagem fonética. Por exemplo, ele não detecta “arigato” como japonês ou “nihao” como chinês.
O recurso pode ter dificuldade em distinguir pares de idiomas próximos, como indonésio e malaio; ou bósnio, croata e sérvio.
Para obter melhores resultados, forneça pelo menos 20 caracteres de texto de entrada.

O Amazon Comprehend detecta os seguintes idiomas.

Código	Idioma
af	Africâner
am	Amárico
ar	Árabe
as	Assamês
az	Azerbaijana
ba	Bashkir
be	Bielorrusso
bn	Bengali
bs	Bósnio
bg	Búlgaro
ca	Catalão
ceb	Cebuano
cs	Tcheco
cv	Tchuvache
cy	Galês
da	Dinamarquesa
de	Alemã
el	Grega
en	Inglês
eo	Esperanto
et	Estoniano
eu	Basco
fa	Persa
fi	Finlandesa
fr	Francesa
gd	Gaélico escocês
ga	Irlandês
gl	Galego
gu	Gujarati
ht	Haitiano
he	Hebraico
ha	Hauçá
hi	Hindi
hr	Croata
hu	Húngara
hy	Armênio
ilo	Ilocano
id	Indonésia
is	Islandês
it	Italiana
jv	Javanês
ja	Japonesa
kn	Canarês
ka	Georgiano
kk	Cazaque
km	Khmer Central
ky	Quirguiz
ko	Coreana
ku	Curdo
lo	Laosiano
la	Latim
lv	Letão
lt	Lituano
lb	Luxemburguês
ml	Malaiala
mt	Maltês
mr	Marati
mk	Macedônio
mg	Malgaxe
mn	Mongol
ms	Malaio
my	Birmanês
ne	Nepalês
new	Neuari
nl	Holandesa
no	Norueguesa
or	Oriá
om	Oromo
pa	Punjabi
pl	Polonesa
pt	Portuguesa
ps	Pastó
qu	Quechua
ro	Romena
ru	Russa
sa	Sânscrito
si	Cingalês
sk	Eslovaco
sl	Esloveno
sd	Sindi
so	Somali
es	Espanhola
sq	Albanês
sr	Sérvio
su	Sudanês
sw	Suaíli
sv	Sueca
ta	Tâmil
tt	Tatárico
te	Telugo
tg	Tadjique
tl	Tagalo
th	Tailandesa
tk	Turcomano
tr	Turca
ug	Uigur
uk	Ucraniana
ur	Urdu
uz	Uzbeque
vi	Vietnamita
yi	Iídiche
yo	Iorubá
zh	Chinês (simplificado)
zh-TW	Chinês (tradicional)

Você pode usar qualquer uma das operações a seguir para detectar o idioma dominante em um documento ou conjunto de documentos.

A DetectDominantLanguage operação retorna um DominantLanguageobjeto. A operação BatchDetectDominantLanguage retorna uma lista de objetos DominantLanguage, uma para cada documento no lote. A operação StartDominantLanguageDetectionJob inicia um trabalho assíncrono que produz um arquivo contendo uma lista de objetos DominantLanguage, uma para cada documento no trabalho.

O exemplo a seguir é a resposta da operação DetectDominantLanguage.


{
    "Languages": [
        {
            "LanguageCode": "en",
            "Score": 0.9793661236763
        }
    ]
}

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Frases chave

Sentimento