As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Idioma dominante
Você pode usar o Amazon Comprehend para examinar o texto e determinar o idioma dominante. O Amazon Comprehend identifica o idioma usando identificadores segundo o RFC 5646 — se houver um identificador ISO 639-1 de 2 letras, com uma subtag regional, se necessário, ele usará essas informações. Caso contrário, ele usará o código ISO 639-2 de 3 letras.
Para obter mais informações sobre o RFC 5646, consulte Tags para identificação de idiomas
A resposta inclui uma pontuação que indica o nível de confiança que o Amazon Comprehend tem de que um determinado idioma é o idioma dominante no documento. Cada pontuação é independente das outras pontuações. A pontuação não indica que um idioma compõe uma porcentagem específica de um documento.
Se um documento longo (como um livro) contiver vários idiomas, você poderá dividi-lo em partes menores e executar a operação DetectDominantLanguage
nas partes individuais. Em seguida, você poderá agregar os resultados para determinar a porcentagem de cada idioma no documento mais longo.
A detecção de linguagens do Amazon Comprehend tem as seguintes limitações:
-
Ela não oferece suporte à detecção de linguagem fonética. Por exemplo, ele não detecta “arigato” como japonês ou “nihao” como chinês.
-
O recurso pode ter dificuldade em distinguir pares de idiomas próximos, como indonésio e malaio; ou bósnio, croata e sérvio.
-
Para obter melhores resultados, forneça pelo menos 20 caracteres de texto de entrada.
O Amazon Comprehend detecta os seguintes idiomas.
Código | Idioma |
---|---|
af | Africâner |
am | Amárico |
ar | Árabe |
as | Assamês |
az | Azerbaijano |
ba | Bashkir |
be | Bielorrusso |
bn | Bengali |
bs | Bósnio |
bg | Búlgaro |
ca | Catalão |
ceb | Cebuano |
cs | Tcheco |
cv | Tchuvache |
cy | Galês |
da | Dinamarquês |
de | Alemão |
el | Grego |
en | Inglês |
eo | Esperanto |
et | Estoniano |
eu | Basco |
fa | Persa |
fi | Finlandês |
fr | Francês |
gd | Gaélico escocês |
ga | Irlandês |
gl | Galego |
gu | Gujarati |
ht | Haitiano |
he | Hebraico |
ha | Hauçá |
hi | Hindi |
hr | Croata |
hu | Húngaro |
hy | Armênio |
ilo | Ilocano |
id | Indonésio |
is | Islandês |
it | Italiano |
jv | Javanês |
ja | Japonês |
kn | Canarês |
ka | Georgiano |
kk | Cazaque |
km | Khmer Central |
ky | Quirguiz |
ko | Coreano |
ku | Curdo |
lo | Laosiano |
la | Latim |
lv | Letão |
lt | Lituano |
lb | Luxemburguês |
ml | Malaiala |
mt | Maltês |
mr | Marati |
mk | Macedônio |
mg | Malgaxe |
mn | Mongol |
ms | Malaio |
my | Birmanês |
ne | Nepalês |
new | Neuari |
nl | Holandês |
no | Norueguês |
or | Oriá |
om | Oromo |
pa | Punjabi |
pl | Polonês |
pt | Português |
ps | Pastó |
qu | Quechua |
ro | Romeno |
ru | Russo |
sa | Sânscrito |
si | Cingalês |
sk | Eslovaco |
sl | Esloveno |
sd | Sindi |
so | Somali |
es | Espanhol |
sq | Albanês |
sr | Sérvio |
su | Sudanês |
sw | Suaíli |
sv | Sueco |
ta | Tâmil |
tt | Tatárico |
te | Telugo |
tg | Tadjique |
tl | Tagalo |
th | Tailandês |
tk | Turcomano |
tr | Turco |
ug | Uigur |
uk | Ucraniano |
ur | Urdu |
uz | Uzbeque |
vi | Vietnamita |
yi | Iídiche |
yo | Iorubá |
zh | Chinês (simplificado) |
zh-TW | Chinês (tradicional) |
Você pode usar qualquer uma das operações a seguir para detectar o idioma dominante em um documento ou conjunto de documentos.
A DetectDominantLanguage
operação retorna um DominantLanguageobjeto. A operação BatchDetectDominantLanguage
retorna uma lista de objetos DominantLanguage
, uma para cada documento no lote. A operação StartDominantLanguageDetectionJob
inicia um trabalho assíncrono que produz um arquivo contendo uma lista de objetos DominantLanguage
, uma para cada documento no trabalho.
O exemplo a seguir é a resposta da operação DetectDominantLanguage
.
{
"Languages": [
{
"LanguageCode": "en",
"Score": 0.9793661236763
}
]
}