Langue dominante - Amazon Comprehend

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Langue dominante

Vous pouvez utiliser Amazon Comprehend pour examiner le texte afin de déterminer la langue dominante. Amazon Comprehend identifie la langue à l'aide des identifiants de la RFC 5646. S'il existe un identifiant ISO 639-1 à 2 lettres, avec une sous-étiquette régionale si nécessaire, il l'utilise. Sinon, il utilise le code à 3 lettres ISO 639-2.

Pour plus d'informations sur la RFC 5646, consultez la section Tags pour identifier les langues sur le site Web de l'IETF Tools.

La réponse inclut un score qui indique le niveau de confiance d'Amazon Comprehend quant au fait qu'une langue particulière est la langue dominante du document. Chaque score est indépendant des autres scores. Le score n'indique pas qu'une langue constitue un pourcentage particulier d'un document.

Si un document long (tel qu'un livre) contient plusieurs langues, vous pouvez le diviser en petits morceaux et exécuter l'DetectDominantLanguageopération sur chaque élément. Vous pouvez ensuite agréger les résultats pour déterminer le pourcentage de chaque langue dans le document le plus long.

La détection du langage par Amazon Comprehend présente les limites suivantes :

  • Il ne prend pas en charge la détection de la langue phonétique. Par exemple, il ne détecte pas « arigato » en japonais ou « nihao » en chinois.

  • Il peut être difficile de distinguer des paires linguistiques proches, telles que l'indonésien et le malais, ou le bosniaque, le croate et le serbe.

  • Pour de meilleurs résultats, saisissez au moins 20 caractères de texte.

Amazon Comprehend détecte les langues suivantes.

Code Langue
af Afrikaans
am Amharique
ar Arabe
as Assamais
az Azerbaïdjanais
ba Bachkir
be Biélorusse
bn Bengali
bs Bosniaque
bg Bulgare
ca Catalan
ceb Cebuano
cs Tchèque
cv Tchouvache
cy Gallois
da Danois
de Allemand
el Grec
en Anglais
eo espéranto
et Estonian
eu Basque
fa Persan
fi Finnois
fr Français
gd Gaélique écossais
ga irlandais
gl Galicien
gu Gujarati
ht Haïtien
he Hébreu
ha Haoussa
hi Hindi
hr Croate
hu Hongrois
hy Arménien
ilo Iloko
id Indonésien
is Islandais
it Italien
jv Javanais
ja Japonais
kn Kannada
ka Géorgien
kk Kazakh
km Khmer central
ky kirghize
ko Coréen
ku Kurde
lo Laos
la Latin
lv Letton
lt Lituanien
lb Luxembourgeois
ml Malayalam
mt Maltais
mr Marathi
mk Macédonien
mg Malgache
mn Mongol
ms Malais
my Birman
ne Népalais
new Newari
nl Néerlandais
no Norvégien
or Oriya
om Oromo
pa Pendjabi
pl Polonais
pt Portugais
ps Pushto
qu Quechua
ro Roumain
ru Russe
sa sanskrit
si Singhalais
sk Slovaque
sl Slovène
sd Sindhi
so Somali
es Espagnol
sq Albanais
sr Serbe
su Soundanais
sw Swahili
sv Suédois
ta Tamoul
tt Tatar
te Télougou
tg Tadjik
tl Tagalog
th Thaï
tk Turkmène
tr Turc
ug Ouïghour
uk Ukrainien
ur Urdu
uz Ouzbek
vi Vietnamien
yi yiddish
yo Yoruba
zh Chinois (simplifié)
zh-TW Chinois (Traditionnel)

Vous pouvez utiliser l'une des opérations suivantes pour détecter la langue dominante dans un document ou un ensemble de documents.

L'DetectDominantLanguageopération renvoie un DominantLanguageobjet. L'BatchDetectDominantLanguageopération renvoie une liste d'DominantLanguageobjets, un pour chaque document du lot. L'StartDominantLanguageDetectionJobopération démarre une tâche asynchrone qui produit un fichier contenant une liste d'DominantLanguageobjets, un pour chaque document de la tâche.

L'exemple suivant est la réponse de l'DetectDominantLanguageopération.

{ "Languages": [ { "LanguageCode": "en", "Score": 0.9793661236763 } ] }