Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Dominante Sprache
Sie können Amazon Comprehend verwenden, um Text zu untersuchen, um die vorherrschende Sprache zu bestimmen. Amazon Comprehend identifiziert die Sprache mithilfe von Kennungen aus RFC 5646 – wenn es eine zweistellige ISO 639-1-Kennung mit einem regionalen Untertag gibt, wird diese verwendet. Andernfalls wird der Code ISO 639-2 aus drei Buchstaben verwendet.
Weitere Informationen zu RFC 5646 finden Sie unter Tags zur Identifizierung von Sprachen
Die Antwort enthält eine Punktzahl, die das Konfidenzniveau angibt, das Amazon Comprehend hat, dass eine bestimmte Sprache die dominierende Sprache im Dokument ist. Jeder Wert ist unabhängig von den anderen Werten. Der Wert gibt nicht an, dass eine Sprache einen bestimmten Prozentsatz eines Dokuments ausmacht.
Wenn ein langes Dokument (z. B. ein Buch) mehrere Sprachen enthält, können Sie das lange Dokument in kleinere Teile aufteilen und die DetectDominantLanguage
Operation für die einzelnen Teile ausführen. Anschließend können Sie die Ergebnisse aggregieren, um den Prozentsatz jeder Sprache im längeren Dokument zu bestimmen.
Die Spracherkennung von Amazon Comprehend hat die folgenden Einschränkungen:
-
Es unterstützt keine phonetische Spracherkennung. Beispielsweise erkennt es „Arigino“ nicht als Japanisch oder „Nihao“ als Chinesisch.
-
Es kann Schwierigkeiten haben, nahe Sprachpaare wie Indonesisch und Malaiisch oder Bosnisch, Italienisch und Serbisch zu unterscheiden.
-
Um optimale Ergebnisse zu erzielen, geben Sie mindestens 20 Zeichen Eingabetext an.
Amazon Comprehend erkennt die folgenden Sprachen.
Code | Sprache |
---|---|
af | Afrikaans |
am | Amharisch |
ar | Arabisch |
as | Assam |
az | Aserbaidschanisch |
ba | Baschkirisch |
be | Belarussisch |
bn | Bengalisch |
bs | Bosnisch |
bg | Bulgarisch |
ca | Katalanisch |
ceb | Cebuano |
cs | Tschechisch |
cv | Chumbash |
cy | Walisisch |
da | Dänisch |
de | Deutsch |
el | Griechisch |
en | Englisch |
eo | Esperanto |
et | Estnisch |
eu | Baskisch |
fa | Persisch |
fi | Finnisch |
fr | Französisch |
gd | Estlisch-griechisch |
ga | Trichter |
gl | Galizisch |
gu | Gujarati |
ht | Haitianisch |
he | Hebräisch |
ha | Hausa |
hi | Hindi |
hr | Kroatisch |
hu | Ungarisch |
hy | Armenisch |
ilo | Iloko |
id | Indonesisch |
is | Isländisch |
it | Italienisch |
jv | Javanesisch |
ja | Japanisch |
kn | Kannada |
ka | Georgisch |
kk | Kasachisch |
km | Zentraler Khmer |
ky | Kirghiz |
ko | Koreanisch |
ku | Poldisch |
lo | Lao |
la | Lateinisch |
lv | Lettisch |
lt | Litauisch |
lb | Luxemburgisch |
ml | Malayalam |
mt | Maltesisch |
mr | Marathi |
mk | Mazedonisch |
mg | Malagasie |
mn | Mongolisch |
ms | Malaiisch |
my | Burmesisch |
ne | Nepali |
new | Newari |
nl | Niederländisch |
no | Norwegisch |
or | Orija |
om | Oromo |
pa | Pandschabi |
pl | Polnisch |
pt | Portugiesisch |
ps | Pushto |
qu | Quechua |
ro | Rumänisch |
ru | Russisch |
sa | Sanskrit |
si | Singhalesisch |
sk | Slowakisch |
sl | Slowenisch |
sd | Sindhi |
so | Somali |
es | Spanisch |
sq | Albanisch |
sr | Serbisch |
su | Sundanesisch |
sw | Swahili |
sv | Schwedisch |
ta | Tamil |
tt | Tatarisch |
te | Telugu |
tg | Tajik |
tl | Tagalog |
th | Thailändisch |
tk | Turkmen |
tr | Türkisch |
ug | Uighur |
uk | Ukrainisch |
ur | Urdu |
uz | Usbekisch |
vi | Vietnamesisch |
yi | Yiddisch |
yo | Yorgien |
zh | Chinesisch (vereinfacht) |
zh-TW | Chinesisch (traditionell) |
Sie können eine der folgenden Operationen verwenden, um die vorherrschende Sprache in einem Dokument oder einer Reihe von Dokumenten zu erkennen.
Die -DetectDominantLanguage
Operation gibt ein -DominantLanguageObjekt zurück. Die BatchDetectDominantLanguage
Operation gibt eine Liste von DominantLanguage
Objekten zurück, eines für jedes Dokument im Batch. Der StartDominantLanguageDetectionJob
Vorgang startet einen asynchronen Auftrag, der eine Datei mit einer Liste von DominantLanguage
Objekten erzeugt, eines für jedes Dokument im Auftrag.
Das folgende Beispiel zeigt die Antwort der -DetectDominantLanguage
Operation.
{
"Languages": [
{
"LanguageCode": "en",
"Score": 0.9793661236763
}
]
}