Vorherrschende Sprache

Sie können Amazon Comprehend verwenden, um Text auf die dominante Sprache hin zu untersuchen. Amazon Comprehend identifiziert die Sprache anhand von Kennungen aus RFC 5646. Wenn es eine aus zwei Buchstaben bestehende ISO 639-1-ID gibt, mit einem regionalen Untertag, falls erforderlich, wird diese verwendet. Andernfalls verwendet es den 3-Buchstaben-Code nach ISO 639-2.

Weitere Informationen zu RFC 5646 finden Sie unter Tags zur Identifizierung von Sprachen auf der IETF Tools-Website.

Die Antwort enthält eine Punktzahl, die angibt, wie sicher Amazon Comprehend ist, dass eine bestimmte Sprache die dominierende Sprache im Dokument ist. Jede Punktzahl ist unabhängig von den anderen Ergebnissen. Die Punktzahl gibt nicht an, dass eine Sprache einen bestimmten Prozentsatz eines Dokuments ausmacht.

Wenn ein langes Dokument (z. B. ein Buch) mehrere Sprachen enthält, können Sie das lange Dokument in kleinere Teile aufteilen und den DetectDominantLanguage Vorgang für die einzelnen Teile ausführen. Anschließend können Sie die Ergebnisse zusammenfassen, um den prozentualen Anteil der einzelnen Sprachen im längeren Dokument zu ermitteln.

Die Spracherkennung von Amazon Comprehend hat die folgenden Einschränkungen:

Die phonetische Spracherkennung wird nicht unterstützt. Beispielsweise erkennt es „Arigato“ nicht als Japanisch oder „Nihao“ als Chinesisch.
Möglicherweise ist es schwierig, nahe beieinander liegende Sprachkombinationen wie Indonesisch und Malaiisch oder Bosnisch, Kroatisch und Serbisch zu unterscheiden.
Die besten Ergebnisse erzielen Sie, wenn Sie einen Eingabetext mit mindestens 20 Zeichen angeben.

Amazon Comprehend erkennt die folgenden Sprachen.

Code	Sprache
af	Afrikaans
am	Amharisch
ar	Arabisch
as	Assamesisch
az	Aserbaidschanisch
ba	Baschkirisch
be	Belarussisch
bn	Bengalisch
bs	Bosnisch
bg	Bulgarisch
ca	Katalanisch
ceb	Cebuano
cs	Tschechisch
cv	Tschuwaschisch
cy	Walisisch
da	Dänisch
de	Deutsch
el	Griechisch
en	Englisch
eo	Esperanto
et	Estnisch
eu	Baskisch
fa	Persisch
fi	Finnisch
fr	Französisch
gd	Schottisch-Gälisch
ga	Irisch
gl	Galizisch
gu	Gujarati
ht	Haitisch
he	Hebräisch
ha	Hausa
hi	Hindi
hr	Kroatisch
hu	Ungarisch
hy	Armenisch
ilo	Iloko
id	Indonesisch
is	Isländisch
it	Italienisch
jv	Javanesisch
ja	Japanisch
kn	Kannada
ka	Georgisch
kk	Kasachisch
km	Zentral-Khmer
ky	Kirgisisch
ko	Koreanisch
ku	Kurdisch
lo	Laotisch
la	Latein
lv	Lettisch
lt	Litauisch
lb	Luxemburgisch
ml	Malayalam
mt	Maltesisch
mr	Marathi
mk	Mazedonisch
mg	Madagassisch
mn	Mongolisch
ms	Malaiisch
my	birmanisch
ne	Nepali
new	Newari
nl	Niederländisch
no	Norwegisch
or	Oriya
om	Oromo
pa	Pandschabi
pl	Polnisch
pt	Portugiesisch
ps	Pushto
qu	Quechua
ro	Rumänisch
ru	Russisch
sa	Sanskrit
si	Singhalesisch
sk	Slowakisch
sl	Slowenisch
sd	Sindhi
so	Somali
es	Spanisch
sq	Albanisch
sr	Serbisch
su	Sundanesisch
sw	Swahili
sv	Schwedisch
ta	Tamil
tt	Tatarisch
te	Telugu
tg	Tadschikisch
tl	Tagalog
th	Thailändisch
tk	Turkmenisch
tr	Türkisch
ug	Uigurisch
uk	Ukrainisch
ur	Urdu
uz	Usbekisch
vi	Vietnamesisch
yi	Jiddisch
yo	Yoruba
zh	Chinesisch (vereinfacht)
zh-TW	Chinesisch (traditionell)

Sie können eine der folgenden Operationen verwenden, um die dominante Sprache in einem Dokument oder einer Reihe von Dokumenten zu ermitteln.

Die DetectDominantLanguage Operation gibt ein DominantLanguageObjekt zurück. Die BatchDetectDominantLanguage Operation gibt eine Liste von DominantLanguage Objekten zurück, eines für jedes Dokument im Stapel. Der StartDominantLanguageDetectionJob Vorgang startet einen asynchronen Auftrag, der eine Datei mit einer DominantLanguage Objektliste erstellt, eine für jedes Dokument im Auftrag.

Das folgende Beispiel ist die Antwort des DetectDominantLanguage Vorgangs.


{
    "Languages": [
        {
            "LanguageCode": "en",
            "Score": 0.9793661236763
        }
    ]
}

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Schlüsselphrasen

Stimmung