구문 분석 - Amazon Comprehend

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

구문 분석

구문 분석을 사용하여 문서의 단어를 파싱하고 문서 내 각 단어의 품사 또는 구문 함수를 반환합니다. 문서에서 명사, 동사, 형용사 등을 식별할 수 있습니다. 이 정보를 사용하여 문서 내용을 더 잘 이해하고 문서 내 단어 간의 관계를 이해할 수 있습니다.

예를 들어, 문서에서 명사를 찾은 다음 해당 명사와 관련된 동사를 찾을 수 있습니다. “할머니가 소파를 옮기셨어요”와 같은 문장에서는 “할머니”와 “소파”라는 명사와 “옮기셨어요”라는 동사를 볼 수 있습니다. 이 정보를 사용하여 텍스트에서 관심이 있는 단어 조합을 분석하는 애플리케이션을 만들 수 있습니다.

분석을 시작하기 위해 Amazon Comprehend는 원본 텍스트를 구문 분석하여 텍스트에서 개별 단어를 찾습니다. 텍스트를 구문 분석한 후 각 단어에 원본 텍스트에서 차지하는 품사가 할당됩니다.

Amazon Comprehend는 다음과 같은 품사를 식별할 수 있습니다.

토큰 품사
ADJ

형용사

일반적으로 명사를 변형시키는 단어입니다.

ADP

부치사

전치사 또는 후치사 구의 머리말입니다.

ADV

부사

일반적으로 동사를 변형시키는 단어입니다. 형용사 및 기타 부사를 수정할 수도 있습니다.

AUX

조동사

동사구의 동사에 수반되는 기능어입니다.

CCONJ

조정 접속사

조정 접속사는 한 문장의 단어, 구 또는 절을 서로 종속시키지 않고 연결합니다.

CONJ

접속사

접속사는 문장의 단어, 구 또는 절을 연결합니다.

DET

한정사

특정 명사구를 지정하는 관사 및 기타 단어입니다.

INTJ

감탄사

감탄사 또는 감탄사의 일부로 사용되는 단어입니다.

NOUN

명사

사람, 장소, 사물, 동물 또는 아이디어를 지칭하는 단어입니다.

NUM

숫자

숫자를 표현하는 단어(일반적으로 한정사, 형용사 또는 대명사)입니다.

O

기타

품사 범주를 지정할 수 없는 단어입니다.

PART

불변화사

다른 단어나 구와 연관되어 의미를 부여하는 기능어입니다.

PRON

대명사

명사나 명사구를 대체하는 단어입니다.

PROPN

고유 명사

특정 개인, 장소 또는 사물의 이름을 나타내는 명사입니다.

PUNCT

문장 부호

텍스트를 구분하는 알파벳이 아닌 문자입니다.

SCONJ

종속 접속사

종속 조항을 문장에 연결하는 접속사입니다. 종속 접속사의 예로는 “because”가 있습니다.

SYM

Symbol

달러 기호($) 또는 수학 기호와 같은 단어 모양의 엔터티입니다.

VERB

동사

사건과 행동을 나타내는 단어입니다.

품사에 대한 자세한 내용은 범용 종속성 웹사이트의 범용 POS 태그를 참조하십시오.

작업은 텍스트에서 해당 단어가 나타내는 품사와 단어를 식별하는 토큰을 반환합니다. 각 토큰은 소스 텍스트에 있는 단어를 나타냅니다. 소스에서 단어의 위치, 텍스트에서 해당 단어가 차지하는 품사, 품사가 올바르게 식별되었다는 Amazon Comprehend의 신뢰성, 원본 텍스트에서 파싱된 단어를 제공합니다.

다음은 구문 토큰 목록의 구조입니다. 문서의 각 단어에 대해 하나의 구문 토큰이 생성됩니다.

{ "SyntaxTokens": [ { "BeginOffset": number, "EndOffset": number, "PartOfSpeech": { "Score": number, "Tag": "string" }, "Text": "string", "TokenId": number } ] }

각 토큰은 다음 정보를 제공합니다.

  • BeginOffsetEndOffset —입력 텍스트에서 단어의 위치를 제공합니다.

  • PartOfSpeech—두 가지 정보를 제공합니다. 하나는 품사를 식별하는 Tag이고 다른 하나는 품사가 올바르게 식별되었다는 Amazon Comprehend Syntax의 신뢰도를 나타내는 Score입니다.

  • Text—식별된 단어를 제공합니다.

  • TokenId—토큰의 식별자를 제공합니다. 식별자는 토큰 목록에서 토큰의 위치입니다.