As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Use a análise de sintaxe para analisar as palavras do documento e retornar a parte do discurso, ou função sintática, para cada palavra no documento. É possível identificar os substantivos, verbos, adjetivos e assim por diante em seu documento. Use essas informações para uma compreensão mais aprofundada do conteúdo de seus documentos e para entender a relação das palavras no documento.
Por exemplo, você pode procurar os substantivos em um documento e depois procurar os verbos relacionados a esses substantivos. Em uma frase como “Minha avó mudou o sofá”, é possível ver os substantivos “avó” e “sofá” e o verbo “mudou”. Use essas informações para criar aplicativos a fim de analisar texto para combinações de palavras nas quais você está interessado.
Para iniciar a análise, o Amazon Comprehend analisa o texto fonte para encontrar as palavras individuais no texto. Depois que o texto é analisado, cada palavra recebe a parte do discurso que ela absorve no texto de origem.
O Amazon Comprehend pode identificar as seguintes partes do discurso.
Token | Parte do discurso |
---|---|
ADJ | Adjetivo Palavras que normalmente modificam substantivos. |
ADP | Aposição O núcleo de uma frase preposicional ou pós-posposicional. |
ADV | Advérbio Palavras que normalmente modificam verbos. Eles também podem modificar adjetivos e outros advérbios. |
AUX | Auxiliar Palavras funcionais que acompanham o verbo de uma frase verbal. |
CCONJ | Conjunção coordenadora Uma conjunção coordenativa conecta palavras, frases ou cláusulas em uma frase sem subordinar uma à outra. |
CONJ | Conjunção Uma conjunção conecta palavras, frases ou cláusulas em uma frase. |
DET | Determinante Artigos e outras palavras que especificam um sintagma nominal específico. |
INTJ | Interjeição Palavras usadas como exclamação ou parte de uma exclamação. |
NOUN |
Substantivo Palavras que especificam uma pessoa, lugar, coisa, animal ou ideia. |
NUM | Numeral Palavras, normalmente determinantes, adjetivos ou pronomes, que expressam um número. |
O | Outros Palavras que não podem ser atribuídas a uma parte da categoria de fala. |
PART | Partícula Palavras funcionais associadas a outra palavra ou frase para dar significado. |
PRON | Pronome Palavras que substituem substantivos ou frases nominais. |
PROPN | Substantivo próprio Um substantivo que é o nome de um indivíduo, lugar ou objeto específico. |
PUNCT | Pontuação Caracteres não alfabéticos que delimitam o texto. |
SCONJ | Conjunção subordinativa Uma conjunção que une uma cláusula dependente a uma frase. Um exemplo de conjunção subordinada é “porque”. |
SYM | Símbolo Entidades semelhantes a palavras, como o cifrão ($) ou símbolos matemáticos. |
VERB | Verb Palavras que sinalizam eventos e ações. |
Para mais informações sobre as partes do discurso, consulte as Tags universais POS
As operações retornam tokens que identificam a palavra e a parte do discurso que a palavra representa no texto. Cada token representa uma palavra no texto fonte. Ele fornece a localização da palavra na fonte, a parte do discurso que a palavra assume no texto, a confiança que o Amazon Comprehend tem de que a parte da fala foi identificada corretamente e a palavra que foi analisada a partir do texto de origem.
A seguir está a estrutura da lista de tokens de sintaxe. Um token de sintaxe é gerado para cada palavra no documento.
{
"SyntaxTokens": [
{
"BeginOffset": number,
"EndOffset": number,
"PartOfSpeech": {
"Score": number,
"Tag": "string"
},
"Text": "string",
"TokenId": number
}
]
}
Cada token fornece as seguintes informações:
-
BeginOffset
eEndOffset
: fornece a localização da palavra no texto de entrada. -
PartOfSpeech
: fornece duas informações, aTag
que identifica a parte da fala e aScore
que representa a confiança que a Amazon Comprehend Syntax tem de que a parte da fala foi identificada corretamente. -
Text
: fornece a palavra que foi identificada. -
TokenId
: fornece um identificador para o token. O identificador é a posição do token na lista de tokens.