本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
令牌
将文本拆分为较小的单位或标记,例如单个单词或术语。
参数
-
sourceColumn
– 现有列的名称。 -
delimiter
— 出现在标记化单词之间的自定义分隔符。(默认行为是用空格分隔每个令牌。) -
expandContractions
— 如果ENABLED
,展开缩写词。例如:“不要” 变成 “不要”。 -
stemmingMode
— 将文本拆分为较小的单位或标记,例如单个小写单词或术语。有两种词干模式可供选择:PORTER
|LANCASTER
。 -
stopWordRemovalMode
— 移除 a、an、the 等常用词。 -
customStopWords
— 对于StopWordRemovalMode
,允许您指定自定义停用词列表。 -
targetColumn
— 要包含结果的列的名称。
例 示例
{ "Action": { "Operation": "TOKENIZATION", "Parameters": { "customStopWords": "[]", "delimiter": "- ", "expandContractions": "ENABLED", "sourceColumn": "dimensions", "stemmingMode": "PORTER", "stopWordRemovalMode": "DEFAULT", "targetColumn": "dimensions_tokenized" } } }