在列中标记重复项 - AWS Glue DataBrew

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

在列中标记重复项

返回一个新列,每行都有指定值,该列指示该行的源列中的值是否与源列前一行中的值匹配。找到匹配项后,它们会被标记为重复项。初始出现的次数不会被标记,因为它与前面的行不匹配。

参数
  • sourceColumn-源列的名称。

  • targetColumn-目标列的名称。

  • trueString— 当源列的值与该列中较早的值重复时,要在目标列中插入的字符串。

  • falseString— 当源列的值与目标列中较早的值不同时,要在目标列中插入的字符串。

例 示例

{ "RecipeAction": { "Operation": "FLAG_DUPLICATES_IN_COLUMN", "Parameters": { "sourceColumn": "Name", "targetColumn": "Duplicate", "trueString": "TRUE", "falseString": "FALSE" } } }