分桶化 - AWS Glue DataBrew

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

分桶化

Bucketization(在控制台中称为 Binning)获取一列数值中的项目,将它们分组为由数值范围定义的分箱,然后输出一个显示每行分箱的新列。可以使用拆分(拆分)或百分比完成拆分。下面的第一个示例使用拆分,第二个示例使用百分比。

参数
  • sourceColumn – 现有列的名称。

    targetColumn-要创建的新列的名称。

    bucketNames— 存储桶名称列表。

    splits— 存储桶等级列表。存储桶是连续的,存储桶的上限将是下一个存储桶的下限。

    percentage— 每个存储桶将以百分比来描述。

例 使用拆分

{ "Action": { "Operation": "BUCKETIZATION", "Parameters": { "sourceColumn": "level", "targetColumn": "bin", "bucketNames": "[\"Bin1\",\"Bin2\",\"Bin3\"]", "splits": "[\"-Infinity\",\"2\",\"20\",\"Infinity\"]" } } }
例 使用百分比的示例
{ "Action": { "Operation": "BUCKETIZATION", "Parameters": { "sourceColumn": "level", "targetColumn": "bin", "bucketNames": "[\"Bin1\",\"Bin2\"]", "percentage": "50" } } }