本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
ONE_HOT_ENCODING
创建 n 个数值列,其中 n 是所选类别变量中唯一值的数量。
例如,假设一个名为的列shirt_size
。衬衫有小号、中号、大号或超大号可供选择。列数据可能如下所示。
shirt_size
-----------
L
XL
M
S
M
M
S
XL
M
L
XL
M
在这种情况下,有四个不同的值shirt_size
。因此,ONE_HOT_ENCODING
生成四个新列。每个新列都被命名shirt_size_
,其中x
代表一个不同的x
shirt_size
值。
的结果shirt_size
和生成的四列如下所示。
shirt_size shirt_size_S shirt_size_M shirt_size_L shirt_size_XL
------------ ------------ ------------ ------------ -------------
L 0 0 1 0
XL 0 0 0 1
M 0 1 0 0
S 1 0 0 0
M 0 1 0 0
M 0 1 0 0
S 1 0 0 0
XL 0 0 0 1
M 0 1 0 0
L 0 0 1 0
XL 0 0 0 1
M 0 1 0 0
您指定的列最多ONE_HOT_ENCODING
可以有十 (10) 个不同的值。
参数
-
sourceColumn
– 现有列的名称。该列最多可以有 10 个不同的值。
例 示例
{ "RecipeAction": { "Operation": "ONE_HOT_ENCODING", "Parameters": { "sourceColumn": "shirt_size" } } }