选择您的 Cookie 首选项

我们使用必要 Cookie 和类似工具提供我们的网站和服务。我们使用性能 Cookie 收集匿名统计数据,以便我们可以了解客户如何使用我们的网站并进行改进。必要 Cookie 无法停用,但您可以单击“自定义”或“拒绝”来拒绝性能 Cookie。

如果您同意,AWS 和经批准的第三方还将使用 Cookie 提供有用的网站功能、记住您的首选项并显示相关内容,包括相关广告。要接受或拒绝所有非必要 Cookie,请单击“接受”或“拒绝”。要做出更详细的选择,请单击“自定义”。

FillMissingValues 类

聚焦模式
FillMissingValues 类 - AWS Glue

FillMissingValues 类使用机器学习方法(如线性回归和随机森林)填充指定 DynamicFrame 列中的 null 值和空字符串,以预测缺失值。ETL 任务使用输入数据集中的值来训练机器学习模型,然后该模型预测缺失的值应该是什么。

提示

如果您使用增量数据集,则每个增量集都会用作机器学习模型的训练数据,因此结果可能不是如此准确。

导入:

from awsglueml.transforms import FillMissingValues

方法

apply(frame, missing_values_column, output_column ="", transformation_ctx ="", info ="", stageThreshold = 0, totalThreshold = 0)

填充指定列中的动态帧缺失值,并在新列中返回包含估计值的新帧。对于没有缺失值的行,指定列的值将复制到新列。

  • frame – 要填充缺失值的 DynamicFrame。必需。

  • missing_values_column – 包含缺失值(null 值和空字符串)的列。必需。

  • output_column – 新列的名称,该列将包含缺失值的所有行的估计值。可选;默认值是后缀为 "_filled"missing_values_column

  • transformation_ctx – 用于标识状态信息的唯一字符串 (可选)。

  • info – 与转换中的错误关联的字符串 (可选)。

  • stageThreshold – 在转换出错之前可能在其中发生的最大错误数 (可选;默认值为零)。

  • totalThreshold – 在处理出错之前可能全面发生的最大错误数 (可选;默认值为零)。

返回带附加列的新 DynamicFrame,该列包含带缺失值的行的估计值和其他行的当前值。

隐私网站条款Cookie 首选项
© 2025, Amazon Web Services, Inc. 或其附属公司。保留所有权利。