什么是 RCF? - Amazon QuickSight

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

什么是 RCF?

随机砍伐森林 (RCF) 是一种特殊类型的随机森林 (RF) 算法,是一种在机器学习中广泛使用且获得成功的技术。它需要使用一组随机数据点,将它们砍伐为相同数量的点,然后构建一组模型。相比之下,模型对应于决策树,因此被命名为森林。由于 RFs 无法轻易地以增量方式更新,因此发明 RCFs 了树结构中的变量,这些变量旨在允许增量更新。

作为非监督型算法,RCF 使用聚类分析检测时间序列数据中的峰值、周期性或季节性中断以及数据点异常。随机砍伐森林可用作动态数据流(或时间索引的数值序列)的概要或概述。有关流的问题答案来自于该概要。以下特性描述了流以及我们如何与异常检测和预测建立关联:

  • 流式处理算法 是一种占用内存较少的在线算法。在线算法在看到第 (t+1) 个点之前就按时间 t 索引的输入点做出决策。小内存允许以低延迟生成答案的敏捷算法并允许用户与数据交互。

  • 在异常检测和预测中需要尊重在线 算法中按时间进行的排序。如果我们已经知道后天会发生什么,那么预测明天会发生什么就不是预测,而只是插入一个未知的缺失值。同样,今天引入的新产品可能是异常,但不一定在下一个季度末仍然是异常。