翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
人間は他のデータと際立っているデータポイントを容易に区別することができます。RCF は、意思決定ツリーの「フォレスト」を構築し、新しいデータポイントがフォレストをどのように変化させるかを監視することで、同じことを行います。
異常は、通常のポイントから注意を引くデータポイントです。黄色の花が咲く野原にある赤い花をイメージしてみてください。この「注意の変位」は、入力点によって占められることになるツリーの (予想される) 位置 (すなわちRCFにおけるモデル) に符号化されます。アイデアは、アルゴリズムをトレーニングするためにサンプリングされたデータのパーティションから各デシジョンツリーが成長するフォレストを作成することです。より技術的に言うと、各ツリーは、サンプル上に特定のタイプのバイナリスペースのパーティショニングツリーを構築します。Amazon QuickSight がデータをサンプリングすると、RCF は各データポイントに異常スコアを割り当てます。それは異常に見えるデータポイントにより高いスコアを与えます。スコアは、概算で、結果として得られるツリー内のポイントの深さに反比例します。Random Cut Forest は、各構成ツリーからの平均スコアを計算し、サンプルサイズに関して結果をスケーリングすることによって、異常スコアを割り当てます。
各モデル自体は弱い予測値であるため、さまざまなモデルの投票数またはスコアが集計されます。Amazon QuickSight は、スコアが最近のポイントと大幅に異なる場合、データポイントを異常と識別します。何が異常として分類されるかは、アプリケーションによって異なります。
ホワイトペーパー Random Cut Forest ベースの、ストリームにおける異常検出