主成分分析 (PCA) 算法 - Amazon SageMaker

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

主成分分析 (PCA) 算法

PCA是一种无监督的机器学习算法,它试图降低数据集中的维度(特征数量),同时仍保留尽可能多的信息。这是通过查找称为成分的新特征集完成的,这些功能是原始特征的复合体,它们彼此不相关。它们还受到约束,因此第一个成分在数据中可能存在最大的可变性,第二个成分是第二个最易变的,以此类推。

在 Amazon 中 SageMaker,以两种模式PCA运行,具体视情况而定:

  • 常规:针对具有稀疏数据以及适度数量的观察和特征的数据集。

  • 随机:针对具有大量观察和特征的数据集。此模式使用近似算法。

PCA使用表格数据。

这些行表示您想要嵌入到较低维度空间中的观察。这些列表示您想要为其查找的缩小近似的特征。该算法计算协方差矩阵 (或在分布方式下的近似),然后对此摘要执行单值分解以产生主成分。

算法的输入/输出接口 PCA

对于训练,PCA需要在训练通道中提供的数据,并可以选择支持传递给测试数据集的数据集,该数据集由最终算法进行评分。recordIO-wrapped-protobufCSV 格式均支持用于训练。您可以使用文件模式或管道模式,针对格式为 recordIO-wrapped-protobufCSV 的数据训练模型。

为了进行推理,PCA支持text/csvapplication/json、和。application/x-recordio-protobuf结果以 application/jsonapplication/x-recordio-protobuf 格式返回,且具有向量“投影”。

有关输入和输出文件格式的更多信息,请参阅PCA响应格式(对于推理)和PCA 示例笔记本

EC2PCA算法的实例推荐

PCA用于训练CPU和推理的支持和GPU实例。哪个实例类型具有最高性能取决于输入数据的具体程度。例如,GPUPCA支持 P2、P3、g4dn 和 G5。

PCA 示例笔记本

有关演示如何使用 SageMaker 主成分分析算法分析MNIST数据集中从零到九的手写数字图像的示例笔记本,请参阅 wit h 简介。PCA MNIST有关如何创建和访问可用于在中运行示例的 Jupyter 笔记本实例的说明 SageMaker,请参阅。Amazon SageMaker 笔记本实例创建并打开笔记本实例后,选择 “SageMaker 示例” 选项卡以查看所有 SageMaker 示例的列表。使用NTM算法对示例笔记本进行建模的主题位于 Amazon 算法简介部分。要打开笔记本,请单击使用 选项卡,然后选择创建副本