本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
主成分分析 (PCA) 算法
PCA是一种无监督的机器学习算法,它试图降低数据集中的维度(特征数量),同时仍保留尽可能多的信息。这是通过查找称为成分的新特征集完成的,这些功能是原始特征的复合体,它们彼此不相关。它们还受到约束,因此第一个成分在数据中可能存在最大的可变性,第二个成分是第二个最易变的,以此类推。
在 Amazon 中 SageMaker,以两种模式PCA运行,具体视情况而定:
-
常规:针对具有稀疏数据以及适度数量的观察和特征的数据集。
-
随机:针对具有大量观察和特征的数据集。此模式使用近似算法。
PCA使用表格数据。
这些行表示您想要嵌入到较低维度空间中的观察。这些列表示您想要为其查找的缩小近似的特征。该算法计算协方差矩阵 (或在分布方式下的近似),然后对此摘要执行单值分解以产生主成分。
算法的输入/输出接口 PCA
对于训练,PCA需要在训练通道中提供的数据,并可以选择支持传递给测试数据集的数据集,该数据集由最终算法进行评分。recordIO-wrapped-protobuf
和 CSV
格式均支持用于训练。您可以使用文件模式或管道模式,针对格式为 recordIO-wrapped-protobuf
或 CSV
的数据训练模型。
为了进行推理,PCA支持text/csv
application/json
、和。application/x-recordio-protobuf
结果以 application/json
或 application/x-recordio-protobuf
格式返回,且具有向量“投影”。
有关输入和输出文件格式的更多信息,请参阅PCA响应格式(对于推理)和PCA 示例笔记本。
EC2PCA算法的实例推荐
PCA用于训练CPU和推理的支持和GPU实例。哪个实例类型具有最高性能取决于输入数据的具体程度。例如,GPUPCA支持 P2、P3、g4dn 和 G5。
PCA 示例笔记本
有关演示如何使用 SageMaker 主成分分析算法分析MNIST数据集中从零到九的手写数字图像的示例笔记本,请参阅 wit h 简介