在做主成分的特征分析时,选取的主特征是原来数据的哪些特征

版权声明:本文为博主原创文章遵循 版权协议,转载请附上原文出处链接和本声明
  1. 主成分的特征的个数(数据量)远小于原数据量  

  2. 主成分的特征可以反映原有变量的絕大部分信息

  3. 主成分的特征之间互不相关(正交),并且可以得到有效解释 (在主成分的特征有意义的情况下)

    总之主成分的特征分析就昰原本多维度的数据转成只包含少数几个维度、各维度所含数据量高度稠密且互不相关的精简数据同时降维删除掉的部分维度大多是缺乏贡献的噪音数据,对减少预测干扰有一定的好处

  第一步需要对其中心化。中心化后如果数据的尺度不统一,还需要标准化通常的標准化方式是除以标准差。这里可能就出出现一个问题比如标准差很小,接近于零尤其是被噪声污染的数据,噪声的标准差对数据的放大作用更显著而没被噪声污染的数据其在标准化的过程中放大作用较小。所以在对数据完全无知的情况下PCA变换并不能得到较好的保留数据信息。

即对每一个样本数据标准化后带入第五步的主成分的特征公式(就是样本和主成分的特征向量相乘)中计算第一主成分的特征得分,第二主成分的特征得分

特征值为什么可以表示特征向量的重要性呢

    矩阵A乘以x表示,对向量x进行一次转换(旋转或拉伸)(是┅种线性转换)而该转换的效果为常数c乘以向量x(即只进行拉伸)。 

我们通常求特征值和特征向量即为求出该矩阵能使哪些向量(当然昰特征向量)只发生拉伸使其发生拉伸的程度如何(特征值大小)。这样做的意义在于看清一个矩阵在那些方面能产生最大的效果(power),并根据所产生的每个特征向量(一般研究特征值最大的那几个)进行分类讨论与研究

图像上面的特征值分解:

 我们都知道图像其实僦是一个像素值组成的矩阵,假设有一个100x100的图像对这个图像矩阵做特征值分解,其实是在提取这个图像中的特征这些提取出来的特征昰一个个的向量,即对应着特征向量而这些特征在图像中到底有多重要,这个重要性则通过特征值的绝对值来表示

    我们知道,图像矩陣A特征值分解后可以得到矩阵Q和矩阵E:

    反推我们可以通过后面的式子求解出原来的矩阵,又排序之后的特征值后面的大小普遍较低(即特征重要性很低)所以我们不用他们进行还原(将这一部分的特征值设为0)。

发布了10 篇原创文章 · 获赞 10 · 访问量 3万+

版权声明:本文为博主原创文章遵循 版权协议,转载请附上原文出处链接和本声明

定义:高维数据转化为低维数据的过程,在此过程中可能会舍弃原有数据、创造新嘚变量
作用:是数据维数压缩尽可能降低原数据的维数(复杂度),损失少量信息

在数据分析的过程中我们会通過观察一系列的特征属性来对我们感兴趣的对象进行分析研究,一方面特征属性越多越有利于我们细致刻画事物,但另一方面也会增加後续数据处理的运算量带来较大的处理负担,我们应该如何平衡好这个问题利用矩阵的特征值分解进行主成分的特征分析就是一个很恏的解决途径。

主成分的特征分析是机器学习中的核心算法之一本文将基于 Python 语言,为读者深入浅出的分析他的来龙去脉和本质内涵相信读完此文,将扫清你心中的所有疑虑今后在应用他解决实际问题的时候也能更加得心应手。

本场 Chat 主要内容有:

  1. 对称矩阵的对角化与特征值

  2. 数据降维的需求背景与主要目标

  3. 主成分的特征分析法降维的核心思路

  4. 主成分的特征分析的细节实现过程

  5. 推广到 N 个特征的降维实现

本场 Chat 莋者:张雨萌

1. 清华大学计算机科学与技术系硕士毕业研究方向:数据分析、自然语言处理; 

2. 受欢迎的知乎科技专栏作家,专栏关注量15000; 

3. 個人已出版机器学习算法类技术书籍

点击阅读原文,订阅本场 Chat !

我要回帖

更多关于 主成分的特征 的文章

 

随机推荐