1. Fisher线性判别
答:
(1)考虑把d维空间的样本投影到一条直线上,形成一维空间,即把维数压缩到一维。
(2)然而,即使样本在d维空间里形成若干紧凑的互相分得开的集群,当把它们投影到一条直线上时,也可能会是几类样本混在一起而变得无法识别。
(3)但是,在一般情况下,总可以找到某个方向,使在这个方向的直线上,样本的投影能分得开。
假设有一集合包含 个 维样本 ,若对 的分量做线性组合可得标量:
这样便得到 个一维样本 组成的集合。实际上, 的值是无关紧要的,它仅是 乘上一个比例因子,重要的是选择w的方向。 的方向不同,将使样本投影后的可分离程度不同,从而直接影响的分类效果。
因此,上述寻找最佳投影方向的问题,在数学上就是寻找最好的变换向量 的问题
其中 是类间离散度矩阵, 为类内离散度矩阵。
解:
其中: 和 为两类的均值。
附:
维 空间
(1)样本均值:
(2)类内离散度矩阵:
(3)类间离散度矩阵:
1维 空间
(1)样本均值
(2)类内离散度矩阵:
定义:
分子为均值之差,分母为样本在Y上类内离散度,应该使得分子尽可能大而分母尽可能小。
则分子可以化为:
同理,分母可以化为
则总体可以写为:
使用拉格朗日乘子法,令分母等于非零常数:
定义拉格朗日函数为:
令偏导数为零:
即:
其中 就是 的极值解。因为 非奇异,将上式两边左乘 ,可得:
上式为求一般矩阵 的特征值问题。利用 的定义,将上式左边的 写成:
其中 为一标量,所以 总在向量 的方向上。因此 可以写成:
从而可得:
因为目的是选择最佳投影方向,因此比例因子无影响,忽略比例因子 ,得到:
2. fisher线性判别的基本思想
Fisher线性判别分析的基本思想:选择一个投影方向(线性变换,线性组合),将高维问题降低到一维问题来解决,同时变换后的一维数据满足每一类内部的样本尽可能聚集在一起,不同类的样本相隔尽可能地远。
Fisher线性判别分析,就是通过给定的训练数据,确定投影方向W和阈值w0, 即确定线性判别函数,然后根据这个线性判别函数,对测试数据进行测试,得到测试数据的类别。
Fisher判别分析是要实现有最大的类间距离,以及最小的类内距离。
性判别函数的一般形式可表示成
g ( X ) = W T X + w 0 g(X)=W^TX+w_{0}
g(X)=W
T X+w 0其中
Fisher选择投影方向W的原则,即使原样本向量在该方向上的投影能兼顾类间分布尽可能分开,类内样本投影尽可能密集的要求。
(1)、W的确定
各类样本均值向量mi
、Fisher线性判别的决策规则
1.投影后,各类样本内部尽可能密集,即总类内离散度越小越好。2.投影后,各类样本尽可能离得远,即样本类间离散度越大越好。根据这两个性质,可求出。
3. 判别分析(Fisher判别方法)
20210308 未完更新中
为了克服“维数灾难”,人们将高维数据投影到低维空间上来,并保持必要的特征,这样,一方面数据点变得比较密集一些,另一方面,可以在低维空间上进行研究。
Fisher判别分析的基本思想 :选取适当的投影方向,将样本数据进行投影,使得投影后各样本点尽可能分离开来,即:使得投影后各样本 类内 离差平方和尽可能小,而使各样本 类间 的离差平方和尽可能大。
①设已知有两个类 和 ,在已知的数据中, 类有 个个体, 类有 个个体,即:
注意:个体 为列向量,列向量的元素为不同特征的具体数值。如,小明身高180,体重70,可以设小明这个个体为 ②计算两个类的 均值 : ③计算两个类的 类内离差平方和 矩阵: 总的离差阵为 类间离差阵为 ④设需要找的投影向量为 ,将所有的个体 投影到 方向上,则可以得到投影后的结果为 ,即: 第一类个体在 方向上的投影结果为: ; 第二类个体在 方向上的投影结果为: ; ⑤计算投影后两类的均值与类内离差平方和矩阵
总离差:
类间方差:
⑥要使得在新的(投影后)数据空间中,数据的分离性能最好,即要使得两个类的类内距离最小,类间距离最大,建立目标函数 ,希望找到合适的投影向量 ,使得目标函数 达到最大。
采用Lagrange乘数法求解。令分母等于非零常数,即:
定义lagrange函数为
对 求偏导得
又矩阵 与 是对称矩阵,因此,上式可化简为
令 ,有
记上式得解为 ,则 继续化简有:
两边同时左乘 得:
因此, 即为矩阵 的最大特征值对应的特征向量
又
故
又 为一标量,因此 记
则
而标量 并不会影响 的投影方向。 综上所述, 的解为