聚类分析、判别分析、主成分分析、因子分析

2024-05-13 09:26

1. 聚类分析、判别分析、主成分分析、因子分析

来自: 带呀带尾呀 (数据小生、数字营销、新媒体)
  
 主成分分析与因子分析的区别
  
 1. 目的不同： 因子分析把诸多变量看成由对每一个变量都有作用的一些公共因子和仅对某一个变量有作用的特殊因子线性组合而成，因此就是要从数据中控查出对变量起解释作用的公共因子和特殊因子以及其组合系数；主成分分析只是从空间生成的角度寻找能解释诸多变量变异的绝大部分的几组彼此不相关的新变量（主成分）。
  
 2. 线性表示方向不同： 因子分析是把变量表示成各公因子的线性组合；而主成分分析中则是把主成分表示成各变量的线性组合。
  
 3. 假设条件不同：主成分分析中不需要有假设；因子分析的假设包括：各个公共因子之间不相关，特殊因子之间不相关，公共因子和特殊因子之间不相关。
  
 4. 提取主因子的方法不同：因子分析抽取主因子不仅有主成分法，还有极大似然法，主轴因子法，基于这些方法得到的结果也不同；主成分只能用主成分法抽取。
  
 5. 主成分与因子的变化：当给定的协方差矩阵或者相关矩阵的特征值唯一时，主成分一般是固定的；而因子分析中因子不是固定的，可以旋转得到不同的因子。
  
 6. 因子数量与主成分的数量：在因子分析中，因子个数需要分析者指定（SPSS根据一定的条件自动设定，只要是特征值大于1的因子主可进入分析），指定的因子数量不同而结果也不同；在主成分分析中，成分的数量是一定的，一般有几个变量就有几个主成分（只是主成分所解释的信息量不等）。
  
 7. 功能：和主成分分析相比，由于因子分析可以使用旋转技术帮助解释因子，在解释方面更加有优势；而如果想把现有的变量变成少数几个新的变量（新的变量几乎带有原来所有变量的信息）来进入后续的分析，则可以使用主成分分析。当然，这种情况也可以使用因子得分做到，所以这种区分不是绝对的。
  
 1 、聚类分析
  
 基本原理：将个体（样品）或者对象（变量）按相似程度（距离远近）划分类别，使得同一类中的元素之间的相似性比其他类的元素的相似性更强。目的在于使类间元素的同质性最大化和类与类间元素的异质性最大化。
  
 常用聚类方法：系统聚类法，K-均值法，模糊聚类法，有序样品的聚类，分解法，加入法。
  
 注意事项：1. 系统聚类法可对变量或者记录进行分类，K-均值法只能对记录进行分类；
  
 2. K-均值法要求分析人员事先知道样品分为多少类；
  
 3. 对变量的多元正态性，方差齐性等要求较高。
  
 应用领域：细分市场，消费行为划分，设计抽样方案等
  
 2、判别分析
  
 基本原理：从已知的各种分类情况中总结规律（训练出判别函数），当新样品进入时，判断其与判别函数之间的相似程度（概率最大，距离最近，离差最小等判别准则）。
  
 常用判别方法：最大似然法，距离判别法，Fisher判别法，Bayes判别法，逐步判别法等。
  
 注意事项：1. 判别分析的基本条件：分组类型在两组以上，解释变量必须是可测的；
  
 2. 每个解释变量不能是其它解释变量的线性组合（比如出现多重共线性情况时，判别权重会出现问题）；
  
 3. 各解释变量之间服从多元正态分布（不符合时，可使用Logistic回归替代），且各组解释变量的协方差矩阵相等（各组协方方差矩阵有显著差异时，判别函数不相同）。
  
 相对而言，即使判别函数违反上述适用条件，也很稳健，对结果影响不大。
  
 应用领域：对客户进行信用预测，寻找潜在客户（是否为消费者，公司是否成功，学生是否被录用等等），临床上用于鉴别诊断。
  
 3、 主成分分析/ 因子分析
  
 主成分分析基本原理：利用降维（线性变换)的思想，在损失很少信息的前提下把多个指标转化为几个综合指标（主成分),即每个主成分都是原始变量的线性组合,且各个主成分之间互不相关,使得主成分比原始变量具有某些更优越的性能（主成分必须保留原始变量90%以上的信息），从而达到简化系统结构，抓住问题实质的目的。
  
 因子分析基本原理：利用降维的思想，由研究原始变量相关矩阵内部的依赖关系出发，把一些具有错综复杂关系的变量归结为少数几个综合因子。（因子分析是主成分的推广，相对于主成分分析，更倾向于描述原始变量之间的相关关系）
  
 求解主成分的方法：从协方差阵出发（协方差阵已知），从相关阵出发（相关阵R已知）。
  
 （实际研究中，总体协方差阵与相关阵是未知的，必须通过样本数据来估计）
  
 求解因子载荷的方法：主成分法，主轴因子法，极大似然法，最小二乘法，a因子提取法。
  
 注意事项：1. 由协方差阵出发与由相关阵出发求解主成分所得结果不一致时，要恰当的选取某一种方法；
  
 2. 对于度量单位或是取值范围在同量级的数据，可直接求协方差阵；对于度量单位不同的指标或是取值范围彼此差异非常大的指标，应考虑将数据标准化，再由协方差阵求主成分；
  
 3.主成分分析不要求数据来源于正态分布；
  
 4. 在选取初始变量进入分析时应该特别注意原始变量是否存在多重共线性的问题（最小特征根接近于零，说明存在多重共线性问题）。
  
 5. 因子分析中各个公共因子之间不相关，特殊因子之间不相关，公共因子和特殊因子之间不相关。
  
 应用领域：解决共线性问题，评价问卷的结构效度，寻找变量间潜在的结构，内在结构证实。
  
 4、对应分析/最优尺度分析
  
 基本原理：利用降维的思想以达到简化数据结构的目的，同时对数据表中的行与列进行处理，寻求以低维图形表示数据表中行与列之间的关系。
  
 对应分析：用于展示变量（两个/多个分类）间的关系（变量的分类数较多时较佳）；
  
 最优尺度分析：可同时分析多个变量间的关系，变量的类型可以是无序多分类，有序多分类或连续性变量，并 对多选题的分析提供了支持。
  
 5、典型相关分析
  
 基本原理：借用主成分分析降维的思想，分别对两组变量提取主成分，且使从两组变量提取的主成分之间的相关程度达到最大，而从同一组内部提取的各主成分之间互不相关。

2. 因子分析法和主成分分析法的区别与联系是什么？

联系:因子分析法和主成分分析法都是统计分析方法，都要对变量标准化，并找出相关矩阵。区别:在主成分分析中，最终确定的新变量是原始变量的线性组合，因子分析是要利用少数几个公共因子去解释较多个要观测变量中存在的复杂关系。1.因子分析法通过正交变换，将一组可能具有相关性的变量转换为一组线性不相关的变量，称为主成分。它主要用于市场研究领域。在市场研究中，研究人员关注一些研究指标的整合或组合。这些概念通常通过分数来衡量。人口学、数量地理学、分子动力学模拟、数学建模、数学分析等学科。因子分析和主成分分析都是统计分析方法，都需要对变量进行标准化，找出相关矩阵。2.因子分析可以在许多变量中发现隐藏的代表性因素。主成分分析的原理是尝试将原始变量重新组合成一组新的独立综合变量。因子分析在主成分分析的基础上增加了一个旋转函数。这种轮换的目的是更容易地命名和解释因素的含义。如果研究的重点是指标与分析项目之间的对应关系，或者想要对得到的指标进行命名，建议使用因子分析。3.主成分分析法是根据实际需要，尽量选取尽可能少的求和变量，以反映原始变量的信息。这种统计方法称为主成分分析或主成分分析，这也是一种处理降维的数学方法。主成分分析试图用一套新的不相关的综合指标取代原有指标。因子分析是社会研究的有力工具，但它不能确定一项研究中有多少因素。当研究中选择的变量发生变化时，因素的数量也会发生变化。拓展资料:霍特林将这种方法推广到随机向量的情况。信息的大小通常由方差或方差的平方和来衡量。因子分析最早由英国心理学家C.E.斯皮尔曼提出。他发现学生在不同科目的成绩之间有一定的相关性。一门学科成绩好的学生往往在其他学科成绩更好，因此他推测是否有一些潜在的共同因素或一些一般的智力条件影响学生的学业成绩。

3. 因子分析的目的是什么？和主成分分析有什么区别和联系？

因子分析中是把变量表示成各因子的线性组合，而主成分分析中则是把主成分表示成个变量的线性组合。2、主成分分析的重点在于解释个变量的总方差，而因子分析则把重点放在解释各变量之间的协方差。3、主成分分析中不需要有假设(assumptions)，因子分析则需要一些假设。因子分析的假设包括：各个共同因子之间不相关，特殊因子（specific factor）之间也不相关，共同因子和特殊因子之间也不相关。4、主成分分析中，当给定的协方差矩阵或者相关矩阵的特征值是唯一的时候，的主成分一般是独特的；而因子分析中因子不是独特的，可以旋转得到不同的因子。5、在因子分析中，因子个数需要分析者指定（spss根据一定的条件自动设定，只要是特征值大于1的因子进入分析），而指定的因子数量不同而结果不同。在主成分分析中，成分的数量是一定的，一般有几个变量就有几个主成分。和主成分分析相比，由于因子分析可以使用旋转技术帮助解释因子，在解释方面更加有优势。大致说来，当需要寻找潜在的因子，并对这些因子进行解释的时候，更加倾向于使用因子分析，并且借助旋转技术帮助更好解释。而如果想把现有的变量变成少数几个新的变量（新的变量几乎带有原来所有变量的信息）来进入后续的分析，则可以使用主成分分析。当然，这中情况也可以使用因子得分做到。所以这中区分不是绝对的【摘要】
因子分析的目的是什么？和主成分分析有什么区别和联系？【提问】
因子分析中是把变量表示成各因子的线性组合，而主成分分析中则是把主成分表示成个变量的线性组合。2、主成分分析的重点在于解释个变量的总方差，而因子分析则把重点放在解释各变量之间的协方差。3、主成分分析中不需要有假设(assumptions)，因子分析则需要一些假设。因子分析的假设包括：各个共同因子之间不相关，特殊因子（specific factor）之间也不相关，共同因子和特殊因子之间也不相关。4、主成分分析中，当给定的协方差矩阵或者相关矩阵的特征值是唯一的时候，的主成分一般是独特的；而因子分析中因子不是独特的，可以旋转得到不同的因子。5、在因子分析中，因子个数需要分析者指定（spss根据一定的条件自动设定，只要是特征值大于1的因子进入分析），而指定的因子数量不同而结果不同。在主成分分析中，成分的数量是一定的，一般有几个变量就有几个主成分。和主成分分析相比，由于因子分析可以使用旋转技术帮助解释因子，在解释方面更加有优势。大致说来，当需要寻找潜在的因子，并对这些因子进行解释的时候，更加倾向于使用因子分析，并且借助旋转技术帮助更好解释。而如果想把现有的变量变成少数几个新的变量（新的变量几乎带有原来所有变量的信息）来进入后续的分析，则可以使用主成分分析。当然，这中情况也可以使用因子得分做到。所以这中区分不是绝对的【回答】

因子分析的目的是什么？和主成分分析有什么区别和联系？

4. 主成分分析，聚类分析，因子分析的基本思想以及他们各自的优缺点。

主成分分析与因子分析的区别

 
1. 目的不同： 因子分析把诸多变量看成由对每一个变量都有作用的一些公共因子和仅对某一个变量有作用的特殊因子线性组合而成，因此就是要从数据中控查出对变量起解释作用的公共因子和特殊因子以及其组合系数；主成分分析只是从空间生成的角度寻找能解释诸多变量变异的绝大部分的几组彼此不相关的新变量（主成分）。

2. 线性表示方向不同： 因子分析是把变量表示成各公因子的线性组合；而主成分分析中则是把主成分表示成各变量的线性组合。

3. 假设条件不同：主成分分析中不需要有假设；因子分析的假设包括：各个公共因子之间不相关，特殊因子之间不相关，公共因子和特殊因子之间不相关。

4. 提取主因子的方法不同：因子分析抽取主因子不仅有主成分法，还有极大似然法，主轴因子法，基于这些方法得到的结果也不同；主成分只能用主成分法抽取。

5. 主成分与因子的变化：当给定的协方差矩阵或者相关矩阵的特征值唯一时，主成分一般是固定的；而因子分析中因子不是固定的，可以旋转得到不同的因子。

6. 因子数量与主成分的数量：在因子分析中，因子个数需要分析者指定（SPSS根据一定的条件自动设定，只要是特征值大于1的因子主可进入分析），指定的因子数量不同而结果也不同；在主成分分析中，成分的数量是一定的，一般有几个变量就有几个主成分（只是主成分所解释的信息量不等）。

7. 功能：和主成分分析相比，由于因子分析可以使用旋转技术帮助解释因子，在解释方面更加有优势；而如果想把现有的变量变成少数几个新的变量（新的变量几乎带有原来所有变量的信息）来进入后续的分析，则可以使用主成分分析。当然，这种情况也可以使用因子得分做到，所以这种区分不是绝对的。
 

1 、聚类分析

基本原理：将个体（样品）或者对象（变量）按相似程度（距离远近）划分类别，使得同一类中的元素之间的相似性比其他类的元素的相似性更强。目的在于使类间元素的同质性最大化和类与类间元素的异质性最大化。

常用聚类方法：系统聚类法，K-均值法，模糊聚类法，有序样品的聚类，分解法，加入法。

注意事项：1. 系统聚类法可对变量或者记录进行分类，K-均值法只能对记录进行分类；

          2. K-均值法要求分析人员事先知道样品分为多少类；

           3. 对变量的多元正态性，方差齐性等要求较高。

应用领域：细分市场，消费行为划分，设计抽样方案等

2、判别分析

基本原理：从已知的各种分类情况中总结规律（训练出判别函数），当新样品进入时，判断其与判别函数之间的相似程度（概率最大，距离最近，离差最小等判别准则）。

常用判别方法：最大似然法，距离判别法，Fisher判别法，Bayes判别法，逐步判别法等。

注意事项：1. 判别分析的基本条件：分组类型在两组以上，解释变量必须是可测的；

           2. 每个解释变量不能是其它解释变量的线性组合（比如出现多重共线性情况时，判别权重会出现问题）；

           3. 各解释变量之间服从多元正态分布（不符合时，可使用Logistic回归替代），且各组解释变量的协方差矩阵相等（各组协方方差矩阵有显著差异时，判别函数不相同）。

相对而言，即使判别函数违反上述适用条件，也很稳健，对结果影响不大。

应用领域：对客户进行信用预测，寻找潜在客户（是否为消费者，公司是否成功，学生是否被录用等等），临床上用于鉴别诊断。

3、 主成分分析/ 因子分析

主成分分析基本原理：利用降维（线性变换)的思想，在损失很少信息的前提下把多个指标转化为几个综合指标（主成分),即每个主成分都是原始变量的线性组合,且各个主成分之间互不相关,使得主成分比原始变量具有某些更优越的性能（主成分必须保留原始变量90%以上的信息），从而达到简化系统结构，抓住问题实质的目的。

因子分析基本原理：利用降维的思想，由研究原始变量相关矩阵内部的依赖关系出发，把一些具有错综复杂关系的变量归结为少数几个综合因子。（因子分析是主成分的推广，相对于主成分分析，更倾向于描述原始变量之间的相关关系）

求解主成分的方法：从协方差阵出发（协方差阵已知），从相关阵出发（相关阵R已知）。

        （实际研究中，总体协方差阵与相关阵是未知的，必须通过样本数据来估计）

求解因子载荷的方法：主成分法，主轴因子法，极大似然法，最小二乘法，a因子提取法。

注意事项：1. 由协方差阵出发与由相关阵出发求解主成分所得结果不一致时，要恰当的选取某一种方法；

          2. 对于度量单位或是取值范围在同量级的数据，可直接求协方差阵；对于度量单位不同的指标或是取值范围彼此差异非常大的指标，应考虑将数据标准化，再由协方差阵求主成分；

          3.主成分分析不要求数据来源于正态分布；

          4. 在选取初始变量进入分析时应该特别注意原始变量是否存在多重共线性的问题（最小特征根接近于零，说明存在多重共线性问题）。

             5. 因子分析中各个公共因子之间不相关，特殊因子之间不相关，公共因子和特殊因子之间不相关。

应用领域：解决共线性问题，评价问卷的结构效度，寻找变量间潜在的结构，内在结构证实。

4、对应分析/最优尺度分析

基本原理：利用降维的思想以达到简化数据结构的目的，同时对数据表中的行与列进行处理，寻求以低维图形表示数据表中行与列之间的关系。

对应分析：用于展示变量（两个/多个分类）间的关系（变量的分类数较多时较佳）；

最优尺度分析：可同时分析多个变量间的关系，变量的类型可以是无序多分类，有序多分类或连续性变量，并 对多选题的分析提供了支持。

5、典型相关分析

基本原理：借用主成分分析降维的思想，分别对两组变量提取主成分，且使从两组变量提取的主成分之间的相关程度达到最大，而从同一组内部提取的各主成分之间互不相关。

5. 因子分析和聚类分析的区别和联系

因子分析和聚类分析，很多时候容易混淆。接下来讲讲二者的区别和联系
因子分析：比如有20个题，将20个题浓缩成5个关键词；
聚类分析：常见为样本聚类，比如有500个人，这500个人可以聚成几个类别。
因子分析和聚类分析的联系在于：
分析角度上，比如：可先讲20个题做因子分析，并且得到因子得分。将因子得分在进一步进行聚类分析。最终聚类得到几个类别群体。再去对比几个类别群体的差异等。

因子分析和聚类分析的区别和联系

6. 主成分分析法和聚类分析法的区别

主成分分析法在过程中产生新变量，而聚类分析法在过程中没有产生新变量。
主成分分析法：一种数学变换的方法, 它把给定的一组相关变量通过线性变换转成另一组不相关的变量，这些新的变量按照方差依次递减的顺序排列。
聚类分析法：理想的多变量统计技术，主要有分层聚类法和迭代聚类法。是研究分类的一种多元统计方法。

7. 怎样用因子分析结果做聚类分析

可以保存因子得分，然后做聚类分析。这个在spssau里就能实现。
分析之前勾选‘因子得分’即可。

怎样用因子分析结果做聚类分析

8. 常用的统计分析方法总结(聚类分析、主成分分析、因子分析)

 1. 系统聚类法 :由N类--1类   2. 分解法 ：由1类---N类   3. K-均值法 ：事先在聚类过程中确定在K类，适用于数据量大的数据   4. 有序样品的聚类 ：N个样品排序，次序相邻的样品聚成一类   5. 模糊聚类法 ：模糊数学的方法，多用于定性变量   6. 加入法 ：样品依次加入，全部加入完得到聚类图。
                                           a.夹角余弦   b.相关系数
   a.常用的类间距离定义有8种之多，与之相应的 系统聚类法  也有8种，分别为   a. 中间距离法    b. 最短距离法 ：类与类之间的距离最近两个样品的距离。   c. 最长距离法 ：类与类之间的距离最远两个样品的距离。【先距离最短，后距离最远合并】   d. 类平均法 ：两类元素中任两个样品距离的平均。   e. 重心法 ：两个重心xp 和xq 的距离。   f. 可变类平均法    e. 离差平方和法（Ward法） ： 该方法的基本思想来自于方差分析，如果分类正确，同 类样品的离差平方和应当较小，类与类的离差平方和较大。 具体做法是先将 n 个样品各自成一类，然后每次缩小一类，每 缩小一类，离差平方和就要增大，选择使方差增加最小的两 类合并，直到所有的样品归为一类为止。
   a.  最短距离法的主要缺点是它有链接聚合的趋势，容易形 成一个比较大的类，大部分样品都被聚在一类中，所以最短 距离法的聚类效果并不好，实际中不提倡使用。   b.  最长距离法克服了最短距离法链接聚合的缺陷，两类合 并以后与其他类的距离是原来两个类中的距离最大者，加大 了合并后的类与其他类的距离。
   a.   定义 ：主成分分析（Principal Component Analysis，简记 PCA）是将 多个指标化为少数几个综合指标的一种统计分析方法 ，通常我们把转化成的综合指标称为主成分。
   b.   本质：降维 
   c.   表达 ：主成分为原始变量的线性组合   d.  即信息量在空间降维以后信息量没有发生改变，所有主成分的方差之和与原始的方差之和
   e.  多个变量之间有一定的相关性，利用原始变量 的线性组合形成几个综合指标（主成分），在保留原始变量主要信息的前提下起到降维与简化问题的作用。
   f.  累积贡献率一般是 85% 以上
   （1）每一个主成分都是各 原始变量的线性组合    （2）主成分的数目大大少于原始变量的数目   （3）主成分保留了原始变量绝大多数信息   （4）各主成分之间 互不相关 
   a.  基本目的：用 少数几个综合因子去描述多个随机变量之间的相关关系 。   b.  定义：多个变量————少数综合因子（不存在的因子）   c.  显在变量：原始变量X；潜在变量：因子F   d.  X=AF+e【公共因子+特殊因子】   e.  应用： 因子分析主要用于相关性很强的多指标数据的降维处理。    f.  通过研究原始变量相关矩阵内部 的依赖关系，把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。   g.  定义：原始的变量是可观测的显在变量，而 综合 的因子是 不可观测 的 潜在变量 ，称为因子。
   i.  根据相关性大小把原始变量分组，使得同组内的变量之间相关性较高，而不同组的变量间的相关性则较低。   ii.  公共因子 ：每组变量代表一个基本结构，并用一个不可观测的综合变量表示。   iii.    对于所研究的某一具体问题，原始变量分解成两部分：
   i.  R 型因子分析——研究变量之间的相关关系   ii. Q 型因子分析——研究样品之间的相关关系
   a.  因子载荷 是第i个变量与第j个公共因子的相关系数，绝对值越大，相关的密切程度越高。   
   
                                           a.  变量 Xi 的共同度是因子载荷矩阵的第i行的元素的平方和。记为
                                           b.  所有的公共因子与特殊因子对变量 Xi 的贡献和为1。
                                                                                                                           a.  确定因子载荷   b.  因子旋转   c.  计算因子得分
   a.  寻找简单结构的载荷矩阵：载荷矩阵A的所有元素都接 近0或±1，则模型的公共因子就易于解释。   b.  如果各主因子的典型代表变量不突出，就需要进行旋转使因子载荷矩阵中载荷的绝对值向0和1两个方向分化。
   a.意义：对公共因子作正交旋转相当于对载荷矩阵 A 作一正交变换 ，右乘正交矩阵 T ，使 A* = AT 能有更鲜明的实际意义。   b.几何意义：是在 m 维空间上对原因子轴作一刚性旋转。 因子旋转不改变公共因子的共同度，这是因为 A A '=ATT'A'=AA'   c.   旋转方法有：正交旋转和斜交旋转    d.  最普遍的是： 最大方差旋转法 
   a.  定义：通过坐标变换使各个因子载荷的方差之和最大。   b.  任何一个变量只在一个因子上有高贡献率，而在 其它因子上的载荷几乎为0；   c.  任何一个因子只在少数变量上有高载荷,而在其 它变量上的载荷几乎为0。
                                           思想相同： 降维    前提条件：各变量间必须有 相关性 ，否则各变量之间没有共享信息