几种相关系数

2024-05-19 05:34

1. 几种相关系数

相关系数有多种,一种是针对定序或定类数据的,一种是针对定距数据的。
1、针对定距数据的相关系数
多采用简单的线性相关系数PEARMAN相关系数来确定。计算方法如同概率统计里边所学的相关系数的计算公式一样,在这里不多赘述。
2、针对定类和定序数据的
a.spearman相关系数
首先得到两组数据X和Y的秩(U,V),并计算统计量
如果,二者相关系数较高,则统计量D也会相对较小。 而秩序相关系数则通过下面公式来度量:

几种相关系数

2. 收益率的关系

对收益率的研究实质是揭示收益率对收入的作用。如上述,中国的收益率还有许多与世界其他国家不同的地方。一个方面是收益率的递增现象还比较明显。而相应的是中国人口的总体收益率水平比较低,特别是较高层次收益率(大学)的人口比例更少,那么,这对收入差异又会产生什么影响呢?一个基本的假设是,如果收益率是正的或递增,那么,如果高层次收益率仅由少数人获得,收益率获得水平的不平等程度会提高,这样就会导致收入不平等程度的提高。近年来的几项研究关注了这一问题。利用1988-99年中国六个省的城市居民的个体数据,Park等人(2002)研究了中国城市职工工资的不平等程度及其影响因素。他们首先发现这期间中国城镇职工的收入不平等程度呈上升的趋势,收益率的收益率在不断提高,而且初中收益率有所下降,而中专、特别是大学收益率的收益率提高幅度最大,也超过了前者(也参见Zhang等人,2002)。随后,他们通过建立一个分解影响收入不平等因素的模型,在该模型中,包括了同时把收益率数量和收益率两个变量引入模型中,结果发现收益率对收入总不平等的贡献超过了10个百分点,仅次于地区差距的贡献。也即是说,收益率的提高加大了城市居民的收入不平等。在农村地区是否也是如此呢?利用华北和东北地区农村的家庭调查数据,Benjamin等人(2000)研究了农村收益率与收入不平等之间的关系。他们的研究首先建立在这样一个基本判断之上:农村村庄内的收入的不平等对总不平等的贡献要高于村与村之间的不平等的贡献;收益率的收益率是正的,在收益率上村与村之间有显著的差异;村内收益率水平的不平等与村平均收益率水平负相关。通过把收益率水平和收益率不平等(以村Gini系数表示)及交互作用项引入到收入不平等模型中,结果发现,收益率对降低不平等的作用很低,收益率水平的分布与收益率的收益存在着正的交互作用,即收益率越高,收益率水平的不平等程度也越高。这样,收益率越高的话,收入不平等的程度也越高。而且,如果村的平均收益率水平越低的话,收入不平等的程度也越高。以上结果似乎说明,收益率的正值及其随时间提高的趋势“帮助”了中国收入的不平等程度的提高,究其原因,可能是由于较高收益率水平的个体比例较少的原故,因而,政府通过加大在收益率上的投资,使更多的人能够接受更高水平的收益率,不仅会提高他们的收入,而且还会降低收入不平等的程度。

3. 几种相关系数

相关系数有多种,一种是针对定序或定类数据的,一种是针对定距数据的。
1、针对定距数据的相关系数
多采用简单的线性相关系数PEARMAN相关系数来确定。计算方法如同概率统计里边所学的相关系数的计算公式一样,在这里不多赘述。
2、针对定类和定序数据的
a.spearman相关系数
首先得到两组数据X和Y的秩(U,V),并计算统计量
如果,二者相关系数较高,则统计量D也会相对较小。 而秩序相关系数则通过下面公式来度量:

几种相关系数

4. 相关系数的意义

相关系数的意义是相关系数可以用来衡量观测数据之间相关程度,一般情况下,相关系数越大表明相关程度就越高。相关系数是研究变量之间线性相关程度的量,一般用字母r表示。
相关系数是最早由统计学家卡尔·皮尔逊设计的统计指标,是研究变量之间线性相关程度的量,一般用字母 r 表示。由于研究对象的不同,相关系数有多种定义方式,较为常用的是皮尔逊相关系数。
相关表和相关图可反映两个变量之间的相互关系及其相关方向,但无法确切地表明两个变量之间相关的程度。相关系数是用以反映变量之间相关关系密切程度的统计指标。相关系数是按积差方法计算,同样以两变量与各自平均值的离差为基础。

通过两个离差相乘来反映两变量之间相关程度;着重研究线性的单相关系数。需要说明的是,皮尔逊相关系数并不是唯一的相关系数,但是最常见的相关系数,以下解释都是针对皮尔逊相关系数。依据相关现象之间的不同特征,其统计指标的名称有所不同。
如将反映两变量间线性相关关系的统计指标称为相关系数(相关系数的平方称为判定系数);将反映两变量间曲线相关关系的统计指标称为非线性相关系数、非线性判定系数;将反映多元线性相关关系的统计指标称为复相关系数、复判定系数等。

5. 相关系数

 相关系数,Correlation coefficient   是描述两个变量之间的相关关系的密切程度,一般用字母 r 表示
   最早由统计学家 卡尔·皮尔逊 提出,最常用的也是 皮尔逊相关系数 ,下面也主要以 皮尔逊相关系数 来介绍
   皮尔逊相关系数,有些局限性,比如,变量之间一定是 线性相关 
   假设我们知道变量X和变量Y之间是线性相关,但是他们之间相关关系的强弱,就可以使用 相关系数 来描述
   在整理相关系数的时候,有提到相关表和相关图,一起记录下
   相关表,Correlation Table,是一种显示变量之间相关关系的统计表,通常将两个变量对应的值平行排列,且根据其中某一变量按其值大小顺序排列
                                           说的挺高大上,其实就是指标然后排个序嘛,这样子的确可以看出两个指标之间的关系,但还不是很直观,毕竟都是文字,我们还要YY一下,两个指标之间的关系
   其实就是散点图,通过图形的方式,可以直观的看出来数据之间是否有相关关系,是正向的还是反向的,比如上面那个例子的数据:
                                           使用Excel就可以做一个散点图出来,很明显,工龄和日工资之间是有线性关系的,而且是正相关,工龄越长,日工资越高
   关于散点图,参考下之前的一篇文章: 常见图表-散点图 
   下面都已皮尔徐相关系数为例
   相关系数有一个计算公式:     
   作为一个数学渣渣,这个公式,我是真心看不懂啊,我是花了好久的时间,才搞明白,具体怎么算
    其中,  表示变量X与Y的协方差;  表示X的方差;  表示Y的方差 
   相关系数,介于-1和1之间,  值越大,相关程度越大,正值,表示正相关,负值表示负相关;     ,相关程度最低   通常来说:
   协方差,Covariance,用于衡量两个变量 的总体误差
   协方差计算公式:     
   若X与Y独立,则  
   协方差有几个性质:
   这个协方差的计算,也是困惑了我好久才整明白   这个  是什么我一开始都没有搞懂,数学知识都还给老师了啊,哎   这个其实就是期望,也就是平均值     就是变量X 的平均值     就是变量Y 的平均值     就是变量X*Y之后的平均值
   最后,我们再来看这个协方差计算,其实就简单了
   方差,variance/deviation Var,用于衡量随机变量或一组数据的 离散程度 
   方差计算公式:     
   和上面说的一样    就是X的期望,也就是X的平均值    当数据分布比较分散(即数据在平均数附近波动较大)时,各个数据与平均数的差的平方和较大,方差就较大;当数据分布比较集中时,各个数据与平均数的差的平方和较小。因此方差越大,数据的波动越大;方差越小,数据的波动就越小。 
   好了,知道了协方差和方差的计算,相关系数的计算也就清楚了
   为了看上述数据的相关性,我们可以先通过散点图来直观的看看是否符合某种规律
                                           恩,看上去是某种线性的关系
   我们开始计算相关系数,整体的思路,就是计算根据协方差和方差的计算公式,拆解一下,在Excel中还是很容易计算的
                                            最终的相关系数为: 0.9942,非常趋近于1,所以相关性很强,符合高度线性相关关系 
   好了,相关系数先到这里,很有很多相关的知识,后面继续补充。

相关系数

6. 浅谈相关系数

适用条件:连续,数值相关,变量之间满足正态分布,变量间存在线性关系且等方差(等方差即数据点在回归直线上下均匀分布)
  
 计算公式:
                                          
 rxy,变量x和y的Pearson相关系数;
   n,观测对象的数量;
   xi,x的第i个观测值;
   yi,y的第i个观测值。
  
 R codes:
  
 适用条件:连续变量,秩相关,不要求变量的正态性和等方差假设,对极端值不敏感,数据必须至少是有序的
  
 计算公式:
                                          
 ρ,Spearman秩相关系数;
   di,对应变量的秩之差,即两个变量分别排序后成对的变量位置(等级)差;
   n,观测对象的数量。
  
 对两列数据进行排序,并表明序号(秩序),di即为序号(秩序)之差
   R codes:
  
 适用条件:有序分类,分类变量
  
 计算公式:
                                          
 如果xiyi且xj>yj,则该关系对是一致的(concordant),反正则不一致(discordant)
   如果一致对的数量比不一致对的数量大得多,则变量是正相关的;如果一致对的数目比不一致对的数目少得多;则变量是负相关的;如果一致对的数目与不一致对的数目大致相同,则变量之间的关系很弱
  
 适用条件:二元变量间的相关,变量服从正态分布,变量连续
  
 计算公式:
                                                                                  
 描述A与B变量(行变量与列变量)是否相关
  
 用于测量一组连续变量和一组二元变量的线性关系,二元变量是二分序数类型,具有潜在的连续性
  
 计算公式:
                                          
 Y0,x=0时变量对的平均值;
   Y1,x=1时变量对的平均值;
   p,x=1时变量对的比例;
   q,x=0时变量对的比例;
   σy,总体标准偏差。
  
 这是一组二元变量,与x,y取值都有观(比方说横截面数据类型)
  
 参考:
    https://mp.weixin.qq.com/s/JxCRK7BPys1GTb0xd1ZUZg 
    https://wiki.mbalib.com/wiki/%E5%9B%9B%E5%88%86%E7%9B%B8%E5%85%B3

7. 相关系数的介绍

相关表和相关图可反映两个变量之间的相互关系及其相关方向,但无法确切地表明两个变量之间相关的程度。于是,著名统计学家卡尔·皮尔逊设计了统计指标——相关系数(Correlation coefficient)。相关系数是用以反映变量之间相关关系密切程度的统计指标。相关系数是按积差方法计算,同样以两变量与各自平均值的离差为基础,通过两个离差相乘来反映两变量之间相关程度;着重研究线性的单相关系数。需要说明的是,皮尔逊相关系数并不是唯一的相关系数,但是最常见的相关系数,以下解释都是针对皮尔逊相关系数。依据相关现象之间的不同特征,其统计指标的名称有所不同。如将反映两变量间线性相关关系的统计指标称为相关系数(相关系数的平方称为判定系数);将反映两变量间曲线相关关系的统计指标称为非线性相关系数、非线性判定系数;将反映多元线性相关关系的统计指标称为复相关系数、复判定系数等。

相关系数的介绍

8. 相关系数的含义

科普中国·科学百科:相关系数