【www.shanpow.com--工作总结】
协方差的计算公式篇(1):期望、方差、协方差及相关系数的基本运算
这篇文章总结了概率统计中期望、方差、协方差和相关系数的定义、性质和基本运算规则。
期望
定义
设是一个离散概率分布函数,自变量的取值范围为。其期望被定义为:
设是一个连续概率密度函数。其期望为:
性质
1、线性运算规则
期望服从线性性质(可以很容易从期望的定义公式中导出)。因此线性运算的期望等于期望的线性运算:
这个性质可以推广到任意一般情况:
2、函数的期望
设为x的函数,则的期望为:
离散:
连续:
一定要注意,函数的期望不等于期望的函数,即!。
3、乘积的期望
一般来说,乘积的期望不等于期望的乘积,除非变量相互独立。因此,如果x和y相互独立,则。
期望的运算构成了统计量的运算基础,因为方差、协方差等统计量本质上是一种特殊的期望。
方差
定义
方差是一种特殊的期望,被定义为:
性质
1、展开表示
反复利用期望的线性性质,可以算出方差的另一种表示形式:
2、常数的方差
常数的方差为0,由方差的展开表示很容易推得。
3、线性组合的方差
方差不满足线性性质,两个变量的线性组合方差计算方法如下:
其中为x和y的协方差,下一节讨论。
4、独立变量的方差
如果两个变量相互独立,则:
作为推论,如果x和y相互独立:。
协方差
定义
两个随机变量的协方差被定义为:
因此方差是一种特殊的协方差。当x=y时,。
性质
1、独立变量的协方差
独立变量的协方差为0,可以由协方差公式推导出。
2、线性组合的协方差
协方差最重要的性质如下:
很多协方差的计算都是反复利用这个性质,而且可以导出一些列重要结论。
作为一种特殊情况:
另外当x=y时,可以导出方差的一般线性组合求解公式:
相关系数
定义
相关系数通过方差和协方差定义。两个随机变量的相关系数被定义为:
性质
1、有界性
相关系数的取值范围为-1到1,其可以看成是无量纲的协方差。
2、统计意义
值越接近1,说明两个变量正相关性(线性)越强,越接近-1,说明负相关性越强,当为0时表示两个变量没有相关性。
协方差的计算公式篇(2):Matlab协方差矩阵的计算原理
来源:http://www.cnblogs.com/cvlabs/archive/2010/05/08/1730319.htmlMatlab协方差矩阵的计算原理 a = -1 1 2 -2 3 1 4 0 3for i=1:size(a,2) for j=1:size(a,2) c(i,j)=sum((a(:,i)-mean(a(:,i))).*(a(:,j)-mean(a(:,j))))/(size(a,1)-1); end end
c =
10.3333 -4.1667 3.0000
-4.1667 2.3333 -1.5000
3.0000 -1.5000 1.0000
c为求得的协方差矩阵,在matlab以矩阵a的每一列为变量,对应的每一行为样本。这样在矩阵a中就有3个列变量分别为a(:,1), a(:,2), a(:,3)。
在协方差矩阵c中,每一个元素c(i,j)为对第i列与第j列的协方差,例如c(1,2) = -4.1667为第一列与第二列的协方差。
拿c(1,2)的求解过程来说
c(1,2)=sum((a(:,1)-mean(a(:,1))).*(a(:,2)-mean(a(:,2))))/(size(a,1)-1);
1. a(:,1)-mean(a(:,1)),第一列的元素减去该列的均值得到
-1.3333
-2.3333
3.6667
2, a(:,2)-mean(a(:,2)),第二列的元素减去该列的均值得到
-0.3333
1.6667
-1.3333
3, 再将第一步与第二部的结果相乘
-1.3333 -0.3333 0.4444
-2.3333 .* 1.6667 = -3.8889
3.6667 -1.3333 -4.8889
4, 再将结果求和/size(a,1)-1 得 -4.1667,该值即为c(1,2)的值。
再细看一下是不是与协方差公式:Cov(X,Y) = E{ [ (X-E(X) ] [ (Y-E(Y) ] } 过程基本一致呢,只是在第4步的时候matlab做了稍微的调整,自由度为n-1,减少了一行的样本值个数。
Alex.ren关注 - 0粉丝 - 3
关注博主
协方差的计算公式篇(3):Excel统计函数:COVAR协方差函数实例
Excel统计函数:COVAR协方差函数实例
COVAR函数的作用:
返回协方差,即每对数据点的偏差乘积的平均数,利用协方差可以决定两个数据集之间的关系。例如,可利用它来检验教育程度与收入档次之间的关系。
语法:
COVAR(array1,array2)Array1 第一个所含数据为整数的单元格区域。 Array2 第二个所含数据为整数的单元格区域。
说明:
参数必须是数字,或者是包含数字的名称、数组或引用。
如果数组或引用参数包含文本、逻辑值或空白单元格,则这些值将被忽略;但包含零值的单元格将计算在内。
如果 array1 和 array2 所含数据点的个数不等,则函数 COVAR 返回错误值 #N/A。
如果 array1 和 array2 当中有一个为空,则函数 COVAR 返回错误值#DIV/0!。
协方差计算公式为
其中 x 和 y 是样本平均值 AVERAGE(array1) 和 AVERAGE(array2),且 n 是样本大小。
示例:







