【www.shanpow.com--热门范文】
spearman篇(1):SPSS详细教程:Spearman相关分析
遇到两个连续变量的相关性分析时,相信很多人会立刻想起Pearson相关分析。看过医咖会之前推文的小伙伴应该知道,Pearson相关分析有相应的适用条件,例如两个变量符合双变量正态分布。(详细阅读:SPSS超详细教程:Pearson相关分析)
但是,往往我们遇到的数据会比较复杂,比如说,实验室检测结果超过上限(例如,结果为>500),数据严重不符合正态分布,疗效评价指标为有序等级变量等等,这时候就可以考虑另一种检验方法——Spearman相关,本期带着大家系统全面地认识这种相关分析方法。
1、问题与数据研究者拟在45-65岁健康男性人群中分析胆固醇浓度与看电视时间的关系。他们猜测可能存在正向相关,即看电视时间越长,胆固醇浓度越高。现在该研究者收集了受试者每天看电视时间(time_tv)和胆固醇浓度(cholesterol)等变量信息,部分数据如下:
2、对问题的分析研究者想判断两个连续变量之间的关系,即分析胆固醇浓度与看电视时间的关系。针对这种情况,我们可以使用Spearman相关分析,但需要先满足2项假设:
假设1:观测变量是连续变量或有序分类变量,如本研究中胆固醇浓度与看电视时间都是连续变量。
假设2:变量之间存在单调关系
经分析,本研究数据符合假设1,那么应该如何检验假设2,并进行Spearman相关分析呢?
3、流程图
4、SPSS操作4.1 检验假设2
(1) 在主页面点击 Graphs → Chart Builder
弹出下图
(2) 在Chart Builder对话框下,在Choose from栏内点击Scatter/Dot选项
(3) 在中下部的8种图形中,选择左上角的那一种(如果点击这个图标会出现“Simple Scatter”字样),并拖拽到主对话框中
(4) 主对话框中会出现标记“Y-Axis?”和“X-Axis?”的方框
(5) 将看电视时间(time_tv)和胆固醇浓度(cholesterol)变量分别拖拽到“X-Axis?”和“Y-Axis?”方框内
(6) 在Element Properties框内点击Y-Axis1 (Point1)
(7) 在Scale Range框内取消对Minimum的勾选
(8) 点击Apply→OK,完成散点图
那么,我们应该如何通过散点图判断是否存在单调关系呢?
我们可以通过简单的视觉判断散点分布是否构成单调直线或曲线,举例如下:
一般来说,如果一个变量随另一个变量的增加而单调增加或单调下降,我们就认为这两个变量之间存在单调关系。
从本研究的散点图可以看出,看电视时间和胆固醇浓度存在单调关系。同时也提示,他们之间的关系是正向的,即胆固醇浓度随看电视时间的增加而增加。但无论是正向的,还是负向的,只要因变量和自变量之间存在单调关系,我们就完成了对假设2的检验。
4.2 Spearman相关的SPSS操作
(1) 在主页面点击Analyze→Correlate→Bivariate
弹出下图
(2) 将time_tv和cholesterol变量放入Variables栏
(3) 去掉对Correlation Coefficients栏内对Pearson的选择,点击Spearman选项
(4) 点击Options选项
(5) 保留在Missing Values栏内对Exclude cases pairwise选项的选择,点击Continue→OK
5、结果解释经上述操作,SPSS输出下表:
大家可能已经注意到,该表的数据是按照矩阵分布的,对角线上的值一样。我们只需要关注右上或左下格的数据即可,如下标注部分:
在本研究中,看电视时间与胆固醇浓度的Spearman相关系数rs = 0.729 (在“Correlation Coefficient”行提示),说明看电视时间与胆固醇浓度之间存在正相关,即随着看电视时间的增加,胆固醇浓度逐渐增加。
针对Spearman相关系数反映的相关强度没有一个既定的说法,我们一般只认为相关系数的数值越大,两个变量之间的相关程度越强。本研究中rs=0.729提示具有高度相关。
本研究Spearman相关的P值小于0.001 (“Sig. (2-tailed)”行),说明看电视时间与胆固醇浓度之间的相关关系具有统计学意义。
6、撰写结论本研究采用Spearman相关判断看电视时间与胆固醇浓度的关系。通过绘制散点图,直观判断两者之间存在单调关系。结果显示,看电视时间与胆固醇浓度之间存在相关关系,rs=0.729,P
(如果你想使用文中数据进行练习,请随时给小咖(微信:xys2016ykf)发消息,小咖将原始数据发给你。)
更多阅读
1. SPSS超详细教程:Pearson相关分析
2. SPSS详细操作:碰见有序分类资料,怎么办?
3. 超详细SPSS操作:多重线性回归(完整版)医咖会微信:medieco-ykh
关注医咖会,学习临床研究方法
有临床研究设计或统计难题?以下三种方式来帮你:
加小咖个人微信(xys2016ykf),拉你进统计讨论群和诸多小伙伴一起交流。
使用电脑进入医咖会官网:http://www.mediecogroup.com/,搜索类似问题及答案,或者直接提问!
spearman篇(2):pearson, kendall 和spearman三种相关分析方法的区别

1.
Pearson相关
Pearson相关用于双变量正态分布的资料,其相关系数称为积矩相关系数(coefficient of product-moment
correlation)。进行相关分析时,我们一般会同时对两变量绘制散点图,以更直观地考察两变量之间的相互变化关系。
例7-1
某医生为了探讨缺碘地区母婴TSH水平的关系,应用免疫放射分析测定了160名孕妇(15-17周)及分娩时脐带血TSH水平(mU/L),现随机抽取10对数据,见表7.6,试对母血TSH水平与新生儿脐带血TSH水平进行相关分析。
表7.6 10名孕妇及其分娩时脐带血TSH水平
母血TSH
1.21
1.30
1.39
1.42
1.47
1.56
1.68
1.72
1.98
2.10
脐带血TSH
3.90
4.50
4.20
4.83
4.16
4.93
4.32
4.99
4.70
5.20
对资料进行相关分析之前,我们可以先对其绘制散点图,以考察两变量的真实变化关系,我们可以应用第二章中介绍过的plot过程或gplot过程来执行绘制散点图的功能。散点图完成后再计算变量之间的相关系数,对相关系数进行假设检验,以量化形式表示变量间的相关关系。
为方便起见,此处我们将绘制散点图和相关分析一次完成。此处将母血TSH水平用x1来表示,脐带血TSH水平用x2来表示,编制SAS程序如下。
data temp;
input x1 x2@@;
datalines;
1.21 3.90 1.30 4.50 1.39 4.20 1.42 4.83 1.47
4.16
1.56 4.93 1.68 4.32 1.72 4.99 1.98 4.70 2.10
5.20
;
proc gplot;
plot x2*x1="*";
run;
proc corr;
var x1 x2;
run; quit;
进行Pearson相关分析是Corr过程的默认方式,故无需再在proc corr语句后指定pearson选项。
将以上程序提交执行,结果如下。
(1)两变量散点图,见图7.1。
图7.1 变量x1与x2之散点图
(2)两变量相关分析结果
The SAS
System
19:34 Monday, December 23, 2002
4
The CORR Procedure
2
Variables:
x1
x2
Simple Statistics
Variable
N
Mean
Std
Dev
Sum
Minimum
Maximum
x1
10
1.58300
0.28856
15.83000
1.21000
2.10000
x2
10
4.57300
0.42277
45.73000
3.90000
5.20000
Pearson Correlation Coefficients, N = 10
Prob > |r| under H0: Rho=0
x1
x2
x1
1.00000
0.68073
0.0303
x2
0.68073
1.00000
0.0303
结果中首先给出两变量的描述性统计量,然后给出变量的相关系数矩阵(var语句所列变量中任两者之间的相关系数),对于检验假设为H0:的假设检验结果(仅给出P值)列在相应相关系数的下面。
本例中,散点图表现出明显的椭圆形,说明两变量间存在一定的直线相关,相关分析的结果也验证了这一点,相关系数不为零(P=0.0303<0.05)。
另外,用with语句可以对特定的变量对进行相关分析,此例可将corr过程中间的语句改为:
var x1;
with x2;
因此例仅有两个变量,原程序显得更为简便,但在变量较多时,with语句可发挥很好的作用。
2. Spearman秩相关
当两变量不符合双变量正态分布的假设时,需用Spearman秩相关来描述变量间的相互变化关系。此时,散点图上散点的分布形态不能完全描述两变量间的相关关系,故此时一般不需再绘制散点图。
例7-2
用60Co对狗造成急性放射病,对照射后5天时的健康状况进行综合评分,并记录其存活天数,见表7.7。试作等级相关分析。
表7.7 狗急性放射病综合评分及其存活天数
综合评分
79
80
91
90
70
87
92
存活天数
45
30
16
24
28
25
14
将综合评分和存活天数分别用变量x和y表示,编制程序如下。
data temp;
input x y@@;
datalines;
79 45 80 30 91 16 90 24
70 28 87 25 92 14
;
proc corr spearman nosimple;
var x y;
run; quit;
Proc
corr语句的spearman选项即要求用Spearman秩相关来进行数据分析,nosimple选项则用来禁止对变量描述性统计量的输出。
提交上述程序,结果如下。
The SAS
System
19:34 Monday, December 23, 2002
6
The CORR Procedure
2
Variables:
x
y
Spearman
Correlation Coefficients, N = 7
Prob > |r| under H0: Rho=0
x
y
x
1.00000
-0.89286
0.0068
y
-0.89286
1.00000
0.0068
SAS仍旧给出相关系数矩阵,其内容和Pearson相关分析的完全一样,只不过相关系数的计算方法不同而已。
三、不同类型资料的回归分析
1. 单变量线性回归分析
这里所指的单变量,是针对自变量个数而言的,在不特别说明的情况下,应变量均为单个变量。单变量线性回归为回归分析中最为简单的情形,也是其它类型回归分析的基础。
例7-3
针对例7-1资料,分娩时脐带血TSH水平(mU/L)受母血TSH水平的影响,试进行回归分析。
此例资料中,脐带血TSH水平随母血TSH水平的变化而变化,前者应被看作为应变量,用y表示,后者为自变量,用x表示。编制如下程序。
data temp;
input x y@@;
datalines;
1.21 3.90 1.30 4.50 1.39 4.20 1.42 4.83 1.47
4.16
1.56 4.93 1.68 4.32 1.72 4.99 1.98 4.70 2.10
5.20
;
proc reg;
model y=x;
run; quit;
虽然reg过程选项、语句复杂,但我们经常用到的一般比较简单,此例即为最简单的情形,达到了reg过程程序代码的最低限度。提交上述程序,结果如下。
The SAS System 10:35 Wednesday,
December 25, 2002 1
The REG Procedure
Model: MODEL1
Dependent Variable: y
Analysis of Variance
Sum
of
Mean
Source
DF
Squares
Square F
Value Pr
> F
Model
1
0.74542
0.74542
6.91
0.0303
Error
8
0.86319
0.10790
Corrected
Total
9
1.60861
Root
MSE
0.32848
R-Square
0.4634
Dependent
Mean
4.57300 Adj
R-Sq
0.3963
Coeff
Var
7.18304
Parameter Estimates
Parameter
Standard
Variable
DF
Estimate
Error t
Value Pr
> |t|
Intercept
1
2.99422
0.60958
4.91
0.0012
x
1
0.99733
0.37945
2.63
0.0303
结果第一部分为模型的方差分析结果。第二部分给出模型的有关重要统计量,如R2(R-Square)、校正R2(Adj
R-Sq)等指标。第三部分为模型的参数估计情况,分别给出截距项和自变量回归系数等的估计值以及对应的假设检验结果。
两个连续变量间呈线性相关时,使用Pearson积差相关系数,不满足积差相关分析的适用条件时,使用Spearman秩相关系数来描述.
Spearman相关系数又称秩相关系数,是利用两变量的秩次大小作线性相关分析,对原始变量的分布不作要求,属于非参数统计方法,适用范围要广些。对于服从Pearson相关系数的数据亦可计算Spearman相关系数,但统计效能要低一些。Spearman相关系数的计算公式可以完全套用Spearman相关系数计算公式,但公式中的x和y用相应的秩次代替即可。
Kendall"s
tau-b等级相关系数:用于反映分类变量相关性的指标,适用于两个分类变量均为有序分类的情况。对相关的有序变量进行非参数相关检验;
取值范围在-1-1之间,此检验适合于正方形表格;
spearman篇(3):Spearman Rank相关系数计算
spearman相关系数
在统计学中,斯皮尔曼等级相关系数以Charles Spearman命名,并经常用希腊字母ρ(rho)表示其值。斯皮尔曼等级相关系数用来估计两个变量X、Y之间的相关性,其中变量间的相关性可以使用单调函数来描述。如果两个变量取值的两个集合中均不存在相同的两个元素,那么,当其中一个变量可以表示为另一个变量的很好的单调函数时(即两个变量的变化趋势相同),两个变量之间的ρ可以达到+1或-1。
秩相关系数,秩相关系数还有其他类型,比如kendal秩相关系数
-使用Pearson线性相关系数有2个局限: * 1.必须假设数据是成对地从正态分布中取得的。* * 2. 数据至少在逻辑范围内是等距的。*
对原始数据xi,yi按从大到小排序,记x’i,y’i为原始xi,yi在排序后列表中的位置,x’i,y’i称为xi,yi的秩次,秩次差di=x’i-y’i。Spearman秩相关系数为:
ρs=1−6∑d2in(n2−1)
位置
原始X
排序后
秩次
原始Y
排序后
秩次
秩次差
1
12
546
5
1
78
6
1
2
546
45
1
78
46
1
0
3
13
32
4
2
45
5
1
4
45
13
2
46
6
2
0
5
32
12
3
6
2
4
1
6
2
2
6
45
1
3
-3
对于上表数据,算出Spearman秩相关系数为:
1−6(1+1+1+9)6∗(62−1)=0.6571
查阅秩相关系数检验的临界值表
n
显著水平
0.05
0.01
5
0.9
1
6
0.829
0.943
7
0.714
0.893
置信度=1-显著水平。上表显示在n=6的时候,当spearman秩相关系数>=0.829时我们有95%的置信度认为两个随机变量相关,当spearman秩相关系数>=0.943时我们有99%的置信度认为两个随机变量相关。由于0.6571<0.829,即置信度达不到95%,所以我们不能认为X和Y相关。
如果原始数据中有重复值,则在求秩次时要以它们的平均值为准
P值(p-values)
P值是配对t检验(paired t-test)计算过程中得到的结果,用来评估前面所述相关程度计算结果的“显著程度”。在常用统计软件SPSS中,P值(p-value,有时显示为Sig-value)的计算是建立在如下两个假设基础上的:
无效假设(null hypothesis) H0:r=0,两参量间不存在“线性”关联
备择假设(alternative hypothesis) H1:r≠0,两参量间存在“线性”关联
如果计算出的P值很小,比如0.001,则可说“有非常显著的证据拒绝H0假设,相信H1假设,既两参量间存在显著的线性关联”
P值得数值大小没有统计意义,只是将其与某一个阈值进行对比,以得到二选一的结论。关于P值得判断阈值,可参照下面给出的建议:
典型的阈值取为0.05(5%)。因此判断规则如下:
P≤0.05,拒绝无效假设,接受备择假设,即“存在显著的线性关联”;
P>0.05,拒绝无效假设失败。