【www.shanpow.com--热门范文】
如何数据分析一:9种常用的数据分析方法汇总(上)
编辑:西和西 校对排版:吴双
一、描述性统计
描述性统计是一类统计方法的汇总,揭示了数据分布特性。它主要包括数据的频数分析、数据的集中趋势分析、数据离散程度分析、数据的分布以及一些基本的统计图形。
1、缺失值填充:常用方法有剔除法、均值法、决策树法。
2、正态性检验:很多统计方法都要求数值服从或近似服从正态分布,所以在做数据分析之前需要进行正态性检验。常用方法:非参数检验的K-量检验、P-P图、Q-Q图、W检验、动差法。
二、回归分析
回归分析是应用极其广泛的数据分析方法之一。它基于观测数据建立变量间适当的依赖关系,以分析数据内在规律。
1. 一元线性分析
只有一个自变量X与因变量Y有关,X与Y都必须是连续型变量,因变量Y或其残差必须服从正态分布。
2. 多元线性回归分析
使用条件:分析多个自变量X与因变量Y的关系,X与Y都必须是连续型变量,因变量Y或其残差必须服从正态分布。
3.Logistic回归分析
线性回归模型要求因变量是连续的正态分布变量,且自变量和因变量呈线性关系,而Logistic回归模型对因变量的分布没有要求,一般用于因变量是离散时的情况。
4. 其他回归方法:非线性回归、有序回归、Probit回归、加权回归等。
三、方差分析
使用条件:各样本须是相互独立的随机样本;各样本来自正态分布总体;各总体方差相等。
1. 单因素方差分析:一项试验只有一个影响因素,或者存在多个影响因素时,只分析一个因素与响应变量的关系。
2. 多因素有交互方差分析:一顼实验有多个影响因素,分析多个影响因素与响应变量的关系,同时考虑多个影响因素之间的关系
3. 多因素无交互方差分析:分析多个影响因素与响应变量的关系,但是影响因素之间没有影响关系或忽略影响关系
4. 协方差分祈:传统的方差分析存在明显的弊端,无法控制分析中存在的某些随机因素,降低了分析结果的准确度。协方差分析主要是在排除了协变量的影响后再对修正后的主效应进行方差分析,是将线性回归与方差分析结合起来的一种分析方法。
四、假设检验
1. 参数检验
参数检验是在已知总体分布的条件下(一股要求总体服从正态分布)对一些主要的参数(如均值、百分数、方差、相关系数等)进行的检验 。
2. 非参数检验
非参数检验则不考虑总体分布是否已知,常常也不是针对总体参数,而是针对总体的某些一般性假设(如总体分布的位罝是否相同,总体分布是否正态)进行检验。
适用情况:顺序类型的数据资料,这类数据的分布形态一般是未知的。
1)虽然是连续数据,但总体分布形态未知或者非正态;
2)总体分布虽然正态,数据也是连续类型,但样本容量极小,如10以下;
主要方法包括:卡方检验、秩和检验、二项检验、游程检验、K-量检验等。
如何数据分析二:一个例子告诉你,如何做一个简单的数据分析
有关数据分析,有人觉得上手难,有人觉得弄懂了很简单,述说不一。
那么,到底该如何开展数据分析工作呢。
其实,就数据分析过程来看,其模式是相对固定的,造成最后结果的不同主要是因为分析者的主观视角不同,分析思路不同。
以下我就通过一个简单的例子,帮大家理一下数据分析的过程以及数据分析的思路,作为借鉴。
数据分析
数据分析就是利用数学统计的方法对所要分析的数据进行收集、汇总、处理和展现,最大化地挖掘数据中有价值的信息。
分析类数据工具
可以借鉴我之前的文章《推荐几款数据可视化工具》,按应用场景来选择,小数据量个人分析首推Excel,大数据量企业、行业用,有专业的BI工具。
数据展示类工具
Power Point以及一些可视化工具,B/S或者C/S的,都提供网页的展现形式
数据分析的五个步骤
以下我已分析某公司全年的销售情况来做个示范。
第一步:确立分析目的和内容
分析目的:比如这里,作为领导想了解公司的销售情况
分析内容:各城市各个产品的销售情况
第二步:采集数据
数据的来源:一般公司都会有自己的数据库系统,比如Sql Sever
数据字段明细:各城市各产品的销售额、利润额、运营费用、税费等等
第三步:数据预处理
数据清洗:数据清洗是指利用ETL工具对残缺,错误、重复的数据进行纠正,目的是保证数据的一致性,格式规范化。
数据加工:将数据取出并导入数据工具,计算数据、新增计算指标,比如环比、同比等等
关于第二和第三步,由于连用的是数据库,并且针对企业级的数据量比较大,所以这里采用的是BI工具FineBI,数据采集和数据处理功能都是集成在内的,并不用手动去处理,所谓“自助式”分析工具就是这么来的。
第四步:分析数据
数据分析方法:分类、回归分析、聚类、关联规则等等
数据分析工具:数据透视表、报表工具、BI工具
第五步:数据的展现
制作图表
确定所要表达的主题或目的
确定哪种图表最适合你的目的
选择数据制作图
检查是否真实地展现数据
检查是否表达了你的观点
关于图表的选择,要思考哪类图表最能表达你要展现的意图,最能直观展现数据的规律,可以参考我之前的文章《教你如何选用数据可视化图表》
图表专业化
关于图表的美化,这个和选择的工具有关,很多工具都提供自定义风格的设置,主要原则:风格统一、配色和谐、排列整齐、自然。
如何数据分析三:学习数据分析的步骤
不急,一步一步来!先把本职工作中的数据分析问题理解了,干好了!
熟练玩好Excel软件工具,这个可以看《Excel高级应用与数据分析》我写的书,当然有很多Excel论坛和网站,从我的博客就可以连接到。
学习好统计分析方法,我不是单指统计原理,而是统计分析方法,比如回归分析,因子分析等,不断进入统计分析解决问题的思考方式;这个可以看看SPSS软件方面的书和数据案例,通过软件学习解决数据分析的统计问题,这方面的书很多,当然你也可以关注我的博客,不断增加统计分析方法解决数据分析问题的思路,自己对照着完成!
在上述问题有了比较好的理解后,也就是你应该算是一个数据分析能手的时候,开始进入数据挖掘领域,你会发现用数据挖掘思想解决问题具有智能化、自动化的优势,接下来,你需要考虑数据建模的过程,通过学习Clementine软件或SAS的挖掘工具,不断理解数据挖掘与原来的数据分析工具有什么不同或优势!
当前面都是了解并且能够得心应手后,你就要有针对性的掌握你工作所在行业的问题,例如:电信行业的解决方案问题:客户流失、客户价值、客户离网、客户保持、客户响应、客户交叉销售等商业模型,同时与数据分析和数据挖掘统一在一起的解决方案!
接下来,你应该掌握数据库的一些原理和操作,特别是SQL语言的方式
你到了这个阶段,就应该有全面解决问题的能力,比如挖掘出来的知识或商业规则如何推送到营销平台上等等
梳理自己的知识结构,不仅会操作,现在你应该成为专家了,要能够宣扬你的知识能力和领导力,当然也要表明你在数据挖掘领域的专业特长
要经常帮助同事和行业朋友,比如帮助解决数据分析问题,帮助咨询,甚至给大家讲课,这对你的知识梳理和能力的提高非常重要,你的自信心会更强!
有兴趣,可以建立一个博客或什么,不断写点东西,经常思考和总结
结交广泛的朋友!
关于入门的教材:
互联网,其实不用买什么书网络基本都有;要有好的搜索能力,当然包括搜各种软件!
SPSS和Clementine软件的说明和案例,都做一遍;
《数据挖掘——客户关系管理的艺术》不错,当当网上查一下
《调查研究中的统计分析法》——我和柯老师写的,当当网也有
《Excel高级应用与数据分析》——我写的
《数据展现的艺术》——我和博易智讯合作