knime


数学试题 2019-09-06 15:59:11 数学试题
[摘要]knime一:数据建模全流程(KNIME版)数学建模标准流程包括商业理解、数据理解、数据清洗、建立模型、部署应用留个流程,具体如下:我们将数据建模标准流程转化为可执行可实施部分,那就是以下几个步骤:商业理解即对建模的项目需求和目标进行综合分析,对项目的可行性和数据条件进行评估,对业务进行梳理和

【www.shanpow.com--数学试题】

knime一:数据建模全流程(KNIME版)


数学建模标准流程包括商业理解、数据理解、数据清洗、建立模型、部署应用留个流程,具体如下:
我们将数据建模标准流程转化为可执行可实施部分,那就是以下几个步骤:
商业理解
即对建模的项目需求和目标进行综合分析,对项目的可行性和数据条件进行评估,对业务进行梳理和深入了解,根据实际情况评估模型建立的价值。
以下主要介绍用KNIME(国外比较流行的数据挖掘建模工具,类似于SPSS Modelar工具)工具建立模型的操作步骤:
1.数据源导入
可以将不同格式的数据源导入建模,常见的有excel,CSV,TXT,file,zip等格式或直接连接SQL数据库,这几种方式都能将数据导入建模工具,并且导入的数据量级可以达到10万以上,100万也木有问题,基本能满足所有建模数据要求。
导入数据操作步骤:
1)打开  KNIME ,点击顶部file—new新建一个作业,点击左侧IO->XLS Reader(或其他数据源图标),将图标拖拽至建模区,如图所示:
2)右键双击XLS Reader图标,Browse本地数据源,点击确定。
execute运行之后,数据就成功导入KNIME系统,这时候可以通过Hilite table 节点查看导入的数据,如图所示:
2.数据处理
数据处理包括数据填充,数据标准化,数据转化和数据编码,即对原始数据进行数据噪音去除,字段类型转化,字段赋值和过滤等,主要目的是为最后的建模提供优质可信的训练数据集,尽量排除个别数据对整体模型结果的影响。也是数学建模过程中最重要的步骤之一,此部分占据整个模型工作量的60%以上。
(2)One to Many:  将一列中所有值的类别转换成好几列新值。如果对应这列单元格有指定的值则为1,否则为0,简单来说就是将一行数据转化为值为1或0的矩阵。
(3)String Manipulation: 字符串操作,删除一列的前导和尾随空格,或者一列衍生新值。 (5)Color Manager:给指定字段标识颜色,一般是目标字段标颜色,便于查看结果。
(6)Domain Calculator:更新数据的域值,通过限制数据于值的百分比来删除离散数据(最大值域或最小值域)。
通过以上节点可以处理基本的数据清洗和整理工作,可以建立简单的模型了,更高级的数据处理节点以后介绍。
3.数据建模
模型选择和模型评估
(1)数据分区
将数据分为训练数据和测试数据两个部分,选择节点Partitioning,可以对分区方式进行设置,示例:相对50%分区,使用随机种子。
  算法参考:http://blog.csdn.net/passball/article/details/7661887/
(2)Naive Bayes
(3)kNN
(4)Logistic
参考文档:http://www.cnblogs.com/jerrylead/archive/2011/03/13/1982639.html
(5)Decision Tree
(6)Neural Network
未完待续(明天)
。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。
 
4模型优化和改进
未完待续(明天)
。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。

knime二:KNIME处理代谢组学数据小报告

早在《KNIME 悟空云平台,助您数据分析一臂之两力》一文中,我就向大家推荐了KNIME这款软件,不知道后续有没有小伙伴细致研究过这款软件,它也类似一个平台,大家都可以往里面搭建模块,处理数据是相当给力的。
使用KNIME做原始raw数据的处理,再结合我们的iOmics云平台或者悟空云平台进行数据的后处理部分,相信你很快就可以分析完自己的数据。在这一过程中你不仅学习了相关软件及模型的使用,而且还可以节省大量的时间~~
不同于众多收费的软件,比如CD、Progenisis QI之类的,这些收费软件一般一个都要十万RMB以上,收费这么贵,它们自然是有其优势所在,如果实验室有这部分经费,当然可以选择购买。毕竟,钱能解决的问题都不是问题~~
不过KNIME,就目前来讲,其是免费的,而且功能一样的强大(甚至过之),就是用起来稍微麻烦点,哈哈~~
此外,我们用R语言来处理代谢组数据当然也是可以的,R语言也是免费开源的么,不过对于数据量稍微大点,其是比较占用内存的,这时候需要你有一台更好一点的电脑~~就我个人而言,单就处理代谢组的数据,我还是偏爱KNIME来分析。
【不少小伙伴问R代码哪里找,直接找其原文章,其里面会写相关介绍。或者,在googlefilterR中直接输入“xcms”,就会有相关资料给出了~~】
现给大家简单分享下我用KNIME处理代谢组数据的一个小报告,以来体现这款软件的好处。
比如我现在有71个代谢组的raw文件,总大小有170多G,数据背景我就不说了,我们重点关注的是KNIME软件处理。
使用KNIME软件,由于其具有这样一项特性:
看到没,每个节点模块都只需要将必要的结果写进内存即可,所以其在计算的时候,是非常不耗内存的!【数据量小的时候,用什么软件其实都无所谓,但是一旦当数据量上去了,这时候就需要我们考虑很多的东西了~~】
所以,其在运行时,我们这台电脑仍然可以该干嘛干嘛,几乎不受任何影响,当然你说,如果你依然在使用这台电脑,是不是会对KNIME的计算有影响?这个应该是会对KNIME计算有点影响的,如果你实验室有专门的服务器,那么可以把这软件放在服务器上跑,甚至可以跑并行,这样会节省不少时间~~
模块搭建好以后,剩下的就是让KNIME慢慢的运算咯。。。原则上来讲,KNIME同时处理几千个raw文件不成大问题(只是运算时间的问题),只不过我暂时没有那么多的数据,没有亲测过,感兴趣的小伙伴,如果你们实验室有那么大的数据量,可以亲自试试,如果测试成功,也欢迎写个简单的报告,分享一下~~ 待结果运行完,可以给出这样的定量结果:
也可以给出这样定性以后的结果:
当然,KNIME的功能远不止如此,还有很多东西值得我们去一步一步学习摸索。。。
剩下的很多模型分析,就直接可上传到我们的云平台上去计算了,完全无缝衔接~~
这么优质免费的软件和云平台,你还在等什么,赶紧去使用吧~~ 让人人都方便分析自己的数据!本人致力于打造一款国内较为实用的数据分析云平台(http://www.omicsolution.org/wu-kong-beta-linux/main/),为广大国内有需求的小伙伴提供帮助,也感谢大家关注转发,以求帮助更多的人,谢谢
关注一下又不会怀孕,哈哈。。。
平台目前包含的工具(还在持续更新中...):

knime三:推荐:几款优秀的开源数据挖掘工具


IDMer说道:本文只对几种流行的开源数据挖掘平台进行了检视,比如Weka和R等。如果您想找寻更多的开源数据挖掘软件,可以到KDnuggets和Open
Directory上查看。为了评测这些软件,我们用了UCI Machine Learning Repository上的心脏病诊断数据集。
R
R (http://www.r-project.org) 是用于统计分析和图形化的计算机语言及分析工具,为了保证性能,
其核心计算模块是用C、C++和Fortran编写的。同时为了便于使用,它提供了一种脚本语言,即R语言。R语言和贝尔实验室开发的S语言类似。R支持
一系列分析技术,包括统计检验、预测建模、数据可视化等等。在CRAN(http://cran.r-project.org)
上可以找到众多开源的扩展包。R软件的首选界面是命令行界面,通过编写脚本来调用分析功能。如果缺乏编程技能,也可使用图形界面,比如使用R Commander(http://socserv.mcmaster.ca/jfox/Misc/Rcmdr/)或Rattle(http://rattle.togaware.com)。
Tanagra
Tanagra
(http://eric.univ-lyon2.fr/wricco/tanagra/)
是使用图形界面的数据挖掘软件,采用了类似Windows资源管理器中的树状结构来组织分析组件。Tanagra缺乏高级的可视化能力,但它的强项是统计
分析,提供了众多的有参和无参检验方法。同时它的特征选取方法也很多。
Weka
Weka
(Waikato Environment for Knowledge Analysis,
http://www.cs.waikato.ac.nz/ml/weka/)
可能是名气最大的开源机器学习和数据挖掘软件。高级用户可以通过Java编程和命令行来调用其分析组件。同时,Weka也为普通用户提供了图形化界面,称
为Weka KnowledgeFlow Environment和Weka
Explorer。和R相比,Weka在统计分析方面较弱,但在机器学习方面要强得多。在Weka论坛
(http://weka.sourceforge.net/wiki/index.php/Related_Projects)
可以找到很多扩展包,比如文本挖掘、可视化、网格计算等等。很多其它开源数据挖掘软件也支持调用Weka的分析功能。
YALE (IDMer:现在已经更名为RapidMiner)
YALE
(Yet Another Learning Environment, http://rapid-i.com)
提供了图形化界面,采用了类似Windows资源管理器中的树状结构来组织分析组件,树上每个节点表示不同的运算符(operator)。YALE中提供
了大量的运算符,包括数据处理、变换、探索、建模、评估等各个环节。YALE是用Java开发的,基于Weka来构建,也就是说它可以调用Weka中的各
种分析组件。
KNIME
KNIME (Konstanz InformationMiner, http://www.knime.org)是基于Eclipse开发环境来精心开发的数据挖掘工具。无需安装,方便使用(IDMer:呵呵,大家喜欢的绿色版)。和YALE一样,KNIME也是用Java开发的,可以扩展使用Weka中的挖掘算法。和YALE不同点的是,KNIME采用的是类似数据流(data flow)的方式来建立分析挖掘流程(IDMer:这个我喜欢,和SAS EM或SPSS Clementine等商用数据挖掘软件的操作方式类似)。挖掘流程由一系列功能节点(node)组成,每个节点有输入/输出端口(port),用于接收数据或模型、导出结果。(IDMer:感觉KNIME比Weka的KnowledgeFlow更好用,连接节点时很方便,直接用鼠标拖拽连接端口即可。而Weka中则需要在节点上按鼠标右键,再选择后续节点,比较麻烦,刚开始使用时找了半天才知道怎么连)KNIME中每个节点都带有交通信号灯,用于指示该节点的状态(未连接、未配置、缺乏输入数据时为红灯;准备执行为黄灯;执行完毕后为绿灯)。在KNIME中有个特色功能——HiLite,允许用户在节点结果中标记感兴趣的记录,并进一步展开后续探索。
Orange
Orange
(http://www.ailab.si/orange)是类似KNIME和Weka
KnowledgeFlow的数据挖掘工具,它的图形环境称为Orange画布(OrangeCanvas),用户可以在画布上放置分析控件
(widget),然后把控件连接起来即可组成挖掘流程。这里的控件和KNIME中的节点是类似的概念。每个控件执行特定的功能,但与KNIME中的节点
不同,KNIME节点的输入输出分为两种类型(模型和数据),而Orange的控件间可以传递多种不同的信号,比如learners,
classifiers, evaluation results, distance matrices,
dendrograms等等。Orange的控件不象KNIME的节点分得那么细,也就是说要完成同样的分析挖掘任务,在Orange里使用的控件数量可
以比KNIME中的节点数少一些。Orange的好处是使用更简单一些,但缺点是控制能力要比KNIME弱。除了界面友好易于使用的优点,Orange的强项在于提供了大量可视化方法,可以对数据和模型进行多种图形化展示,并能智能搜索合适的可视化形式,支持对数据的交互式探索。Orange的弱项在于传统统计分析能力不强,不支持统计检验,报表能力也有限。Orange的底层核心也是采用C++编写,同时允许用户使用Python脚本语言来进行扩展开发(参见http://www.scipy.org)。
 
GGobi数据可视化是数据挖掘的重要组成部分, GGobi (http://www.ggobi.org)就是用于交互式可视化的开源软件,它使用brushing的方法。GGobi可以用作R软件的插件,或者通过Perl、Python等脚本语言来调用。
结论----以
上介绍的几款软件都是优秀的开源数据挖掘软件,各有所长,同时也各有缺点。读者可以结合自己的需求来进行选择,或者组合使用多个软件。对于普通用户可以选
用界面友好易于使用的软件,对于希望从事算法开发的用户则可以根据软件开发工具不同(Java、R、C++、Python等)来选择相应的软件。以上这几
款软件(除了GGobi)基本上都提供了我们期望的大部分功能。(IDMer:我尝试了以上这几种
开源软件,Weka很有名但用起来并不方便,界面也简单了点;RapidMiner现在流行的势头在上升,但它的操作方式和商用软件差别较大,不支持分析
流程图的方式,当包含的运算符比较多的时候就不容易查看了;KNIME和Orange看起来都不错,Orange界面看上去很清爽,但我发现它不支持中
文。我的推荐是KNIME,同时安装Weka和R扩展包。)(IDMer:我的点评纯属个人意见,欢迎大家批评交流。在我的实际工作中使用开源挖掘工具并不多,大部分时候都是在使用SAS Enterprise Miner。)

本文来源:https://www.shanpow.com/xx/442622/

《knime.doc》
将本文的Word文档下载到电脑,方便收藏和打印
推荐度:
点击下载文档

文档为doc格式

相关阅读
  • 湖北省高中名校联盟2024届高三第二次测评数学试题精选3篇 湖北省高中名校联盟2024届高三第二次测评数学试题精选3篇
  • 湖北省圆创联盟2024届高三11月联考数学试题锦集三篇 湖北省圆创联盟2024届高三11月联考数学试题锦集三篇
  • 2024北京海淀区高三期中数学试题含答案详解【汇编三篇】 2024北京海淀区高三期中数学试题含答案详解【汇编三篇】
  • 2023全国高考浙江卷数学试题及答案范文(精选三篇) 2023全国高考浙江卷数学试题及答案范文(精选三篇)
  • 青桐鸣2024届高三11月联考数学试题及答案锦集二篇 青桐鸣2024届高三11月联考数学试题及答案锦集二篇
  • 2024届青桐鸣高三11月联考数学试题精选三篇 2024届青桐鸣高三11月联考数学试题精选三篇
  • 2023年天津高考数学试题及答案三篇 2023年天津高考数学试题及答案三篇
  • 关于贵州中考数学试题【五篇】 关于贵州中考数学试题【五篇】
为您推荐