knime

数学试题 2019-09-06 15:59:11 数学试题

小中大

手机查看

[摘要]knime一:数据建模全流程（KNIME版）数学建模标准流程包括商业理解、数据理解、数据清洗、建立模型、部署应用留个流程，具体如下：我们将数据建模标准流程转化为可执行可实施部分，那就是以下几个步骤：商业理解即对建模的项目需求和目标进行综合分析，对项目的可行性和数据条件进行评估，对业务进行梳理和

【www.shanpow.com--数学试题】

knime一:数据建模全流程（KNIME版）

数学建模标准流程包括商业理解、数据理解、数据清洗、建立模型、部署应用留个流程，具体如下：
我们将数据建模标准流程转化为可执行可实施部分，那就是以下几个步骤：
商业理解
即对建模的项目需求和目标进行综合分析，对项目的可行性和数据条件进行评估，对业务进行梳理和深入了解，根据实际情况评估模型建立的价值。
以下主要介绍用KNIME（国外比较流行的数据挖掘建模工具，类似于SPSS Modelar工具）工具建立模型的操作步骤：
1.数据源导入
可以将不同格式的数据源导入建模，常见的有excel,CSV,TXT,file,zip等格式或直接连接SQL数据库，这几种方式都能将数据导入建模工具，并且导入的数据量级可以达到10万以上，100万也木有问题，基本能满足所有建模数据要求。
导入数据操作步骤：
1）打开 KNIME ，点击顶部file—new新建一个作业，点击左侧IO->XLS Reader（或其他数据源图标）,将图标拖拽至建模区，如图所示：
2）右键双击XLS Reader图标，Browse本地数据源，点击确定。
execute运行之后，数据就成功导入KNIME系统，这时候可以通过Hilite table 节点查看导入的数据，如图所示：
2.数据处理
数据处理包括数据填充，数据标准化，数据转化和数据编码，即对原始数据进行数据噪音去除，字段类型转化，字段赋值和过滤等，主要目的是为最后的建模提供优质可信的训练数据集，尽量排除个别数据对整体模型结果的影响。也是数学建模过程中最重要的步骤之一，此部分占据整个模型工作量的60%以上。
（2）One to Many: 将一列中所有值的类别转换成好几列新值。如果对应这列单元格有指定的值则为1，否则为0，简单来说就是将一行数据转化为值为1或0的矩阵。
（3）String Manipulation: 字符串操作，删除一列的前导和尾随空格，或者一列衍生新值。（5）Color Manager:给指定字段标识颜色，一般是目标字段标颜色，便于查看结果。
（6）Domain Calculator:更新数据的域值，通过限制数据于值的百分比来删除离散数据（最大值域或最小值域）。
通过以上节点可以处理基本的数据清洗和整理工作，可以建立简单的模型了，更高级的数据处理节点以后介绍。
3.数据建模
模型选择和模型评估
(1)数据分区
将数据分为训练数据和测试数据两个部分，选择节点Partitioning，可以对分区方式进行设置，示例：相对50%分区，使用随机种子。
算法参考：http://blog.csdn.net/passball/article/details/7661887/
（2）Naive Bayes
（3）kNN
（4）Logistic
参考文档：http://www.cnblogs.com/jerrylead/archive/2011/03/13/1982639.html
（5）Decision Tree
（6）Neural Network
未完待续（明天）
。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。

4模型优化和改进
未完待续（明天）
。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。

knime二:KNIME处理代谢组学数据小报告

早在《KNIME 悟空云平台，助您数据分析一臂之两力》一文中，我就向大家推荐了KNIME这款软件，不知道后续有没有小伙伴细致研究过这款软件，它也类似一个平台，大家都可以往里面搭建模块，处理数据是相当给力的。
使用KNIME做原始raw数据的处理，再结合我们的iOmics云平台或者悟空云平台进行数据的后处理部分，相信你很快就可以分析完自己的数据。在这一过程中你不仅学习了相关软件及模型的使用，而且还可以节省大量的时间~~
不同于众多收费的软件，比如CD、Progenisis QI之类的，这些收费软件一般一个都要十万RMB以上，收费这么贵，它们自然是有其优势所在，如果实验室有这部分经费，当然可以选择购买。毕竟，钱能解决的问题都不是问题~~
不过KNIME，就目前来讲，其是免费的，而且功能一样的强大（甚至过之），就是用起来稍微麻烦点，哈哈~~
此外，我们用R语言来处理代谢组数据当然也是可以的，R语言也是免费开源的么，不过对于数据量稍微大点，其是比较占用内存的，这时候需要你有一台更好一点的电脑~~就我个人而言，单就处理代谢组的数据，我还是偏爱KNIME来分析。
【不少小伙伴问R代码哪里找，直接找其原文章，其里面会写相关介绍。或者，在googlefilterR中直接输入“xcms”，就会有相关资料给出了~~】
现给大家简单分享下我用KNIME处理代谢组数据的一个小报告，以来体现这款软件的好处。
比如我现在有71个代谢组的raw文件，总大小有170多G，数据背景我就不说了，我们重点关注的是KNIME软件处理。
使用KNIME软件，由于其具有这样一项特性：
看到没，每个节点模块都只需要将必要的结果写进内存即可，所以其在计算的时候，是非常不耗内存的！【数据量小的时候，用什么软件其实都无所谓，但是一旦当数据量上去了，这时候就需要我们考虑很多的东西了~~】
所以，其在运行时，我们这台电脑仍然可以该干嘛干嘛，几乎不受任何影响，当然你说，如果你依然在使用这台电脑，是不是会对KNIME的计算有影响？这个应该是会对KNIME计算有点影响的，如果你实验室有专门的服务器，那么可以把这软件放在服务器上跑，甚至可以跑并行，这样会节省不少时间~~
模块搭建好以后，剩下的就是让KNIME慢慢的运算咯。。。原则上来讲，KNIME同时处理几千个raw文件不成大问题（只是运算时间的问题），只不过我暂时没有那么多的数据，没有亲测过，感兴趣的小伙伴，如果你们实验室有那么大的数据量，可以亲自试试，如果测试成功，也欢迎写个简单的报告，分享一下~~ 待结果运行完，可以给出这样的定量结果：
也可以给出这样定性以后的结果:
当然，KNIME的功能远不止如此，还有很多东西值得我们去一步一步学习摸索。。。
剩下的很多模型分析，就直接可上传到我们的云平台上去计算了，完全无缝衔接~~
这么优质免费的软件和云平台，你还在等什么，赶紧去使用吧~~ 让人人都方便分析自己的数据！本人致力于打造一款国内较为实用的数据分析云平台(http://www.omicsolution.org/wu-kong-beta-linux/main/)，为广大国内有需求的小伙伴提供帮助，也感谢大家关注转发，以求帮助更多的人，谢谢
关注一下又不会怀孕，哈哈。。。
平台目前包含的工具（还在持续更新中...）：

knime三:推荐：几款优秀的开源数据挖掘工具

IDMer说道：本文只对几种流行的开源数据挖掘平台进行了检视，比如Weka和R等。如果您想找寻更多的开源数据挖掘软件，可以到KDnuggets和Open
Directory上查看。为了评测这些软件，我们用了UCI Machine Learning Repository上的心脏病诊断数据集。
R
R (http://www.r-project.org) 是用于统计分析和图形化的计算机语言及分析工具，为了保证性能，
其核心计算模块是用C、C++和Fortran编写的。同时为了便于使用，它提供了一种脚本语言，即R语言。R语言和贝尔实验室开发的S语言类似。R支持
一系列分析技术，包括统计检验、预测建模、数据可视化等等。在CRAN(http://cran.r-project.org)
上可以找到众多开源的扩展包。R软件的首选界面是命令行界面，通过编写脚本来调用分析功能。如果缺乏编程技能，也可使用图形界面，比如使用R Commander(http://socserv.mcmaster.ca/jfox/Misc/Rcmdr/)或Rattle(http://rattle.togaware.com)。
Tanagra
Tanagra
(http://eric.univ-lyon2.fr/wricco/tanagra/)
是使用图形界面的数据挖掘软件，采用了类似Windows资源管理器中的树状结构来组织分析组件。Tanagra缺乏高级的可视化能力，但它的强项是统计
分析，提供了众多的有参和无参检验方法。同时它的特征选取方法也很多。
Weka
Weka
(Waikato Environment for Knowledge Analysis,
http://www.cs.waikato.ac.nz/ml/weka/)
可能是名气最大的开源机器学习和数据挖掘软件。高级用户可以通过Java编程和命令行来调用其分析组件。同时，Weka也为普通用户提供了图形化界面，称
为Weka KnowledgeFlow Environment和Weka
Explorer。和R相比，Weka在统计分析方面较弱，但在机器学习方面要强得多。在Weka论坛
(http://weka.sourceforge.net/wiki/index.php/Related_Projects)
可以找到很多扩展包，比如文本挖掘、可视化、网格计算等等。很多其它开源数据挖掘软件也支持调用Weka的分析功能。
YALE （IDMer：现在已经更名为RapidMiner）
YALE
(Yet Another Learning Environment, http://rapid-i.com)
提供了图形化界面，采用了类似Windows资源管理器中的树状结构来组织分析组件，树上每个节点表示不同的运算符（operator）。YALE中提供
了大量的运算符，包括数据处理、变换、探索、建模、评估等各个环节。YALE是用Java开发的，基于Weka来构建，也就是说它可以调用Weka中的各
种分析组件。
KNIME
KNIME (Konstanz InformationMiner, http://www.knime.org)是基于Eclipse开发环境来精心开发的数据挖掘工具。无需安装，方便使用（IDMer：呵呵，大家喜欢的绿色版）。和YALE一样，KNIME也是用Java开发的，可以扩展使用Weka中的挖掘算法。和YALE不同点的是，KNIME采用的是类似数据流（data flow）的方式来建立分析挖掘流程（IDMer：这个我喜欢，和SAS EM或SPSS Clementine等商用数据挖掘软件的操作方式类似）。挖掘流程由一系列功能节点（node）组成，每个节点有输入/输出端口（port），用于接收数据或模型、导出结果。（IDMer：感觉KNIME比Weka的KnowledgeFlow更好用，连接节点时很方便，直接用鼠标拖拽连接端口即可。而Weka中则需要在节点上按鼠标右键，再选择后续节点，比较麻烦，刚开始使用时找了半天才知道怎么连）KNIME中每个节点都带有交通信号灯，用于指示该节点的状态（未连接、未配置、缺乏输入数据时为红灯；准备执行为黄灯；执行完毕后为绿灯）。在KNIME中有个特色功能——HiLite，允许用户在节点结果中标记感兴趣的记录，并进一步展开后续探索。
Orange
Orange
(http://www.ailab.si/orange)是类似KNIME和Weka
KnowledgeFlow的数据挖掘工具，它的图形环境称为Orange画布（OrangeCanvas），用户可以在画布上放置分析控件
（widget），然后把控件连接起来即可组成挖掘流程。这里的控件和KNIME中的节点是类似的概念。每个控件执行特定的功能，但与KNIME中的节点
不同，KNIME节点的输入输出分为两种类型（模型和数据），而Orange的控件间可以传递多种不同的信号，比如learners,
classifiers, evaluation results, distance matrices,
dendrograms等等。Orange的控件不象KNIME的节点分得那么细，也就是说要完成同样的分析挖掘任务，在Orange里使用的控件数量可
以比KNIME中的节点数少一些。Orange的好处是使用更简单一些，但缺点是控制能力要比KNIME弱。除了界面友好易于使用的优点，Orange的强项在于提供了大量可视化方法，可以对数据和模型进行多种图形化展示，并能智能搜索合适的可视化形式，支持对数据的交互式探索。Orange的弱项在于传统统计分析能力不强，不支持统计检验，报表能力也有限。Orange的底层核心也是采用C++编写，同时允许用户使用Python脚本语言来进行扩展开发(参见http://www.scipy.org)。

GGobi数据可视化是数据挖掘的重要组成部分， GGobi (http://www.ggobi.org)就是用于交互式可视化的开源软件，它使用brushing的方法。GGobi可以用作R软件的插件，或者通过Perl、Python等脚本语言来调用。
结论----以
上介绍的几款软件都是优秀的开源数据挖掘软件，各有所长，同时也各有缺点。读者可以结合自己的需求来进行选择，或者组合使用多个软件。对于普通用户可以选
用界面友好易于使用的软件，对于希望从事算法开发的用户则可以根据软件开发工具不同（Java、R、C++、Python等）来选择相应的软件。以上这几
款软件（除了GGobi）基本上都提供了我们期望的大部分功能。（IDMer：我尝试了以上这几种
开源软件，Weka很有名但用起来并不方便，界面也简单了点；RapidMiner现在流行的势头在上升，但它的操作方式和商用软件差别较大，不支持分析
流程图的方式，当包含的运算符比较多的时候就不容易查看了；KNIME和Orange看起来都不错，Orange界面看上去很清爽，但我发现它不支持中
文。我的推荐是KNIME，同时安装Weka和R扩展包。）（IDMer：我的点评纯属个人意见，欢迎大家批评交流。在我的实际工作中使用开源挖掘工具并不多，大部分时候都是在使用SAS Enterprise Miner。）

本文来源：https://www.shanpow.com/xx/442622/

《knime.doc》

将本文的Word文档下载到电脑，方便收藏和打印

推荐度：

点击下载文档

文档为doc格式