<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>刘思喆 @ 贝吉塔行星 &#187; 数据挖掘</title>
	<atom:link href="http://www.bjt.name/category/r/data-mining-r/feed/" rel="self" type="application/rss+xml" />
	<link>http://www.bjt.name</link>
	<description>R 语言，数据挖掘，数据可视化</description>
	<lastBuildDate>Wed, 30 Nov 2011 15:43:30 +0000</lastBuildDate>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.3.1</generator>
		<item>
		<title>数据挖掘之R与SQL</title>
		<link>http://www.bjt.name/2011/08/r-and-sql-datamining/</link>
		<comments>http://www.bjt.name/2011/08/r-and-sql-datamining/#comments</comments>
		<pubDate>Wed, 17 Aug 2011 17:29:15 +0000</pubDate>
		<dc:creator>刘思喆</dc:creator>
				<category><![CDATA[R 语言]]></category>
		<category><![CDATA[数据挖掘]]></category>
		<category><![CDATA[datamining]]></category>
		<category><![CDATA[Oracle]]></category>
		<category><![CDATA[sql]]></category>

		<guid isPermaLink="false">http://www.bjt.name/?p=10874</guid>
		<description><![CDATA[今天看到老同学@JulieJulieJulieJulie 的浪漫求婚，真的很浪漫、很唯美、很感动。正如评论说的，我们又相信爱情了！于是，小兴奋，睡不着，爬起来补一篇文章。 ## 正文开始 最近在数据挖掘专业网站 KDnuggets 上刊出了2011年度关于数据挖掘/分析语言流行度的调查，不出意料R、SQL、Python果然排在了前三位。当然有看官说了，参与调查的样本数量太少，而且以登录KDnuggets网站的用户为主，样本的信息显然是有偏的。实话说，我也对KDnuggets网站的Poll持保留态度，但它的结果毕竟代表了某一类人群的使用偏好，尤其是在语言角度。 我们看排名前5位的语言： R：世界范围内的标准统计语言，以快速更新的算法，灵活的编程，广泛的扩展，绚丽的图形著称，遵循GPL协议的开源软件 SQL：大部分企业使用的，数据仓库、集市的通用查询语言，在大型数据应用上有极大的优势，同时也是数据分析/挖掘的基础 Python：传说中的Google的三大开发语言，适用于粘合一些复杂应用，我这里工作暂时没有涉及过 Java：太多的应用都基于Java的，不然Oracle也不会花上74亿美元收购SUN了 SAS：曾经的数据分析领域老大，当然现在市场份额依旧非常高。但SAS昂贵的使用费用迫使更多的分析工作者转到了开源领域，比如R 后四种语言同R语言还都有一些关系，闲扯起来还真是没完没了，这里就不再赘述，各位可以在搜索引擎上搜索R+XXX。如果我们将范围限制在数据挖掘这个主题，R同SQL的关系则变得非常非常紧密。 众所周知，R的强项在于灵活的算法，以及开发速度，但其所有的计算都是在内存中进行，一旦数据量达到了内存上限，基本上就是叫天天不灵，叫地地不应了。所以在使用R做数据挖掘时，就必须考虑使用其他的数据工具弥补R在这方面的劣势。尤其是在商业应用上，不能搭建R环境的条件下，SQL语言是提供挖掘结果的不二选择。 支持SQL的商用数据库比如Oracle、DB2性能优异，但对系统的占用非常厉害，假如本地装了Oracle，又开了点其他应用，2G的内存很快就会吃到1.5G甚至以上，再想用R做分析那只能用“捉襟见肘”这个词来形容了。当然如果在办公条件下有相应的服务器环境最好，在某些应用环境下，甚至可以通过本地多开R进程来达到并行计算的目的。 或者本地分析比较多，但数据量又时常上到百兆，虽然R也能够处理，但依然建议将数据移植到本地构建的轻量数据库环境，比如MySQL环境。从我的经验上看，虽然MySQL对比Oracle、DB2来说小巧很多，但在同R语言配合的本地应用上，性能更加有保证。 有了支持SQL的数据库环境，就要聊一聊R语言到底和SQL有什么关系： 各大数据库厂商已经开发了相关的支持R语言的数据挖掘套件，比如Oracle的RODM，Teradata的 teradataR等。 R本身就可以通过扩展包来对数据库执行SQL，这时你可以把R语言作为调度环境。R的计算过程结果可以直接作为参数传递到数据库中，并将相应的结果返回，供R环境使用。 通过sqldf包，在R内部使用标准SQL对数据进行预处理，包括group by，order by，join，where等操作。 当然R最重要的用途是将数据挖掘的结果转义为标准SQL语言，利用数据库来实现挖掘结果。当然有人说了，不是有pmml可以将模型嵌入到数据库么？！扯！到现在我也没见pmml成为应用标准，老老实实的将模型结果转义到SQL才是王道。比如用于概率预测的Logistic回归或者分类模型的Tree-based Models，这些模型的转义工作都不难，这样最终的工程实施都脱离了R环境，更具通用性，且利用了数据库的高速性能。 说句题外话：不知道哪位看官见过70万字符长度的庞大SQL语句——是的，你没看错，70w，R转义的，可以执行，对于数据库而言不过是半分钟的事情。 相关文章： Oracle数据库开始支持R语言 KDnuggets 关于数据挖掘软件的调查 2006年至今国内货币供应量的Motion Chart]]></description>
			<content:encoded><![CDATA[<p>今天看到老同学<a href="http://weibo.com/n/JulieJulieJulieJulie" target="_blank">@JulieJulieJulieJulie</a> 的<a href="http://www.tudou.com/programs/view/g52FYAg63Kg/" target="_blank">浪漫求婚</a>，真的很浪漫、很唯美、很感动。正如评论说的，我们又相信爱情了！于是，小兴奋，睡不着，爬起来补一篇文章。</p>
<p>## 正文开始</p>
<p>最近在数据挖掘专业网站 KDnuggets 上刊出了2011年度关于数据挖掘/分析语言流行度的<a href="http://www.kdnuggets.com/2011/08/poll-languages-for-data-mining-analytics.html" target="_blank">调查</a>，不出意料R、SQL、Python果然排在了前三位。当然有看官说了，参与调查的样本数量太少，而且以登录KDnuggets网站的用户为主，样本的信息显然是有偏的。实话说，我也对KDnuggets网站的Poll持保留态度，但它的结果毕竟代表了某一类人群的使用偏好，尤其是在语言角度。</p>
<p><a href="http://www.bjt.name/wp-content/uploads/2011/08/182924.png"><img class="aligncenter" title="data mining survey" src="http://www.bjt.name/wp-content/uploads/2011/08/182924.png" alt="" width="492" height="305" /></a></p>
<p>我们看排名前5位的语言：</p>
<ol>
<li>R：世界范围内的标准统计语言，以快速更新的算法，灵活的编程，广泛的扩展，绚丽的图形著称，遵循GPL协议的开源软件</li>
<li>SQL：大部分企业使用的，数据仓库、集市的通用查询语言，在大型数据应用上有极大的优势，同时也是数据分析/挖掘的基础</li>
<li>Python：传说中的Google的三大开发语言，适用于粘合一些复杂应用，我这里工作暂时没有涉及过</li>
<li>Java：太多的应用都基于Java的，不然Oracle也不会花上74亿美元收购SUN了</li>
<li>SAS：曾经的数据分析领域老大，当然现在市场份额依旧非常高。但SAS昂贵的使用费用迫使更多的分析工作者转到了开源领域，比如R</li>
</ol>
<p>后四种语言同R语言还都有一些关系，闲扯起来还真是没完没了，这里就不再赘述，各位可以在搜索引擎上搜索R+XXX。如果我们将范围限制在数据挖掘这个主题，R同SQL的关系则变得非常非常紧密。</p>
<p>众所周知，R的强项在于灵活的算法，以及开发速度，但其所有的计算都是在内存中进行，一旦数据量达到了内存上限，基本上就是叫天天不灵，叫地地不应了。所以在使用R做数据挖掘时，就必须考虑使用其他的数据工具弥补R在这方面的劣势。尤其是在商业应用上，不能搭建R环境的条件下，SQL语言是提供挖掘结果的不二选择。</p>
<p>支持SQL的商用数据库比如Oracle、DB2性能优异，但对系统的占用非常厉害，假如本地装了Oracle，又开了点其他应用，2G的内存很快就会吃到1.5G甚至以上，再想用R做分析那只能用“捉襟见肘”这个词来形容了。当然如果在办公条件下有相应的服务器环境最好，在某些应用环境下，甚至可以通过本地多开R进程来达到并行计算的目的。</p>
<p>或者本地分析比较多，但数据量又时常上到百兆，虽然R也能够处理，但依然建议将数据移植到本地构建的轻量数据库环境，比如MySQL环境。从我的经验上看，虽然MySQL对比Oracle、DB2来说小巧很多，但在同R语言配合的本地应用上，性能更加有保证。</p>
<p>有了支持SQL的数据库环境，就要聊一聊R语言到底和SQL有什么关系：</p>
<ul>
<li>各大数据库厂商已经开发了相关的支持R语言的数据挖掘套件，比如Oracle的<a href="http://ftp.ctex.org/mirrors/CRAN/web/packages/RODM/index.html">RODM</a>，Teradata的 <a id="download-6865-7769-0" href="https://downloads.teradata.com/download/applications/teradata-r/1.0">teradataR</a>等。</li>
<li>R本身就可以通过扩展包来对数据库执行SQL，这时你可以把R语言作为调度环境。R的计算过程结果可以直接作为参数传递到数据库中，并将相应的结果返回，供R环境使用。</li>
<li>通过sqldf包，在R内部使用标准SQL对数据进行预处理，包括group by，order by，join，where等操作。</li>
<li>当然R最重要的用途是将数据挖掘的结果转义为标准SQL语言，利用数据库来实现挖掘结果。当然有人说了，不是有pmml可以将模型嵌入到数据库么？！扯！到现在我也没见pmml成为应用标准，老老实实的将模型结果转义到SQL才是王道。比如用于概率预测的Logistic回归或者分类模型的Tree-based Models，这些模型的转义工作都不难，这样最终的工程实施都脱离了R环境，更具通用性，且利用了数据库的高速性能。</li>
</ul>
<p>说句题外话：不知道哪位看官见过70万字符长度的庞大SQL语句——是的，你没看错，70w，R转义的，可以执行，对于数据库而言不过是半分钟的事情。<br />
<h3 class='related_post_title'>相关文章：</h3>
<ul class='related_post'>
<li><a href='http://www.bjt.name/2010/06/oracle-data-mining-r/' title='Oracle数据库开始支持R语言'>Oracle数据库开始支持R语言</a></li>
<li><a href='http://www.bjt.name/2009/05/kdnuggets-datamining-survey/' title='KDnuggets 关于数据挖掘软件的调查'>KDnuggets 关于数据挖掘软件的调查</a></li>
<li><a href='http://www.bjt.name/2011/07/money-supply-motion-char/' title='2006年至今国内货币供应量的Motion Chart'>2006年至今国内货币供应量的Motion Chart</a></li>
</ul>
]]></content:encoded>
			<wfw:commentRss>http://www.bjt.name/2011/08/r-and-sql-datamining/feed/</wfw:commentRss>
		<slash:comments>18</slash:comments>
		</item>
		<item>
		<title>简讯： IBM Netezza 联姻 R 语言商业公司 Revolution</title>
		<link>http://www.bjt.name/2011/03/ibm-netezza-revolution/</link>
		<comments>http://www.bjt.name/2011/03/ibm-netezza-revolution/#comments</comments>
		<pubDate>Fri, 18 Mar 2011 13:50:51 +0000</pubDate>
		<dc:creator>刘思喆</dc:creator>
				<category><![CDATA[数据挖掘]]></category>
		<category><![CDATA[IBM]]></category>
		<category><![CDATA[Netezza]]></category>
		<category><![CDATA[Norman Nie]]></category>
		<category><![CDATA[REvolution]]></category>

		<guid isPermaLink="false">http://www.bjt.name/?p=10757</guid>
		<description><![CDATA[2011年3月14日，IBM Netezza 同 Revolution R Enterprise 在 Netezza 数据仓库上搭载 Revolution Analytics 方面展开合作达成一致，二者将致力于整合 IBM Netezza’s i-class technology 和 Revolution 统计分析方面的卓越的能力。 延伸阅读： 2010年9月20日，IBM以17亿美元的价格收购了Netezza，从而扩张其用于销售、市场营销和产品开发的商务分析产品。Netezza被公认为数据仓库市场中最具竞争力的厂商。 Revolution Analytics成立于2007年，是一家以R语言为核心的商业公司，其CEO是SPSS公司的创始人Norman Nie 这里，还有IBM收购SPSS公司 相关文章： SPSS 创立者 Norman Nie 加入 R 社区 IBM 花费 12 亿美元收购 SPSS]]></description>
			<content:encoded><![CDATA[<p>2011年3月14日，<a href="www.netezza.com">IBM Netezza</a> 同 <a href="http://www.revolutionanalytics.com">Revolution R Enterprise</a> 在 Netezza 数据仓库上搭载 Revolution Analytics 方面展开合作达成一致，二者将致力于整合 IBM Netezza’s i-class technology 和 Revolution 统计分析方面的卓越的能力。</p>
<p>延伸阅读：</p>
<ul>
<li>2010年9月20日，IBM以17亿美元的价格收购了Netezza，从而扩张其用于销售、市场营销和产品开发的商务分析产品。Netezza被公认为数据仓库市场中最具竞争力的厂商。</li>
<li><a href="http://www.revolutionanalytics.com" target="_blank">Revolution Analytics</a>成立于2007年，是一家以R语言为核心的商业公司，其CEO是SPSS公司的创始人<a href="http://www.bjt.name/2009/10/spss-norman-nie-r/" target="_blank">Norman Nie</a></li>
<li><a href="http://www.bjt.name/2009/07/ibm-spss-acquisition/" target="_blank">这里</a>，还有IBM收购SPSS公司</li>
</ul>
<h3 class='related_post_title'>相关文章：</h3>
<ul class='related_post'>
<li><a href='http://www.bjt.name/2009/10/spss-norman-nie-r/' title='SPSS 创立者 Norman Nie 加入 R 社区'>SPSS 创立者 Norman Nie 加入 R 社区</a></li>
<li><a href='http://www.bjt.name/2009/07/ibm-spss-acquisition/' title='IBM 花费 12 亿美元收购 SPSS'>IBM 花费 12 亿美元收购 SPSS</a></li>
</ul>
]]></content:encoded>
			<wfw:commentRss>http://www.bjt.name/2011/03/ibm-netezza-revolution/feed/</wfw:commentRss>
		<slash:comments>3</slash:comments>
		</item>
		<item>
		<title>Rexer Analytics 2010年度数据挖掘调查</title>
		<link>http://www.bjt.name/2011/03/rexer-analytics-2010-survey/</link>
		<comments>http://www.bjt.name/2011/03/rexer-analytics-2010-survey/#comments</comments>
		<pubDate>Wed, 09 Mar 2011 15:44:45 +0000</pubDate>
		<dc:creator>刘思喆</dc:creator>
				<category><![CDATA[R 语言]]></category>
		<category><![CDATA[数据挖掘]]></category>
		<category><![CDATA[Analytics]]></category>
		<category><![CDATA[STATISTICA]]></category>
		<category><![CDATA[survey]]></category>

		<guid isPermaLink="false">http://www.bjt.name/?p=10742</guid>
		<description><![CDATA[Rexer Analytics 关于数据挖掘的年度调查开始于 2007 年，本次（2010年）是第四次年度调查，原文链接在这里。 调查的关键要点如下： 1.调查样本量 2010年前期，735个参与者，来自于60个国家 2.数据挖掘覆盖领域 数据挖掘覆盖很多领域，但CRM/Marketing在过去的几年一直排名第一。 3.涉及算法 决策树、回归、聚类是主要的使用方法，但其他算法也被广泛使用。虽然第一次涉及 Ensemble Models，但22%的人宣称正在使用。 4.模型 三分之一的建模人员使用了10个及以下的变量建模，同时28%的建模人员宣称模型一般使用45个以上的变量 5.工具 随着过去几年稳定的增长，开源数据挖掘软件R已经成为挖掘人员的首选（43%），其次是 STATISTICA（18%）。STATISTICA、IBM SPSS Modeler 和 R 在2009、2010年被参与调查的挖掘人员给了最高满意得分。 6.技能 数据挖掘依然主要发生在个人电脑上（而不是服务器），数据一般也是存储在本地。模型的结果依然主要依赖于软件本身。STATISTICA 用户比其他软件用户，更倾向于使用PMML标准。 7.挑战 脏数据，数据挖掘概念的普及、对数据的访问 8.未来 参与调研的人员对于数据挖掘还是非常乐观的。这个领域仍然有上升空间，只有13%的挖掘人员给自己的公司的分析能力评为“excellent”，只有8%的人认为他们的数据质量可以被认为“very strong”。 同往常一样，一些评论： 鉴于数据挖掘从业人员的总体数量，有735个样本已经很不错了。 CRM/Marketing在中国国内也依然是数据挖掘最重要的应用领域。 比较惊讶的是，Ensemble Models 居然在国外的使用率已到到22%。 模型的变量问题是具体业务所决定，甚至是效率、成本的考虑，多少都是正常。 R语言成为挖掘人员的首选工具是必然的（包括在 KDNuggets 上的调查也是如此）。当然如果从数据分析的本源出发的话，R语言有不可替代的天然优势。 PMML标准依然可以在R语言上实现，感谢Graham Williams和他的同事。 挑战估计是每个挖掘从业人员都遇到过的问题，大家多多交流吧 数据挖掘的未来是美好的，毕竟我们生活的世界数据越来越多，扔在那儿太可惜了～～ 相关文章： 数据挖掘之R与SQL 2006年至今国内货币供应量的Motion Chart 一个美丽的三角形]]></description>
			<content:encoded><![CDATA[<p>Rexer Analytics 关于数据挖掘的年度调查开始于 2007 年，本次（2010年）是第四次年度调查，原文链接在<a href="http://www.rexeranalytics.com/Data-Miner-Survey-Results-2010.html" target="_blank">这里</a>。</p>
<p>调查的关键要点如下：</p>
<p>1.调查样本量</p>
<p>2010年前期，735个参与者，来自于60个国家</p>
<p>2.数据挖掘覆盖领域</p>
<p>数据挖掘覆盖很多领域，但CRM/Marketing在过去的几年一直排名第一。</p>
<p>3.涉及算法</p>
<p>决策树、回归、聚类是主要的使用方法，但其他算法也被广泛使用。虽然第一次涉及 Ensemble Models，但22%的人宣称正在使用。</p>
<p>4.模型</p>
<p>三分之一的建模人员使用了10个及以下的变量建模，同时28%的建模人员宣称模型一般使用45个以上的变量</p>
<p>5.工具</p>
<p>随着过去几年稳定的增长，开源数据挖掘软件R已经成为挖掘人员的首选（43%），其次是 STATISTICA（18%）。STATISTICA、IBM SPSS Modeler 和 R 在2009、2010年被参与调查的挖掘人员给了最高满意得分。</p>
<p>6.技能</p>
<p>数据挖掘依然主要发生在个人电脑上（而不是服务器），数据一般也是存储在本地。模型的结果依然主要依赖于软件本身。STATISTICA 用户比其他软件用户，更倾向于使用PMML标准。</p>
<p>7.挑战</p>
<p>脏数据，数据挖掘概念的普及、对数据的访问</p>
<p>8.未来</p>
<p>参与调研的人员对于数据挖掘还是非常乐观的。这个领域仍然有上升空间，只有13%的挖掘人员给自己的公司的分析能力评为“excellent”，只有8%的人认为他们的数据质量可以被认为“very strong”。</p>
<p>同往常一样，一些评论：</p>
<ol>
<li>鉴于数据挖掘从业人员的总体数量，有735个样本已经很不错了。</li>
<li>CRM/Marketing在中国国内也依然是数据挖掘最重要的应用领域。</li>
<li>比较惊讶的是，Ensemble Models 居然在国外的使用率已到到22%。</li>
<li>模型的变量问题是具体业务所决定，甚至是效率、成本的考虑，多少都是正常。</li>
<li>R语言成为挖掘人员的首选工具是必然的（包括在 KDNuggets 上的调查也是如此）。当然如果从数据分析的本源出发的话，R语言有不可替代的天然优势。</li>
<li>PMML标准依然可以在R语言上实现，感谢Graham Williams和他的同事。</li>
<li>挑战估计是每个挖掘从业人员都遇到过的问题，大家多多交流吧</li>
<li>数据挖掘的未来是美好的，毕竟我们生活的世界数据越来越多，扔在那儿太可惜了～～</li>
</ol>
<h3 class='related_post_title'>相关文章：</h3>
<ul class='related_post'>
<li><a href='http://www.bjt.name/2011/08/r-and-sql-datamining/' title='数据挖掘之R与SQL'>数据挖掘之R与SQL</a></li>
<li><a href='http://www.bjt.name/2011/07/money-supply-motion-char/' title='2006年至今国内货币供应量的Motion Chart'>2006年至今国内货币供应量的Motion Chart</a></li>
<li><a href='http://www.bjt.name/2011/06/beautiful-math-triangle-r/' title='一个美丽的三角形'>一个美丽的三角形</a></li>
</ul>
]]></content:encoded>
			<wfw:commentRss>http://www.bjt.name/2011/03/rexer-analytics-2010-survey/feed/</wfw:commentRss>
		<slash:comments>2</slash:comments>
		</item>
	</channel>
</rss>

