<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>刘思喆 @ 贝吉塔行星 &#187; 数据挖掘</title>
	<atom:link href="http://www.bjt.name/tag/%e6%95%b0%e6%8d%ae%e6%8c%96%e6%8e%98/feed/" rel="self" type="application/rss+xml" />
	<link>http://www.bjt.name</link>
	<description>R 语言，数据挖掘，数据可视化</description>
	<lastBuildDate>Wed, 30 Nov 2011 15:43:30 +0000</lastBuildDate>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.3.1</generator>
		<item>
		<title>史上最强悍的数据挖掘介绍</title>
		<link>http://www.bjt.name/2010/12/toronto-data-mining-intro/</link>
		<comments>http://www.bjt.name/2010/12/toronto-data-mining-intro/#comments</comments>
		<pubDate>Mon, 06 Dec 2010 16:00:33 +0000</pubDate>
		<dc:creator>刘思喆</dc:creator>
				<category><![CDATA[数据挖掘]]></category>
		<category><![CDATA[crisp-dm]]></category>
		<category><![CDATA[datamining]]></category>
		<category><![CDATA[mindmap]]></category>

		<guid isPermaLink="false">http://www.bjt.name/?p=10715</guid>
		<description><![CDATA[（我承认，这个是标题党！） 今儿看到 Ajay Ohri 那儿推荐了多伦多大学 S. Sayad 教授的关于数据挖掘的一个在线介绍。这个介绍包含了完整的数据挖掘过程，以及数据挖掘技术的分类，并且每一项都可以通过超链接到相应的分支。让人爱不释手，大赞之！ S. Sayad 教授在数据挖掘过程定义上同从比较流行的 CRISP-DM（Cross Industry Standard Process for Data Mining）有些区别： Problem Definition Data Preparaion Data Exploration Modelling Evaluation Deployment (但个人认为这两种说法其实没有脱离问题的本质，是一致的)。 而重头戏则是关于数据挖掘（统计分析）技术的两大领域 描述 推断 挖掘（分析）技术的对应关系（超链接的脑图？）， 首先是——描述： 然后是——推断： 最后是 S. Sayad 教授的数据挖掘在线 intro，请猛击之！ 再补一句：关于数据挖掘软件的介绍，没有 R，抱怨一下～～ 附1： 标准的“商业”数据挖掘过程： Business Understanding Data Understanding Data Preparaion Modelling Evaluating Deployment 固定链接：http://www.bjt.name/2010/12/toronto-data-mining-intro/‎ 相关文章： Oracle数据库开始支持R语言 从一等奖出现的概率看中国福利彩票的公正性 <a href='http://www.bjt.name/2010/12/toronto-data-mining-intro/'>[...]</a>]]></description>
			<content:encoded><![CDATA[<p>（我承认，这个是标题党！）</p>
<p>今儿看到 <a href="http://decisionstats.com/" target="_blank">Ajay Ohri</a> 那儿推荐了多伦多大学<a href="mailto:saed.sayad@utoronto.ca"> S. Sayad</a> 教授的关于数据挖掘的一个在线介绍。这个介绍包含了完整的数据挖掘过程，以及数据挖掘技术的分类，并且每一项都可以通过超链接到相应的分支。让人爱不释手，大赞之！</p>
<p><a href="mailto:saed.sayad@utoronto.ca"> S. Sayad</a> 教授在数据挖掘过程定义上同从比较流行的 CRISP-DM（Cross Industry Standard Process for Data Mining）有些区别：</p>
<ol>
<li>Problem Definition</li>
<li>Data Preparaion</li>
<li>Data Exploration</li>
<li>Modelling</li>
<li>Evaluation</li>
<li>Deployment</li>
</ol>
<p>(但个人认为这两种说法其实没有脱离问题的本质，是一致的)。</p>
<p>而重头戏则是关于数据挖掘（统计分析）技术的两大领域</p>
<ul>
<li>描述</li>
<li>推断</li>
</ul>
<p>挖掘（分析）技术的对应关系（超链接的脑图？），</p>
<p>首先是——描述：</p>
<p><a href="http://www.bjt.name/wp-content/uploads/2010/12/dm1.png"><img class="aligncenter size-full wp-image-10716" title="description" src="http://www.bjt.name/wp-content/uploads/2010/12/dm1.png" alt="" width="687" height="480" /></a>然后是——推断：</p>
<p><a href="http://www.bjt.name/wp-content/uploads/2010/12/dm2.png"><img class="aligncenter size-full wp-image-10717" title="inference" src="http://www.bjt.name/wp-content/uploads/2010/12/dm2.png" alt="" width="645" height="703" /></a></p>
<p>最后是<a href="mailto:saed.sayad@utoronto.ca"> S. Sayad</a> 教授的数据挖掘<a href="http://chem-eng.utoronto.ca/~datamining/dmc/data_mining_map.htm" target="_blank">在线 intro</a>，请猛击之！</p>
<p>再补一句：关于数据挖掘软件的介绍，没有 <a href="http://www.r-project.org" target="_self">R</a>，抱怨一下～～</p>
<p>附1：</p>
<p>标准的“商业”数据挖掘过程：</p>
<ol>
<li>Business Understanding</li>
<li>Data Understanding</li>
<li>Data Preparaion</li>
<li>Modelling</li>
<li>Evaluating</li>
<li>Deployment</li>
</ol>
<p>固定链接：http://www.bjt.name/2010/12/toronto-data-mining-intro/‎<br />
<h3 class='related_post_title'>相关文章：</h3>
<ul class='related_post'>
<li><a href='http://www.bjt.name/2010/06/oracle-data-mining-r/' title='Oracle数据库开始支持R语言'>Oracle数据库开始支持R语言</a></li>
<li><a href='http://www.bjt.name/2009/07/welfare-lottery-justice/' title='从一等奖出现的概率看中国福利彩票的公正性'>从一等奖出现的概率看中国福利彩票的公正性</a></li>
<li><a href='http://www.bjt.name/2009/04/hoopchina-single-index-yaoming/' title='关于在hoopchina上发帖的回答'>关于在hoopchina上发帖的回答</a></li>
</ul>
]]></content:encoded>
			<wfw:commentRss>http://www.bjt.name/2010/12/toronto-data-mining-intro/feed/</wfw:commentRss>
		<slash:comments>3</slash:comments>
		</item>
		<item>
		<title>Oracle数据库开始支持R语言</title>
		<link>http://www.bjt.name/2010/06/oracle-data-mining-r/</link>
		<comments>http://www.bjt.name/2010/06/oracle-data-mining-r/#comments</comments>
		<pubDate>Tue, 08 Jun 2010 15:41:51 +0000</pubDate>
		<dc:creator>刘思喆</dc:creator>
				<category><![CDATA[数据挖掘]]></category>
		<category><![CDATA[杂七杂八]]></category>
		<category><![CDATA[datamining]]></category>
		<category><![CDATA[Oracle]]></category>
		<category><![CDATA[R 语言]]></category>
		<category><![CDATA[甲骨文]]></category>

		<guid isPermaLink="false">http://www.bjt.name/?p=10654</guid>
		<description><![CDATA[一则令人兴奋的简讯： 据Oracle官方博客 最近更新的 New R Interface to Oracle Data Mining Available for Download，甲骨文开始正式支持R语言在Oracle数据库中的应用（简单的非官方说法是：甲骨文贡献了一个提供Oracle和R之间接口的附加包）。 援引博客中对R-ODM(R-Oracle Data Mining)的介绍： R-ODM is especially useful for: Quick prototyping of vertical or domain-based applications where the Oracle Database supports the application Scripting of “production” data mining methodologies Customizing graphics of ODM data mining results (examples: classification, regression, anomaly detection) 众所周知，R在实现原型算法方面有着不可替代的巨大优势。诚然，通过R实现的一般性数据挖掘算法都可以嵌入到数据库中，但Oracle提供的这个接口，极大地提高了挖掘算法的部署效率。 今天（2010.06.08），CRAN上更新了RODM包的1.0-2版本，支持Windows、Linux、MacOS X系统。 下面是RODM包帮助文档中的一个例子，可以初步地体会算法高效的部署： ### <a href='http://www.bjt.name/2010/06/oracle-data-mining-r/'>[...]</a>]]></description>
			<content:encoded><![CDATA[<p>一则令人兴奋的简讯：</p>
<p>据<a href="http://blogs.oracle.com/" target="_blank">Oracle官方博客</a> 最近更新的 <a href="http://blogs.oracle.com/datamining/2010/05/new_r_interface_to_oracle_data_mining_available_for_download.html" target="_self">New R Interface to Oracle Data Mining Available for Download</a>，甲骨文开始正式支持R语言在Oracle数据库中的应用（简单的非官方说法是：甲骨文贡献了一个提供Oracle和R之间接口的附加包）。</p>
<p>援引博客中对R-ODM(R-Oracle Data Mining)的介绍：</p>
<p>R-ODM is especially useful for:</p>
<ul>
<li>Quick prototyping of vertical or domain-based applications where the Oracle Database supports the application</li>
<li>Scripting of “production” data mining methodologies</li>
<li>Customizing graphics of ODM data mining results (examples: <a href="http://www.oracle.com/technology/products/bi/odm/images/rodm_classification.jpg">classification</a>, <a href="http://www.oracle.com/technology/products/bi/odm/images/rodm_regression.jpg">regression</a>, <a href="http://www.oracle.com/technology/products/bi/odm/images/rodm_anomaly_detection.jpg">anomaly detection</a>)</li>
</ul>
<p>众所周知，R在实现原型算法方面有着不可替代的巨大优势。诚然，通过R实现的一般性数据挖掘算法都可以嵌入到数据库中，但Oracle提供的这个接口，极大地提高了挖掘算法的部署效率。</p>
<p>今天（2010.06.08），<a href="http://cran.r-project.org/" target="_self">CRAN</a>上更新了<a href="http://cran.r-project.org/web/packages/RODM/index.html" target="_self">RODM</a>包的1.0-2版本，支持Windows、Linux、MacOS X系统。</p>
<p>下面是RODM包帮助文档中的一个例子，可以初步地体会算法高效的部署：</p>
<pre lang="rsplus">### GLM Regression
## Not run:
x1 &lt;- 2 * runif(200)
noise &lt;- 3 * runif(200) - 1.5
y1 &lt;- 2 + 2*x1 + x1*x1 + noise
dataset &lt;- data.frame(x1, y1)
names(dataset) &lt;- c("X1", "Y1")
RODM_create_dbms_table(DB, "dataset")   # Push the training table to the database

glm &lt;- RODM_create_glm_model(database = DB,    # Create ODM GLM model
                             data_table_name = "dataset",
                             target_column_name = "Y1",
                             mining_function = "regression")

glm2 &lt;- RODM_apply_model(database = DB,    # Predict training data
                             data_table_name = "dataset",
                             model_name = "GLM_MODEL",
                             supplemental_cols = "X1")
windows(height=8, width=12)
plot(x1, y1, pch=20, col="blue")
points(x=glm2$model.apply.results[, "X1"],
       glm2$model.apply.results[, "PREDICTION"], pch=20, col="red")
legend(0.5, 9, legend = c("actual", "GLM regression"), pch = c(20, 20),
                col = c("blue", "red"),
                pt.bg =  c("blue", "red"), cex = 1.20, pt.cex=1.5, bty="n")

RODM_drop_model(DB, "GLM_MODEL")            # Drop the model
RODM_drop_dbms_table(DB, "dataset")   # Drop the database table
RODM_close_dbms_connection(DB)
RODM_close_dbms_connection(DB)</pre>
<blockquote><p>说一句题外话：<br />
R的影响力除了在统计分析领域（SAS、SPSS、Statistica已经都开始支持R接口）外，已然发展到了商业数据库领域。</p></blockquote>
<p>永久链接：http://www.bjt.name/2010/06/oracle-data-mining-r/<br />
<h3 class='related_post_title'>相关文章：</h3>
<ul class='related_post'>
<li><a href='http://www.bjt.name/2011/08/r-and-sql-datamining/' title='数据挖掘之R与SQL'>数据挖掘之R与SQL</a></li>
<li><a href='http://www.bjt.name/2009/05/kdnuggets-datamining-survey/' title='KDnuggets 关于数据挖掘软件的调查'>KDnuggets 关于数据挖掘软件的调查</a></li>
<li><a href='http://www.bjt.name/2010/12/toronto-data-mining-intro/' title='史上最强悍的数据挖掘介绍'>史上最强悍的数据挖掘介绍</a></li>
</ul>
]]></content:encoded>
			<wfw:commentRss>http://www.bjt.name/2010/06/oracle-data-mining-r/feed/</wfw:commentRss>
		<slash:comments>8</slash:comments>
		</item>
		<item>
		<title>从一等奖出现的概率看中国福利彩票的公正性</title>
		<link>http://www.bjt.name/2009/07/welfare-lottery-justice/</link>
		<comments>http://www.bjt.name/2009/07/welfare-lottery-justice/#comments</comments>
		<pubDate>Sun, 26 Jul 2009 05:51:41 +0000</pubDate>
		<dc:creator>刘思喆</dc:creator>
				<category><![CDATA[杂七杂八]]></category>
		<category><![CDATA[datamining]]></category>
		<category><![CDATA[双色球]]></category>
		<category><![CDATA[彩票]]></category>
		<category><![CDATA[数据挖掘]]></category>
		<category><![CDATA[泊松分布]]></category>

		<guid isPermaLink="false">http://www.bjt.name/2009/07/%e4%b8%ad%e5%9b%bd%e7%a6%8f%e5%88%a9%e5%bd%a9%e7%a5%a8%e7%9a%84%e5%85%ac%e6%ad%a3%e6%80%a7/</guid>
		<description><![CDATA[深圳福彩3000万巨奖诈骗案发生后，好多朋友开始质疑中国福利彩票的公正性，并向我询问福利彩票是不是真的如传闻那样&#8211;福利彩票自产自销？。由于身在中福彩的原因，很多支持福彩公正的内情不太合适发布在网上，但&#8211;数据一汇总，上帝也会发笑。这篇博文从一等奖中奖概率分布的角度给各位童鞋聊聊福彩的公正性。 现在每一期的福彩双色球销售额大概是2亿左右（已持续很长时间），每注双色球为2元，就是说每期双色球的销售大概会有1亿人次参与。 在随机选择，且每次抽取都是等概率的的假定条件下，理论的重复彩票注数的分布（0注至41注）如下： 一等奖是完全随机出现的，那么在假设条件下，一等奖同时出现五注的概率最高，六注、四注其次，再次为七注、三注，类推……当然理论上，没有中奖（0注）和中12注以上的概率相比其他情形低了很多。 那么我们再看一看福利彩票双色球每期中一等奖（2008年1月1日至2009年7月23日）的实际分布情况： 有童鞋看出端倪了：实际数据的分布同理论上的分布是不一致的！理论上的一等奖出现概率最大在出现五注的位置，而实际上一等奖出现的最大概率出现在了两注的位置。 为什么会出现这样的情况？主要是因为我们最开始的假设是有问题。 双色球每期销售会有1亿人次的彩民参与？不可能！双色球的覆盖度没有那么大。 一些彩民为了提高中奖概率（或者说迷信一些选号方法），会采用”复式”、”胆拖”、”倍投”等方式投注，当然大部分彩民还是会老老实实的买一注。综合考虑到这些因素以后，凭经验估计样本量应该为现在的一半左右，即5000万。这样看来较为合理的一等奖中奖概率理论上分布为： 此时理论分布同实际分布已经非常相似。 实际双色球一等奖分布的右边尾巴上恰恰显示了”复式”、”胆拖”、”倍投”的投注效果。 再插一句： 深圳福彩3000万大奖诈骗犯身份曝光一文中提到： 警方调查发现，程某先是编写了一个可以自动运行的木马软件，然后利用与福彩中心合作的机会，进入福彩中心机房，植入自动运行的木马程序。一旦摇奖结果出来，这个程序会自动将程某所购买的彩票修改成一等奖的号码。 这里可以推测程某天真地以为满足兑大奖的条件为： 数据库里的数据正确； 实体彩票存在。 恩，没有问题！但，这两个条件可是通过很多很多很多的手段来监管的。 相关文章： 史上最强悍的数据挖掘介绍 Oracle数据库开始支持R语言 提高双色球中奖概率]]></description>
			<content:encoded><![CDATA[<p><a href="http://news.sina.com.cn/s/2009-07-08/215318181309.shtml">深圳福彩3000万巨奖诈骗案</a>发生后，好多朋友开始质疑中国福利彩票的公正性，并向我询问福利彩票是不是真的如传闻那样&#8211;福利彩票自产自销？。由于身在中福彩的原因，很多支持福彩公正的内情不太合适发布在网上，但&#8211;数据一汇总，上帝也会发笑。这篇博文从一等奖中奖概率分布的角度给各位童鞋聊聊福彩的公正性。</p>
<p>现在每一期的福彩双色球销售额大概是2亿左右（已持续很长时间），每注双色球为2元，就是说每期双色球的销售大概会有1亿人次参与。</p>
<p><span style="font-family: Courier New;"><samp style="font-family: 宋体;">在随机选择，且每次抽取都是等概率的的假定条件下，理论的重复彩票注数的分布（0注至41注）如下：</samp></span></p>
<p><span style="font-family: Courier New;"><samp style="font-family: 宋体;"><img src="http://www.bjt.name/wp-content/uploads/1.png" alt="" width="644" height="371" /></samp></span></p>
<p><span style="font-family: Courier New;"><samp><span style="font-family: Arial;"><br />
</span></samp></span></p>
<p>一等奖是完全随机出现的，那么<span style="font-family: Courier New;"><samp><span style="font-family: Arial;">在假设条件下，一等奖同时出现五注的概率最高，六注、四注其次，再次为七注、三注，类推……当然理论上，没有中奖（0注）和中12注以上的概率相比其他情形低了很多。</span></samp></span></p>
<p><span style="font-family: Courier New;"><samp><span style="font-family: Arial;">那么我们再看一看福利彩票双色球每期中一等奖（2008年1月1日至2009年7月23日）的实际分布情况：</span></samp></span></p>
<p><span style="font-family: Courier New;"><samp><img src="http://www.bjt.name/wp-content/uploads/2009/07/thunderball2.png" alt="thunderball2.png" width="623" height="401" /></samp></span></p>
<p><span style="font-family: Courier New;"><samp><span style="font-family: Arial;"><br />
有童鞋看出端倪了：实际数据的分布同理论上的分布是不一致的！理论上的一等奖出现概率最大在出现五注的位置，而实际上一等奖出现的最大概率出现在了两注的位置。</span></samp></span></p>
<p><span style="font-family: Courier New;"><samp><span style="font-family: Arial;">为什么会出现这样的情况？主要是因为我们最开始的假设是有问题。</span></samp></span></p>
<p><span style="font-family: Courier New;"><samp><span style="font-family: Arial;">双色球每期销售会有1亿人次的彩民参与？不可能！双色球的覆盖度没有那么大。</span></samp></span></p>
<p><span style="font-family: Courier New;"><samp><span style="font-family: Arial;">一些彩民为了提高中奖概率（或者说迷信一些选号方法），会采用”复式”、”胆拖”、”倍投”等方式投注，当然大部分彩民还是会老老实实的买一注。综合考虑到这些因素以后，凭经验估计样本量应该为现在的一半左右，即5000万。这样看来较为合理的一等奖中奖概率理论上分布为：</span></samp></span></p>
<p><span style="font-family: Courier New;"><samp><span style="font-family: Arial;"><img src="http://www.bjt.name/wp-content/uploads/2.png" alt="" width="644" height="371" /></span></samp></span></p>
<p>此时理论分布同实际分布已经非常相似。</p>
<p>实际双色球一等奖分布的右边尾巴上恰恰显示了”复式”、”胆拖”、”倍投”的投注效果。</p>
<p>再插一句：</p>
<p><a href="http://news.sina.com.cn/c/2009-07-25/035216009956s.shtml">深圳福彩3000万大奖诈骗犯身份曝光</a>一文中提到：</p>
<blockquote><p>警方调查发现，程某先是编写了一个可以自动运行的木马软件，然后利用与福彩中心合作的机会，进入福彩中心机房，植入自动运行的木马程序。一旦摇奖结果出来，这个程序会自动将程某所购买的彩票修改成一等奖的号码。</p></blockquote>
<p>这里可以推测程某天真地以为满足兑大奖的条件为：</p>
<ol>
<li>数据库里的数据正确；</li>
<li>实体彩票存在。</li>
</ol>
<p>恩，没有问题！但，这两个条件可是通过<strong>很多很多很多</strong>的手段来监管的。<br />
<h3 class='related_post_title'>相关文章：</h3>
<ul class='related_post'>
<li><a href='http://www.bjt.name/2010/12/toronto-data-mining-intro/' title='史上最强悍的数据挖掘介绍'>史上最强悍的数据挖掘介绍</a></li>
<li><a href='http://www.bjt.name/2010/06/oracle-data-mining-r/' title='Oracle数据库开始支持R语言'>Oracle数据库开始支持R语言</a></li>
<li><a href='http://www.bjt.name/2009/11/thunder-ball/' title='提高双色球中奖概率'>提高双色球中奖概率</a></li>
</ul>
]]></content:encoded>
			<wfw:commentRss>http://www.bjt.name/2009/07/welfare-lottery-justice/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
	</channel>
</rss>

