刘思喆

COS 上有人问过如何求1~100的素数。虽说这个问题没准就是计算机系大一新生的一道作业题,但对我这个几乎没有任何 C 编程经验的人来说,似乎还是有些挑战。花了几分钟整理了一下思路,既然素数的定义是只能被1和自身整除,那么: 1、如果第 n 个数,不能它前面的所有的数字(不包括1)整除,那么即为定义。但需要遍历所有数字,效率肯定不好。 2、如果 n 不能被 n 前面的所有素数整除的话,那么 n 应该是下一个素数(后来知道这个是算术基本定理)。 根据第二点思路,写出 R 代码:

prime2 <- function(m){
    x <- c(2,3,5,7,11)
    for(i in 13:m){
        if(!any(i%%x == 0)) x <- c(x,i)
    }
    return(x)
}

即给出前 5 个素数,而后寻找第 6 个素数;再根据 6 个素数找第 7 个;类推……;直至 n。 马上 cloud_wei 给出了另外的实现方式:glm包的 isprime 函数(这个包似乎没有 Windows 版本); 接着 jo3vul31l3 在回帖中给了最优的解法,即埃拉托斯特尼筛法

prime3<-function(m){
    x<-c(2:m) ; y<-NULL
    repeat{
        z<-x[(x%%x[1])!=0] ; y<-c(y,x[1])
        if(x[1]>sqrt(m))break
        x<-z
    }
    c(y,z)
}

在这以前我一直以为 素数 越到后面会越”稀疏”,但事实是这样(1:10000区间的素数):

第一幅图的红色线是顺手做的一个线性回归拟合线;10000以前的素数几乎是平均的出现在各个区间(breaks = 100)。

以前用过几个国内的数据分析(挖掘)软件,每次溜达到商家主页,基本介绍都是诸如“某某公司依托××大学……;××指定专用数据分析软件"。这时候我就会想,这些商家怎么不仔细瞅瞅 R 官网的 Members&Donor,看看那几十所 Supporting Institutions ,或者20位 R 的核心团队成员的资料。不过回头一想,这些数据分析软件商家不这么说的话,又能说点啥。

R News 正式更名为 R Journal 后的第一篇文章是 Facets of R,作者 John M. Chambers 可不是一般人物,虽然在 R 的官网上只能看到他是 R 核心团队之一,但仔细查一查就会发现–他可是 R 的老祖宗^_^

John M. Chambers 自 1966 年供职于贝尔实验室,在 1981-83 年间 head of the Advanced Software Department , and from 1983-88, head of the Data Analysis and Statistics Research Department,J.M. Chambers 在1998 年因为 S 语言(R 语言的前身)获得 ACM(Association for Computing Machinery) 系统奖。这个奖项每年评选一次,一般由 IBM 提供10,000$ 的奖金(wiki 上给的似乎有错误)。

这个奖项有着广泛而深远的影响,下面列举了一些我们熟悉的项目:

  • 1983 Unix
  • 1986 TeX
  • 1989 PostScript
  • 1991 TCP/IP
  • 1995 World-Wid-Web
  • 1997 Tcl/Tk
  • 1998 S
  • 1999 The Apache Group
  • 2002 Java

基本都不用介绍吧,几乎每天我的工作、生活、学习都会涉及到这些软件系统。

最后引用 ACM Software System Award 对 John.M.Chambers 以及 S 语言的评价: The ACM's citation notes that Dr. Chambers' work "will forever alter the way people analyze, visualize, and manipulate data . . . S is an elegant, widely accepted, and enduring software system, with conceptual integrity, thanks to the insight, taste, and effort of John Chambers."

.PS. 主要参考了 John.M.Chambers 的wiki 词条及其链接;yihui 的R语言的 历史背景、发展历程及现状

以前由于职业的原因,经常全国各地的乱飞。虽说飞机的出事概率仅仅相当于陆上交通工具的百分之一,但每次上飞机前,总会怯怯的问自己:”这次上去能不能好好的下来?”上去的话,一般都是塞上耳机,打开笔记本–看 R。说实话,我还是更喜欢心灵的飞翔,而不是坐着飞机去感受加速度。

一般商用喷气式飞机的稳定性很高,即使有突然事件造成损害,大部分飞机都能保证安全或部分安全地着陆。引发安全问题的事件可能是:

  • skin or door failure leading to cabin pressure explosion
  • gross upset leading to airspeeds and/or G loadings far in excess of design limits
  • attack by military weapons * bird strike * flight through volcanic ash
  • engine explosion
  • collision with ground structures during takeoff

1 - ppois(0,5.7e-13*125*11) 
[1] 7.8375e-10

飞机被流星击中的概率为7.8375e-10,即,飞机被流星击中的概率是它的百分之一,

1 - ppois(0,720e6*5.7e-13*125)
[1] 0.05000637

房地产是个啥?这话题每每被俺们 80 后提起的时候,必然是捶胸顿足、长吁短叹,恨不得啖无良地商之肉,食腐败官员之血。俺们都介草民,大部分是 No Money, No House, No Woman 的主儿,没钱买房,瞅瞅成吧?

房地产那事俺不懂,而且晚上同事喜酒喝多了,有点懵。就放个图在这儿(从 2006-05-01到2009年-06-01的北京房地产),我们一起瞅,hohoh

house

第一列图呢,是关于”未签约现房的统计”,按顺序下来是:

  • 未签约套数(X1)
  • 未签约面积(X2)
  • 未签约住宅套数(X3)
  • 未签约住宅面积(X4)

第二列图呢,是关于”可售期房统计”,按顺序下来是:

  • 可售房屋套数(X5)
  • 可售房屋面积(X6)
  • 可售住宅套数(X7)
  • 可售住宅面积(X8)

我把数据发布如下:http://spreadsheets.google.com/pub?key=rMnVsJbDN09Ic2LpgyDqEXQ&output=html

有兴趣的童鞋可以仔细分析下。

买房?不买房?啥时候买?耗着,等经济崩溃?做最后一棒?更懵了!洗洗睡吧~~

这两天又有的看了,窃喜~~

再加一句吧:Conference Review: The 1st Chinese R Conference 能发布在 第一期 R Journal 上,yihui 功不可没喔。

5月份,KDnuggets 给出了近六个月用于实际数据挖掘(非评估)项目中使用的挖掘工具调查,共364个投票人。

DM toolkit

  1. SPSS (PA)和 SAS(BA) 没啥可说的,老牌的商业数据分析软件商,尤其是 SPSS,去年就是 KDnuggets 这项调查的第一位,SPSS 的销售常拿这个说事;
  2. Excel(spreadshit),可进行“简单数据操作”的 MS 产品;
  3. RapidMiner,比较流行的开源数据挖掘软件;
  4. R ? 为数据分析而生的开源软件。说到这儿,我突然卡壳了,它能做的事情太多……。R 更贴近于数据的本质(继续鼓吹)~~

SAS、SPSS、Statistica 陆续增加了对 R 语言的支持,从这个角度来讲,这几大厂商自己都心虚了,几年后数据挖掘领域必定是 R 的天下。

原文:http://www.kdnuggets.com/polls/2009/data-mining-tools-used.htm

© 2010 刘思喆 @ 贝吉塔行星 Suffusion WordPress theme by Sayontan Sinha