自第三届中国R语言会议至今,已经有些时日了。说想把培训材料再好好整理一下,无奈项目比较紧张,只好简单修改了下。回顾材料——发现写的少,讲的多……
闲话少说,下面是材料的链接:slides 版本和 print 版本。

很早以前就听人说过,北有北师,南有华师,不过因为专业和地理原因,一直以为自己不会和华师有什么关系。这次承蒙张翔和焦静的辛苦组织,华师的资环和金统学院联合主办中国 R 语言会议(上海)。在华师不但让我见识了 LaTeX 、R 界的前辈——汤银才教授,还结识了一大批业界精英、青年学者,倍感荣幸。

华师的大门和我想象的差不多,里面古朴的建筑风格也别具一格。

无奈天公不作美,上海这几日阴雨霏霏,没有好好的在华师内仔细转转。

最后是主题,趣闻几则:

  • 中心国际的林光启博士,演讲时提到自己生长于德州,然后马上注解了一句:“不是山东的德州啊,是美国的那个!”额……
  • 周六晚上大家一起聚餐,席间汤银才老师提到当年他和吴凌云的学术交流,Oh,那可是传说中的人物。汤老师还提到,他给统计系讲 R 的时候,会和大家说:“有问题就去 COS 上问,肯定有人回答!”啊&@&%
  • 回到住处,准备再补几张演讲材料,结果发现笔记本电力不足,遂向前台借插线板(notebook是欧货,需要欧标插头),被告知“对不起,没有!”于是乎,要补的材料,一概没加。第二天,大家发现演讲时间严重不足,还好没有插线板,不然……罪过!
  • 周日上午,林桢舜师兄做最后总结,说到:“我们一定要与时俱进……”,还不忘强调一下:“这是党说的!”我当时几乎翻了,因为林师兄是台湾人,博士期间来的大陆。不知道说的这个是不是我朝,OMG!
  • 傍晚同中南一行地铁内转车,路上一直在说上海地铁的自动门很恐怖,发生过很多次事故……在某一站换乘时,人太多,自动门发出警告时,刚好我是外面的最后一个,额!下意识退后一步,哈哈,隔着自动门和大家 goodbye !

拖到今天写随笔,还是有很多想法!不过大家已经先我一步,已经有 太云 那儿,菁菁 师妹那儿,还有遥远的 yihui 那儿。当然更加期待 COS 的官方纪要:)

1、演讲的感想


12月5日:

1、堰平师弟非常辛苦,记得刚刚得知 yihui 师弟远赴美国后,我就在想,第二届会议 谁来组织?当时脑子里的第一印象就是堰平师弟,后来 yihui 临走前,大家去 K 歌,我还特意问了一下 yihui,果不其然……

2、高涛、李程从统计图形角度对 R 软件进行了介绍,虽然我平日用的图形也很多,但这么系统详细的总结一定没少花心血。当时第一印象是台下的 SPSS China 和 SAS China 的兄弟姐妹听了是什么感受……(罪过罪过)

3、菁菁师妹第一次认识是在 cos 上有一篇关于 RExcel 的用法的文章。师妹像极了我我大学时的同学,刚到会场时险些脱口而出。更令我惊讶的师妹的涉猎,江山辈出人才,巾帼不让须眉!

4、钟其顶大哥以前就认识,记得第一次谋面谈的是 PLS,没想到的是 machine learing 的算法在食品行业居然有这么多的应用,佩服佩服!

5、肖楠关于《R 环境安全特征初探和前瞻》给了大家一个全新的认识 R 的视角,记得会前我还特意询问了一下,结果听了一遍还是没懂。直到演讲一半时我才终于恍然大悟,是啊!R 的这个特性如果被人利用,损失可就大了!

6、石油大学宫雨教授:通读 40 万行 R 代码的绝世牛人,从 IT 应用角度重新诠释 R 的优劣势。太牛了,没啥说的……

7、刘永生老师使用 R 的时间也非常超前,2001(2003)已经开始在中国地质环境检测院使用 R,又一个孤独的世外高人。

8、奚谭去年就见到一次,非常严谨的一个帅哥。讲的灰色系统理论,以前没怎么听过,有时间序列的感觉。太云那提了一句“统计界貌似关注很少”,自己有些孤陋寡闻了……

9、祝迎春的本子里居然装的是正版 SPSS,晚间调侃“他笔记本里单软件就得100w+,大家赶紧打劫去,啊哈哈”。

10、孙晓燕一行特地从北大深圳研究生院过来,虽然我不懂心理学,虽然没听太懂,但实在感动……


12月6日:

1、左辰应该是第三次见面了,印象最深的是他以前的一篇关于降维的博文,才俊

2、太云的矩阵可视化又一次让我吃了一惊,关系的学科和技术太多了。相关矩阵都描述不了,我这文字就更不用提了,大家移步至优秀是一种习惯,或者直接参考 corrplot 包。

3、陈丽云,山东大学的超级才女,和太云一样,看看博客啥都知道了。

4、孙蝶,大P小N——开始还真没猜到是啥,听报告发现原来是变量大于样本数据的处理,又一次见到 lasso,额……

5、王化儒博士在空间分析上的 R 应用也非常精彩,举止儒雅,尤其是从北师过来的,倍感亲切!

6、QSAR 是啥可能这辈子我都不会搞清楚了,但依稀记得演讲者马斌好像是手抄4000+数据的那个牛人,哈哈

7、丁鹏演讲时说的“估计我很难把 Winbugs 讲清楚”,呵呵,青年学者中一杆 Bayes 大旗!

8、黄志一的 WebR-R 给在座的科研人员打了一剂兴奋剂,要知道“云计算”可是现在主流

2、辛苦的会务组


陈主席、范师弟、邱师弟(可爱的人)、关师妹,两位学弟,以及后来知道的中南一行,当然还有远在美国的 yihui 。

3、遗憾


 

得知吴喜之老师远赴伯克利,思绪万千。想起老师带我们学 R 的那一年,想起第一次看到 LaTeX 黑压压地编译,想起……

yanlinlin 的演讲只能明年听得了,期待

如果不是6日晚上还有事,肯定去火车站陪张翔去了

深圳福彩3000万巨奖诈骗案发生后,好多朋友开始质疑中国福利彩票的公正性,并向我询问福利彩票是不是真的如传闻那样–福利彩票自产自销?。由于身在中福彩的原因,很多支持福彩公正的内情不太合适发布在网上,但–数据一汇总,上帝也会发笑。这篇博文从一等奖中奖概率分布的角度给各位童鞋聊聊福彩的公正性。

现在每一期的福彩双色球销售额大概是2亿左右(已持续很长时间),每注双色球为2元,就是说每期双色球的销售大概会有1亿人次参与。

在随机选择,且每次抽取都是等概率的的假定条件下,理论的重复彩票注数的分布(0注至41注)如下:


一等奖是完全随机出现的,那么在假设条件下,一等奖同时出现五注的概率最高,六注、四注其次,再次为七注、三注,类推……当然理论上,没有中奖(0注)和中12注以上的概率相比其他情形低了很多。

那么我们再看一看福利彩票双色球每期中一等奖(2008年1月1日至2009年7月23日)的实际分布情况:

thunderball2.png


有童鞋看出端倪了:实际数据的分布同理论上的分布是不一致的!理论上的一等奖出现概率最大在出现五注的位置,而实际上一等奖出现的最大概率出现在了两注的位置。

为什么会出现这样的情况?主要是因为我们最开始的假设是有问题。

双色球每期销售会有1亿人次的彩民参与?不可能!双色球的覆盖度没有那么大。

一些彩民为了提高中奖概率(或者说迷信一些选号方法),会采用”复式”、”胆拖”、”倍投”等方式投注,当然大部分彩民还是会老老实实的买一注。综合考虑到这些因素以后,凭经验估计样本量应该为现在的一半左右,即5000万。这样看来较为合理的一等奖中奖概率理论上分布为:

此时理论分布同实际分布已经非常相似。

实际双色球一等奖分布的右边尾巴上恰恰显示了”复式”、”胆拖”、”倍投”的投注效果。

再插一句:

深圳福彩3000万大奖诈骗犯身份曝光一文中提到:

警方调查发现,程某先是编写了一个可以自动运行的木马软件,然后利用与福彩中心合作的机会,进入福彩中心机房,植入自动运行的木马程序。一旦摇奖结果出来,这个程序会自动将程某所购买的彩票修改成一等奖的号码。

这里可以推测程某天真地以为满足兑大奖的条件为:

  1. 数据库里的数据正确;
  2. 实体彩票存在。

恩,没有问题!但,这两个条件可是通过很多很多很多的手段来监管的。

以前用过几个国内的数据分析(挖掘)软件,每次溜达到商家主页,基本介绍都是诸如“某某公司依托××大学……;××指定专用数据分析软件"。这时候我就会想,这些商家怎么不仔细瞅瞅 R 官网的 Members&Donor,看看那几十所 Supporting Institutions ,或者20位 R 的核心团队成员的资料。不过回头一想,这些数据分析软件商家不这么说的话,又能说点啥。

R News 正式更名为 R Journal 后的第一篇文章是 Facets of R,作者 John M. Chambers 可不是一般人物,虽然在 R 的官网上只能看到他是 R 核心团队之一,但仔细查一查就会发现–他可是 R 的老祖宗^_^

John M. Chambers 自 1966 年供职于贝尔实验室,在 1981-83 年间 head of the Advanced Software Department , and from 1983-88, head of the Data Analysis and Statistics Research Department,J.M. Chambers 在1998 年因为 S 语言(R 语言的前身)获得 ACM(Association for Computing Machinery) 系统奖。这个奖项每年评选一次,一般由 IBM 提供10,000$ 的奖金(wiki 上给的似乎有错误)。

这个奖项有着广泛而深远的影响,下面列举了一些我们熟悉的项目:

  • 1983 Unix
  • 1986 TeX
  • 1989 PostScript
  • 1991 TCP/IP
  • 1995 World-Wid-Web
  • 1997 Tcl/Tk
  • 1998 S
  • 1999 The Apache Group
  • 2002 Java

基本都不用介绍吧,几乎每天我的工作、生活、学习都会涉及到这些软件系统。

最后引用 ACM Software System Award 对 John.M.Chambers 以及 S 语言的评价: The ACM's citation notes that Dr. Chambers' work "will forever alter the way people analyze, visualize, and manipulate data . . . S is an elegant, widely accepted, and enduring software system, with conceptual integrity, thanks to the insight, taste, and effort of John Chambers."

.PS. 主要参考了 John.M.Chambers 的wiki 词条及其链接;yihui 的R语言的 历史背景、发展历程及现状

代码如下:

plot(1,xlim=c(0,2*pi),ylim=c(-2,2),type='n',axes = F,ann=F)
x=seq(0,2*pi,.01)
lines(x,0.6*sin(x),lwd=2)
lines(x,0.6*sin(x-pi),lty=2,col='red')
segments(0,0,.5,1.5,lwd=2)
segments(2*pi,0,2*pi-.5,1.5,lwd=2)
points(pi/2,0,pch = 21, cex = 12)
points(3*pi/2,0,pch = 21, cex = 12 ,bg = "black")
segments(pi,0,pi,-1, lwd = 2)
points(pi-0.2,-1,pch = 21, cex = 4)
points(pi+0.2,-1,pch = 21, cex = 4)
 
m <- seq(pi-1,pi+1,length = 100)
f1 <- function(x) -1-dnorm(x,mean = pi)
y1 <- f1(m)
f2 <- function(x)0.5*(x-pi)^2
tmp <- f2(m)
y2 <- f2(m) - (tmp[1]-y1[1])
 
polygon(c(m,m),c(y1,y2),col = "maroon1" ,border = NA)

纯属娱乐,看到绘图以后不要胡思乱想 ……

© 2010 刘思喆 @ 贝吉塔行星 Suffusion WordPress theme by Sayontan Sinha