大自然的力量永远让人敬畏,地震、海啸、陨石、雷击……因为我们在大自然的面前如此渺小,所以我们必须协作,必须发展科技,必须懂统计 :)

说到地震,我可能比较敏感,因为我是唐山人。虽然 76 年唐山大地震时,我还没有形成碳水化合物形态,但后来,每每听到老一辈讲起当时的惨烈,心常戚戚。

讲几则作为唐山人的小故事:

  1. 小时候对地震的初相识:有一次刚刚从床上爬起来,正在懒洋洋的坐着穿衣服,就发觉床开始做规则的前后晃动。当时年龄小,很无知,只知道傻乎乎地沉浸在如秋千般的跳动中,那叫个带劲……
  2. 有一次上课,感觉课桌在晃动,没法看书,于是停下来查看周围哪个同学在晃。检查一圈发现周围几个同学没有一个再晃!结果,紧张地直接拍案而起,大呼——地震啦(事后新闻证明是真的)!在我们那儿,这点比较好:即使是课上误判地震的这种事儿,一般老师都是笑笑而过 ;)
  3. 每年我们那都会有地震的谣言,而且说的神乎其神,俺老爸一般会守夜(感谢俺老爸!)。或者天气好的话,干脆去广场之类空旷的地方,找地方打地铺。当然一般都是打牌、聊天到 24 点,然后回家睡觉。

恩,不多扯了,言归正传。自从汶川大地震以后,国人对地震明显敏感很多。且不说海地,单单前两天(24日)山西河津、运城地震就让然琢磨不懂:有人说,21日山西省地震局辟谣称不会有地震,但运城震感明显。为什么地震局会出来辟谣,仔细一读,原来才知——地震局指的是“破坏性”地震。

但有个问题:

国务院1995年颁布的《破坏性地震应急条例》,破坏性地震指“造成一定数量的人员伤亡和经济损失的地震事件”,
并没有规定特定的级数。

这破坏级地震可不是闹着玩的,得仔细瞧瞧最近这地震都发生在哪里了,震级多大?是不是会对我们构成威胁!?于是有了下面这张图——最近一周中国及周边版图地震情况(1月20日至1月25日共计六天):

数据童鞋们可以在这里查看,里面的震级需要注意一下,有Ms和ML两种,换算关系如下。但具体什么意思大家直接 wiki 好了。

ml=(1.17mb+0.67)/1.13
ml=(ms+1.08)/1.13

一些说明(不是写商业报告,偷工减料啦):

蓝色的背景是地震点的密度——也许是喜马拉雅造山运动,也许是三峡工程,不管怎样,四川地区不太平啊!弟兄们小心!

红色的点代表地震的位置,其大小表示震级的大小。

从1月20日至1月25日,版图周边共计有901条地震记录(有点吓人)!其中大于ML5级的一共两次:

2010-01-24  10:36:13.8       35.45   110.70       15 Ms4.8  天然地震        山西河津
2010-01-21  10:02:02.8       13.70   125.85       33 Ms5.1  天然地震  菲律宾群岛地区

最后我们再回头看一下,最近一周地震的震级(ML)分布:

至少可以长舒一口气,原来大部分都是小震,不具“破坏性”的居多。

有点标题党的嫌疑,实际是介绍如何使用 R 绘制 heatmap 的文章。

今天无意间在Flowingdata看到一篇关于如何使用 R 来做 heatmap 的文章(请移步到这里)。虽然 heatmap 只是 R 中一个很普通的图形函数,但这个例子使用了2008-2009赛季 NBA 50个顶级球员数据做了一个极佳的演示,效果非常不错。对 R 大致了解的童鞋可以直接在 R console 上敲

?heatmap

直接查看帮助即可。

没有接触过 R 的童鞋继续围观,下面会仔细介绍如何使用 R 实现 NBA 50位顶级球员指标表现热图:

关于 heatmap,中文一般翻译为“热图”,其统计意义wiki上解释的很清楚:

A heat map is a graphical representation of data where the values taken by a variable in a two-dimensional map are represented as colors.Heat maps originated in 2D displays of the values in a data matrix. Larger values were represented by small dark gray or black squares (pixels) and smaller values by lighter squares.

下面这个图即是Flowingdata用一些 R 函数对2008-2009 赛季NBA 50名顶级球员指标做的一个热图(点击参看大图):

先解释一下数据:

这里共列举了50位球员,估计爱好篮球的童鞋对上图右边的每个名字都会耳熟能详。这些球员每个人会有19个指标,包括打了几场球(G)、上场几分钟(MIN)、得分(PTS)……这样就行成了一个50行×19列的矩阵。但问题是,数据有些多,需要使用一种比较好的办法来展示,So it comes, heatmap!

简单的说明:

比如从上面的热图上观察得分前3名(Wade、James、Bryant)PTS、FGM、FGA比较高,但Bryant的FTM、FTA和前两者就差一些;Wade在这三人中STL是佼佼者;而James的DRB和TRB又比其他两人好一些……

姚明的3PP(3 Points Percentage)这条数据很有意思,非常出色!仔细查了一下这个数值,居然是100%。仔细回想一下,似乎那个赛季姚明好像投过一个3分,并且中了,然后再也没有3p。这样本可真够小的!

最后是如何做这个热图(做了些许修改):

Step 0. Download R

R 官网:http://www.r-project.org,它是免费的。官网上面提供了Windows,Mac,Linux版本(或源代码)的R程序。

Step 1. Load the data

R 可以支持网络路径,使用读取csv文件的函数read.csv。

读取数据就这么简单:

read.csv("http://datasets.flowingdata.com/ppg2008.csv", sep=",")

Step 2. Sort data

按照球员得分,将球员从小到大排序:

nba <- nba[order(nba$PTS),]

当然也可以选择MIN,BLK,STL之类指标

Step 3. Prepare data

把行号换成行名(球员名称):

row.names(nba) <- nba$Name

去掉第一列行号:

nba <- nba[,2:20] # or nba <- nba[,-1]

Step 4. Prepare data, again

把 data frame 转化为我们需要的矩阵格式:

nba_matrix <- data.matrix(nba)

Step 5. Make a heatmap

# R 的默认还会在图的左边和上边绘制 dendrogram,使用Rowv=NA, Colv=NA去掉

heatmap(nba_matrix, Rowv=NA, Colv=NA, col=cm.colors(256), revC=FALSE, scale='column')

这样就得到了上面的那张热图。

Step 6. Color selection

或者想把热图中的颜色换一下:

heatmap(nba_matrix, Rowv=NA, Colv=NA, col=heat.colors(256), revC=FALSE, scale="column", margins=c(5,10))

延伸阅读:

来自于kerimcan和krees这些人的讨论:

http://sekhon.polisci.berkeley.edu/stats/html/heatmap.html
http://enotacoes.wordpress.com/2007/11/16/easy-guide-to-drawing-heat-maps-to-pdf-with-r-with-color-key/

补充:

早上起来发现 David Smith 同样更新了博客。唉,这厮嗅觉也忒灵敏!哈哈

本场比赛前7分钟火箭发挥还不错,最高取得了10分的领先(11-21),但受上一场力拼森林狼三个加时影响,火箭诸将体能逐渐不支,慢慢失去优势。虽然巴丁格整场替补发挥出色,无奈,随着阿里扎上篮不进,比分定格在了115-106。

相比热火发烫的53.6%投篮命中率,火箭发挥比较正常,48.7%。火箭唯一问题出现在了失误方面,8-15,如果火箭失误控制的好,也许结果可能是另外一个结果。

比赛过程中,杨毅提到(大致意思):由于没有超级球星,火箭必须比其他球队付出更多的努力才能获得胜利,也就是说其他球队会从容地为季后赛调整状态。火箭没有这个资本,为了常规赛的成绩,火箭进入疲劳期的时间要更早。要保证后面的球队成绩,要么莫雷尽最大能力交易,补充火箭;要么阿德尔曼通过更加合理细致的轮转,让每个核心球员得到充分休息。

问题来了:在不改变现有火箭球员结构的前提下,火箭的战术轮转体系中,球员的位置如何?

引子:

本场比赛火箭一共20个助攻,Brooks 和 Battier 分别助攻了最高的5个和4个。每次助攻都会涉及两位球员,那么本场比赛所有助攻结果综合在一起,即我们将助攻者和被助攻者之间的关系使用社会网络关系表现出来,会有一些有趣的现象:

注释:

箭头方向是助攻方向,比如最下面的是 Shane Battier 给 Chuck Hayes 的助攻。

整理几个重要的关键点来评论一下:

  1. Brooks 无疑是比赛的发起者,我们发现他的助攻几乎包括了中锋、前锋位置的所有人(但不包括阿里扎,好像我记得有个镜头阿里扎要球,Brooks 没有理会)。
  2. Battier 既是助攻的受益者,又是助攻的发起者。个人一直比较喜欢的球员,篮球智商非常高。
  3. Budinger 这场比赛发挥出色,同队友给予其的帮助分不开。我们看到很多个球员对其都有直接帮助。
  4. Andersen 从助攻网络关系角度看,属于一个策应型中锋,而且是由里向外策应的那类。从比赛中观察,似乎球风有些偏软(本赛季我第一次看直播比赛 ^_^)
  5. Ariza 接受的助攻并不多,只有 Battier 的一次,其他都是给别人的助攻,和 Brooks 一样,属于个人能力比较强,擅于自己创造得分机会的球员。

假如:

我是教练组成员,我提议(单从本场比赛结果看):

  1. Brooks、Battier、Ariza、Andersen 在火箭进攻体系中位置比较重要,轮转的时候尽量保证其中的两人或三人同时在场。
  2. Budinger 属于绝好的替补球员,但似乎不适合同 Battier、Hayes 同时在场。
  3. Lowry 在组织进攻方面能力欠佳,使用上须谨慎。

更新分割:


40场比赛助攻数据同时考虑,结果有些凌乱:

注:这个赛季火箭队有一些球员实际上并没有真正的进入轮转,比如”Tracy McGrady”,”Mike Harris”,”Jermaine Taylor”,”Pops Mensah-Bonsu”,”Brian Cook”。虽然有些球员(比如麦蒂)的确对球队的(被)助攻仍有帮助,但贡献非常有限。出于结果整洁性的考虑,上图已将这些球员因素剔除。

由于绘图算法使用的是 Force-based_algorithms,也就是说这种算法做出的图,边(edges)会尽可能的少。解释为,对球员关系的影响就是:

同其他球员关系比较多的球员将绘制的比较靠近中心,而关系较少的球员会绘制在相对靠外的位置。

重新观察火箭队助攻网络图,发现:

1月16日对热火比赛中,Kyle Lowry 和 Trevor Ariza 发挥的确出了问题,尤其是 Lowry 这点上。

如果我们求解这个网络中各个球员的 page rank 值,可以认为是每个球员同其他球员助攻的关键程度。

Name PageRank
1 Aaron Brooks 0.1690
2 Trevor Ariza 0.1496
5 Luis Scola 0.1334
3 Kyle Lowry 0.1268
7 Shane Battier 0.1099
8 Carl Landry 0.0966
9 Chase Budinger 0.0741
4 Chuck Hayes 0.0724
6 David Andersen 0.0681

Brooks、Ariza、Scola、Lowry、Battier 在助攻重要性角度上,占据球队的前五位。如何使用“田忌赛马”的策略制胜,则是教练组的问题。

让我欣慰的是 Hayes 的重要程度要比 Andersen 要好,单单从上一场比赛上看,Andersen 发挥的有些超常。

P.S. 维基百科上没有区别 “有向网络”和“无向网络”的 page rank ,上个表中的 page rank 值属于“无向网络”值,同上面的图略有区别(有向网络中,Lowry 的关键性仅比 Hayes 高,有些无奈)。

很早以前就听人说过,北有北师,南有华师,不过因为专业和地理原因,一直以为自己不会和华师有什么关系。这次承蒙张翔和焦静的辛苦组织,华师的资环和金统学院联合主办中国 R 语言会议(上海)。在华师不但让我见识了 LaTeX 、R 界的前辈——汤银才教授,还结识了一大批业界精英、青年学者,倍感荣幸。

华师的大门和我想象的差不多,里面古朴的建筑风格也别具一格。

无奈天公不作美,上海这几日阴雨霏霏,没有好好的在华师内仔细转转。

最后是主题,趣闻几则:

  • 中心国际的林光启博士,演讲时提到自己生长于德州,然后马上注解了一句:“不是山东的德州啊,是美国的那个!”额……
  • 周六晚上大家一起聚餐,席间汤银才老师提到当年他和吴凌云的学术交流,Oh,那可是传说中的人物。汤老师还提到,他给统计系讲 R 的时候,会和大家说:“有问题就去 COS 上问,肯定有人回答!”啊&@&%
  • 回到住处,准备再补几张演讲材料,结果发现笔记本电力不足,遂向前台借插线板(notebook是欧货,需要欧标插头),被告知“对不起,没有!”于是乎,要补的材料,一概没加。第二天,大家发现演讲时间严重不足,还好没有插线板,不然……罪过!
  • 周日上午,林桢舜师兄做最后总结,说到:“我们一定要与时俱进……”,还不忘强调一下:“这是党说的!”我当时几乎翻了,因为林师兄是台湾人,博士期间来的大陆。不知道说的这个是不是我朝,OMG!
  • 傍晚同中南一行地铁内转车,路上一直在说上海地铁的自动门很恐怖,发生过很多次事故……在某一站换乘时,人太多,自动门发出警告时,刚好我是外面的最后一个,额!下意识退后一步,哈哈,隔着自动门和大家 goodbye !

拖到今天写随笔,还是有很多想法!不过大家已经先我一步,已经有 太云 那儿,菁菁 师妹那儿,还有遥远的 yihui 那儿。当然更加期待 COS 的官方纪要:)

1、演讲的感想


12月5日:

1、堰平师弟非常辛苦,记得刚刚得知 yihui 师弟远赴美国后,我就在想,第二届会议 谁来组织?当时脑子里的第一印象就是堰平师弟,后来 yihui 临走前,大家去 K 歌,我还特意问了一下 yihui,果不其然……

2、高涛、李程从统计图形角度对 R 软件进行了介绍,虽然我平日用的图形也很多,但这么系统详细的总结一定没少花心血。当时第一印象是台下的 SPSS China 和 SAS China 的兄弟姐妹听了是什么感受……(罪过罪过)

3、菁菁师妹第一次认识是在 cos 上有一篇关于 RExcel 的用法的文章。师妹像极了我我大学时的同学,刚到会场时险些脱口而出。更令我惊讶的师妹的涉猎,江山辈出人才,巾帼不让须眉!

4、钟其顶大哥以前就认识,记得第一次谋面谈的是 PLS,没想到的是 machine learing 的算法在食品行业居然有这么多的应用,佩服佩服!

5、肖楠关于《R 环境安全特征初探和前瞻》给了大家一个全新的认识 R 的视角,记得会前我还特意询问了一下,结果听了一遍还是没懂。直到演讲一半时我才终于恍然大悟,是啊!R 的这个特性如果被人利用,损失可就大了!

6、石油大学宫雨教授:通读 40 万行 R 代码的绝世牛人,从 IT 应用角度重新诠释 R 的优劣势。太牛了,没啥说的……

7、刘永生老师使用 R 的时间也非常超前,2001(2003)已经开始在中国地质环境检测院使用 R,又一个孤独的世外高人。

8、奚谭去年就见到一次,非常严谨的一个帅哥。讲的灰色系统理论,以前没怎么听过,有时间序列的感觉。太云那提了一句“统计界貌似关注很少”,自己有些孤陋寡闻了……

9、祝迎春的本子里居然装的是正版 SPSS,晚间调侃“他笔记本里单软件就得100w+,大家赶紧打劫去,啊哈哈”。

10、孙晓燕一行特地从北大深圳研究生院过来,虽然我不懂心理学,虽然没听太懂,但实在感动……


12月6日:

1、左辰应该是第三次见面了,印象最深的是他以前的一篇关于降维的博文,才俊

2、太云的矩阵可视化又一次让我吃了一惊,关系的学科和技术太多了。相关矩阵都描述不了,我这文字就更不用提了,大家移步至优秀是一种习惯,或者直接参考 corrplot 包。

3、陈丽云,山东大学的超级才女,和太云一样,看看博客啥都知道了。

4、孙蝶,大P小N——开始还真没猜到是啥,听报告发现原来是变量大于样本数据的处理,又一次见到 lasso,额……

5、王化儒博士在空间分析上的 R 应用也非常精彩,举止儒雅,尤其是从北师过来的,倍感亲切!

6、QSAR 是啥可能这辈子我都不会搞清楚了,但依稀记得演讲者马斌好像是手抄4000+数据的那个牛人,哈哈

7、丁鹏演讲时说的“估计我很难把 Winbugs 讲清楚”,呵呵,青年学者中一杆 Bayes 大旗!

8、黄志一的 WebR-R 给在座的科研人员打了一剂兴奋剂,要知道“云计算”可是现在主流

2、辛苦的会务组


陈主席、范师弟、邱师弟(可爱的人)、关师妹,两位学弟,以及后来知道的中南一行,当然还有远在美国的 yihui 。

3、遗憾


 

得知吴喜之老师远赴伯克利,思绪万千。想起老师带我们学 R 的那一年,想起第一次看到 LaTeX 黑压压地编译,想起……

yanlinlin 的演讲只能明年听得了,期待

如果不是6日晚上还有事,肯定去火车站陪张翔去了

 

最近忙着准备 第二届中国 R 语言会议 的报告,其中一篇是关于《R 在大规模数据整理及自动化报告方面的应用》,演讲里说到了 LaTeX,于是乎,顺手翻了翻以前的文档。结果非常惊讶地发现 汤银才 老师04年的时候已经翻译了 pdfscreen,PPower4 的相关文档。这次汤老师在 第二届中国 R 语言会议(上海)会有一篇《R与Winbugs》的演讲,非常期待。预祝 第二届 R 语言会议成功举办!

R 语言会议报告的摘要附下,稍后几天更新 slides 和演示代码。

内容摘要:
    近年来高速发展的计算机技术极大地丰富了数据收集的方式与存储的总量。尤其是商业数据库优良的性能,为数据分析带来了极大的便利性。与此同时,数据规模和数据环境复杂性仍是我们需要面对的巨大挑战。
    作为当前数据分析领域最为活跃的 R 语言,不但提供了广泛的数据分析方法,而且为我们带来了灵活的扩展、便捷的编程,无疑是数据分析领域最优秀的环境。本文选取了一个侧面,主要介绍了 R 利用 Oracle 数据库进行大规模数据整理,以及利用 latex 环境和 Sweave 技术实现自动化报告的若干技术和应用。