在2008年,第一届中国R语言会议上,来自于艾瑞咨询的张翔为大家展示了一组极具震撼力的泡泡图,而这段视频便是Hans Rosling 在2006年 TED 上的演讲,讲述的是1956年-2006年之间各国间的经济发展变化。虽然个人认为泡泡图的实现的技术并没有太多技术含量,但惊讶于Hans Rosling大智若愚的演讲能力,甚至再看完五六遍之后,仍然还会被其感染。

再后来, Hans Rosling将这款数据展示产品卖给了Google,而Google又将其整合到Visualisation API 里,于是我们可以调用Google的API来使用这些有趣的图形展示功能。

更令人鼓舞的是:前不久,Markus Gesmann, Castillo两位老大,写了googleVis这个R扩展包,将Hans Rosling的泡泡图同R语言完美的整合在了一起:)

下面就是在R语言里,通过googleVis包,对我国2006年至今的货币供应量(M0、M1、M2)Motion Chart(将横坐标设置为time以后,点击Play)

碎碎念:从泡泡的跳动上看,央行投放的货币供应量(亿元)在2009-2011年间,增加的最为剧烈,当然这个时间段也是房价近十年间增长最为迅速的两年。而现在呢,房市开始限购,国内房地产市场已经撑不住超发的货币,因此广泛的通货膨胀开始蔓延。引用郎咸平的几段话:

我们近几年发了76.5万亿的货币,是GDP的2.5倍,而美国的货币量除上GDP只是0.6,只有我们的四分之一

唯一的解释只能是货币的购买力在下降,这就是经济学里的通货膨胀

最后,关于googleVis包的使用请移步至这里

 

今天在郑来秩那儿看到了一张Excel2007的绘图,用来对比实际完成情况和目标的差异,不多解释,原文请移步至这里

数据是这样的

季度 目标 实际 中间值 差异
第一季度 320 260 290 -60
第二季度 300 280 290 -20
第三季度 350 390 370 40
第四季度 300 380 340 80

最后的图形是这样的:

Excel2007不是很熟,不评论。对比R实现的结果及方式:

代码共11行,细节见这里

 

 

又是一个R不务正业的例子。

三天前,itux 在统计之都论坛上问到了如何做 Matrix67 博客上的平滑马赛克图,我是好事之徒,颠颠地跑去瞧了一眼。恩,蛮有意思的,而且非常黄,非常暴力!但比较悲剧的是我不会用Mathematica,只好用R实现了一下。

本来想标题改的彪悍一些——《一千二百个女人和我的故事》,想想还是算了吧,虽说是用了1200个漂亮女人组成了我的头像,但她们我一个也不认识,哈哈。

用的原图我就不贴了,实际上我是戴着眼镜的,马赛克平滑以后,不明显了。

最后是代码。非常简单,不到20行。大概所需要的时间:构思写代码1个小时,下载和整理图片时间长点,3个多小时(当然你本地资源和Matrix67一样丰富的话另说,哈)。

 

 

话说到,前段时间给某省移动公司做无线音乐交叉推荐项目,做的事不亦乐乎。且不说涉及的数据挖掘的算法,单说歌曲这玩意儿有关的一些有趣的话题,就挺让人兴奋,比如:

  • 什么歌曲好听?能不能按照既定规则作曲,就能得到好歌?
  • 歌曲有风格的,且风格是有限的。这个风格如何定义?
  • 歌曲是对应歌手的,一个歌手的所有歌曲是不是对于单个听众来说都是好的?
  • 歌手的风格有类似,那些比较相近?

这么多问题,假如有相关数据,其实都是可以通过数据挖掘的算法来给出答案的。最后一个歌手风格问题,假如能穷尽所有歌手之间的关系,没准能得到一些提示?于是乎,开始着手找数据,琢磨如何搞定这个事情。

问题有很多:

  • 歌手的范围如何界定?是中文、英文、日文、韩文、法文等一起考虑,还是一个语种一个语种的考虑?
  • 歌手列表如何获得?
  • 歌手间的关系如何获得?如何衡量歌手的关系?

网上搜了一下,发现百度可以给答案,它说:

  • 列表:http://list.mp3.baidu.com/top/top200.html
  • 关系:搜索两两歌手的网页数即可,即可代表二者的关系强弱(假设网页数多,即关系紧密)

于是乎,就这么办了(请新建标签页浏览图片):

百度top200歌手关系

很有意思的结果,有几点提示:

  1. 歌手后面的颜色点是歌手的分群(同群的风格相似?)
  2. 歌手间的线代表了两者间关系强弱
  3. 前200的歌手剔除掉了《信》和《黎明》二位(这俩哥们的搜索干扰太大了)

解释的话,我这儿就省了。仁者见仁,智者见智。反正这198位歌手,我还有几十个不认识,像什么格格、小雪、大嘴巴之类的,还有什么飞轮海啥的,我的偶像集中在上个世纪,呵呵。

http://www.bjt.name/2011/05/baidu-singers-relationships/

 

2011年3月11日日本福岛9.0级大地震以后,紧接着是海啸,跟着福岛核电厂接连发生爆炸。如果开始还可以说是电影《日本沉没》的剧情的话,那核电站爆炸的后果,可就有点像《生化危机》前奏的味道了。

民众对于核辐射污染的担心要远超过地震和海啸。就拿前几天国内发生的碘盐抢购事件来说,虽然主要原因是民众对政府的不信任(对比日本灾民的有序和平静),但很大的恐慌来自于人们对核辐射的危害的恐惧。

从各国对核武器的态度以及实际行动上看,核武器和核污染基本不沾边。一旦发生了核污染,那必定是和核能电站有密切关系。而这几年,我国政府既要保证高速经济增长所需要的电力能源,又要尽力控制二氧化碳排放,那大力发展核能便是上上之选了。本来这等国家大事和我等小民也没什么关系,不过上次回老家,偶然听说河北要建四座核电站,其中一座就在离我老家不足4公里的位置。枕头边上放一个随时爆炸的定时炸弹,这事不关心也不成了。随手翻了翻网上的资料,发现前期的选址和研究审批已然结束。(我等一厢情愿的认为,这种事情是应该公投的,至少要听证一下吧。从现在我周围人态度上看,肯定不可能通过。如果通过了,我们那儿将继重污染企业首钢搬迁后,又一次为伟大祖国首都——北京做的“巨大”贡献)。

核能是潘多拉盒子,这次日本的核泄漏给大陆敲响了警钟,有评论说,两会上刚刚获得通过的“十二五”规划中的核能规划后续也可能会有很大变动。和普通人一样,我也怕核辐射,更怕核辐射毁掉家园。核能电站的建设需要有极专业的考证和后续严谨的政府管理,如果我是日本人,我相信这两点。但不幸的是,我是中国(大陆)人,这两条我都不信任。一个最基本的常识上——核能电站不应该建设在地震带上。

最近花了一些时间,零零散散地收集了一些数据,附一些分析。还是那句话,我等小民虽说不能决定此等国家大事,但心里明白明白也是有必要的。

首先是世界范围,各国拥有核电站的数量:

可以看到,世界范围核电排名前四的国家分别是美国、法国、日本,俄罗斯联邦,我国排名第十,和发达国家确实有段距离;这排名前四的几个国家的核电基本都是在1970-1990时间段建设,而近十年发展速度明显降了下来。但反观中国大陆,大部分核能电站都是在2000-2010年期间修建,并且在规划中的核电站(反应堆)更多。

而从日本核电站事故上看,核能电站修建在地震多发地带是非常不明智的,即便是有多重的防护措施。我们关注一下,地震多发地带和核电站分布重合的程度。下图标记了1973年至2010年,世界范围内的1级(包含)以上地震分布(红色为实际的地震发生地点,蓝色为当年发生地震的密度),以及每年各国存量核电站(绿色点标记)的情况:

左下角的小图是1973年至今所有世界一级以上地震发生的高概率区域,从这个小图上看,日本、美国西海岸、南美洲西海岸是高发地震区域。最近发生在这三个区域的大型破坏地震有:智利2010年8.8级、日本2011年9.0级、美国加利福尼亚州2003年6.5级(不过加州的这次好像还不够,有报道说可能还会发生更大级别的地震)。

美国的大部分核电站都修建在东部地区,而在地震高发的西部地区,核能反应堆的数量明显很少,最大程度的降低了地震对核能电站的影响;而日本就比较郁闷了,整个国家都处在地震高发区上,核电站修的又很密集,出现3月11日的事件有其必然性。

那对于我国呢,不言自明:修在唐山这种时不时就震一下的地方是绝对不应该的,修的话向内陆靠一靠,离地震发生高概率区域远一些!

最后在扯一句,大地震似乎总和核爆有关系,包括中国汶川、日本福岛,随便搜一搜可以罗列关于很多核试验的传闻。也许渺小的人类看到的毁灭性的灾难都是一个样子吧。

附:数据

© 2012 刘思喆 @ 贝吉塔行星 Suffusion theme by Sayontan Sinha