最近一个月所有的业余时间基本上都是在准备会议材料,开会中度过的。且不说上周去杭州,被客户折磨了3天,居然临走也没有时间去西湖逛一逛,稀里糊涂的又从杭州赶回北京,参加大数据技术大会。

工作会议就暂且不提了,说说最近参加的两场学术性质的会议。

第一场是在11月12日-13日,上海召开的中国R语言会议,本次会议各种重量级嘉宾:数据挖掘领域鼻祖级人物——谢邦昌,中国最年轻的教授——周涛,来自于奥克兰大学VGAM包的作者THomas W. Yee,等等guru。本着R语言会议一场不能落的原则,于是乎贡献了一篇 Data Mining With RWeka,主要讲了一下关于R语言和Weka之间的算法调用,以及附带讲了一下分类算法的评估。不过很可惜,本来要和舰哥仔细聊聊的,结果时间没排开,只好再找机会了。

第二场是在北京11月26日,由CSDN召集的大数据技术大会,和大家分享了一下R语言主题的《R You Ready?》,没想到结束之后又多位同行对R语言很感兴趣。这次会议有些主题非常有意思,比如淘宝数据团队负责人-赵昆的汇报《淘宝海量数据技术》,演示了一张淘宝卖家卖家交易客户的地域可视化图,等有时间也实现一下。

明天是年终工作总结会,又是一天的会议~~

 

2011年3月11日日本福岛9.0级大地震以后,紧接着是海啸,跟着福岛核电厂接连发生爆炸。如果开始还可以说是电影《日本沉没》的剧情的话,那核电站爆炸的后果,可就有点像《生化危机》前奏的味道了。

民众对于核辐射污染的担心要远超过地震和海啸。就拿前几天国内发生的碘盐抢购事件来说,虽然主要原因是民众对政府的不信任(对比日本灾民的有序和平静),但很大的恐慌来自于人们对核辐射的危害的恐惧。

从各国对核武器的态度以及实际行动上看,核武器和核污染基本不沾边。一旦发生了核污染,那必定是和核能电站有密切关系。而这几年,我国政府既要保证高速经济增长所需要的电力能源,又要尽力控制二氧化碳排放,那大力发展核能便是上上之选了。本来这等国家大事和我等小民也没什么关系,不过上次回老家,偶然听说河北要建四座核电站,其中一座就在离我老家不足4公里的位置。枕头边上放一个随时爆炸的定时炸弹,这事不关心也不成了。随手翻了翻网上的资料,发现前期的选址和研究审批已然结束。(我等一厢情愿的认为,这种事情是应该公投的,至少要听证一下吧。从现在我周围人态度上看,肯定不可能通过。如果通过了,我们那儿将继重污染企业首钢搬迁后,又一次为伟大祖国首都——北京做的“巨大”贡献)。

核能是潘多拉盒子,这次日本的核泄漏给大陆敲响了警钟,有评论说,两会上刚刚获得通过的“十二五”规划中的核能规划后续也可能会有很大变动。和普通人一样,我也怕核辐射,更怕核辐射毁掉家园。核能电站的建设需要有极专业的考证和后续严谨的政府管理,如果我是日本人,我相信这两点。但不幸的是,我是中国(大陆)人,这两条我都不信任。一个最基本的常识上——核能电站不应该建设在地震带上。

最近花了一些时间,零零散散地收集了一些数据,附一些分析。还是那句话,我等小民虽说不能决定此等国家大事,但心里明白明白也是有必要的。

首先是世界范围,各国拥有核电站的数量:

可以看到,世界范围核电排名前四的国家分别是美国、法国、日本,俄罗斯联邦,我国排名第十,和发达国家确实有段距离;这排名前四的几个国家的核电基本都是在1970-1990时间段建设,而近十年发展速度明显降了下来。但反观中国大陆,大部分核能电站都是在2000-2010年期间修建,并且在规划中的核电站(反应堆)更多。

而从日本核电站事故上看,核能电站修建在地震多发地带是非常不明智的,即便是有多重的防护措施。我们关注一下,地震多发地带和核电站分布重合的程度。下图标记了1973年至2010年,世界范围内的1级(包含)以上地震分布(红色为实际的地震发生地点,蓝色为当年发生地震的密度),以及每年各国存量核电站(绿色点标记)的情况:

左下角的小图是1973年至今所有世界一级以上地震发生的高概率区域,从这个小图上看,日本、美国西海岸、南美洲西海岸是高发地震区域。最近发生在这三个区域的大型破坏地震有:智利2010年8.8级、日本2011年9.0级、美国加利福尼亚州2003年6.5级(不过加州的这次好像还不够,有报道说可能还会发生更大级别的地震)。

美国的大部分核电站都修建在东部地区,而在地震高发的西部地区,核能反应堆的数量明显很少,最大程度的降低了地震对核能电站的影响;而日本就比较郁闷了,整个国家都处在地震高发区上,核电站修的又很密集,出现3月11日的事件有其必然性。

那对于我国呢,不言自明:修在唐山这种时不时就震一下的地方是绝对不应该的,修的话向内陆靠一靠,离地震发生高概率区域远一些!

最后在扯一句,大地震似乎总和核爆有关系,包括中国汶川、日本福岛,随便搜一搜可以罗列关于很多核试验的传闻。也许渺小的人类看到的毁灭性的灾难都是一个样子吧。

附:数据

 

集智俱乐部是我最近两年来比较关注的俱乐部,尤其集智在三号会所的线下活动,一帮来自五湖四海、背景迥异的年轻人,因为一个共同感兴趣的主题,各抒己见(头脑风暴),过程非常奇妙。至今依然清晰的记得第一次参加集智活动时,大家对超自然(超能力)现象的热烈讨论。说实话,当时刚听完报告,还以为进入一个邪教组织了,呵呵~~

2010年12月9日,集智俱乐部的 计算士 和 Jake 发布了头脑风暴论坛数据分析报告(全文)。报告很有趣,其中讲到了 Zipf 定律和以社会网络分析为主的网络骨架图。Jake 同时将头脑风暴论坛的数据发布,数据为XML格式文件。而我,恰恰对头脑风暴论坛的兴趣也是非常浓厚,所以这边本地将这些数据处理了一下(大家可参考这里),并作了一些简单分析同大家分享。

首先是头脑风暴论坛中最为关键的几个actors:

这里考虑了两个因素,网络的 Eigenvector Centrality 和 Betweenness Centrality(即vertex和edge信息),从上图看:jake 的地位最高,且Eigenvector和Betweenness相差较小;紧随其后的是东方隐,当然这个紧随其后是指相对概念。

由于 jake 的地位(重要到有点儿离群点的意思了),其他会员的状态不是很明显,所以考虑将 jake 这点去掉:

这样处理以后,除 jake 和 东方隐 以外的用户状态浮出。如果主观上增加“第二梯队”的概念(除去jake和东方隐两人,个人对头脑风暴论坛不是很熟悉,权且这么划分。当然也可以做个聚类啥的,不折腾了),那么属于这一梯队的ID包括:zcard2000、ruiaijun、黄淼鑫、计算士、Michael0607、天狮星11、飞鸟、yywwkk等。

问题来了,论坛上这些比较重要的actors是如何组织在一起(相互作用)的呢?

上图为重要节点的网络图,不难看出:jake 在头脑风暴论坛的地位是无可替代的,牢牢地占据论坛关系中最核心的位置(估计这种结构在COS论坛也同样存在,其中的核心不用我多言,哈~~)

还有就是东方隐这个节点也非常有意思,需要关注。但详细的说明,这里就省略了,毕竟对头脑风暴论坛不像统计之都那么熟悉,硬搬着去解释,难免贻笑大方。简单陈述一下绘制关系图的原则:

  • 同计算士绘制的骨架图一样,这里也同样将一些不太重要的节点做了删除处理(subgraph),只留下了重要节点的骨架;
  • 骨架中的节点也并不是每一个都做了展示,而是通过 Eigenvector 和 Betweenness 的对比,将差异比较明显的节点做(名称)展示。而表示为红色的节点大小即为二者差异的大小。

写在最后:

  1. 这篇文章实际上写的非常仓促,有很多细节考虑不是很完备,并且从数据上看,能够展现的也不止上面的一些信息(比如发帖时间的分析、还有一些条件密度类的内容,等等)。但与其无限期放在草稿箱里,不如直接放出来。因此这篇文章可能会有比较大的改动(主要是绘图部分),但什么时候,就不得而知了;
  2. 如果有集智俱乐部的童鞋看到这篇文章的话,多多指正,并——欢迎加入统计之都
  3. 关于集智俱乐部:说太多了可能太主观,还是参考其官网的简介:

附:

2003 年,集智俱乐部创始人张江(Jake)创办了集智俱乐部网站,该网站一直致力于宣传、普及、推广复杂系统科学,并展开广泛的跨学科交流,俱乐部渐渐聚集了一批有识之士。 5 年后的 2008 ,集智俱乐部的交流和活动开始从虚拟世界走向现实,并尝试发展一个现实世界中的学术组织。目前集智俱乐部的日常管理工作由集智核心成员负责, 主要活动有开放式的讲座与交流,以及其它主题小组活动。……

 

声明1:估计这篇博文的受众会很少很少……

声明2:请将下载的漫画于24小时内删除,balabala……

话说到,为了保护我已经不太好的视力,前几天购置了一台Kindle DX,用来阅读电脑上大量存在电脑中的的pdf格式电子书。这个东东确实比较强悍,除了对这些pdf文字书籍支持比较不错外(当然有些书籍需要进行一些处理),对pdf格式的漫画支持更赞。

而我是一个彻底的漫粉,闲暇之余,从网上下载jpg格式的漫画(推荐下载工具ComicAiII),悠然自得看漫画,实在惬意的很~~

不过,有些下载的漫画有些问题,比如下面的这种的:

如果直接合并为pdf在Kindle DX上阅读,纵向显示的话,上下各有很大一块白边,画面非常小;

如果横向显示,效果更差,底部有一部分不能显示。想看完两页漫画的话,需要向上下翻页反复操作:

琢磨来琢磨去,还是得手动把漫画裁剪为适合Kindle阅读的大小(Kindle DX的标准9英寸屏显示区域和32开纸大小接近),并且把裁剪后的漫画顺序调换(日本漫画的阅读习惯是从左向右)。

说白了需要对每页jpg漫画做两件事:

  • 从中间分割,将一张jpg图片变为两张;
  • 为左右两张子图的增加顺序标记。

如果将分割的两张图片,右边图增加_0,左边图增加_1,即可满足要求。拿上面的086.jpg举例:170页(即右边部分)会被命名为086_0.jpg,171页会被命名为086_1.jpg,由于有了0、1标记,这样所有更新过的jpg合并为pdf文件的话,即可保证顺序的正确。

这一过程使用ImageMagickR来实现(Windows XP平台):

假如你的火影忍者的目录为D:/漫画/Naruto04,文件为001.jpg、002.jpg……,

setwd("D:/漫画/Naruto04")
dd <- dir()
ff <- function(x){
    convert <- paste("convert " , x ,
                     " -crop 2x1@ +repage +adjoin ",
                     "%d_",substr(x,1,3),".jpg",sep = '')
    shell(convert)
    reverse0 <- paste("convert " , "0_", x ,
                      " ", substr(x,1,3), "_1.jpg", sep = '')
    reverse1 <- paste("convert " , "1_", x ,
                      " ", substr(x,1,3), "_0.jpg", sep = '')
    shell(reverse0)
    shell(reverse1)
    shell(paste("del " ,"0_", x , sep = ''))
    shell(paste("del " ,"1_", x , sep = ''))
    shell(paste("del " , x , sep = ''))
}

for (j in dd) ff(j)
shell(paste('convert *.jpg ', '1.pdf',sep = ''))
注意:目标文件夹的所有文件将被替换!

最后要强调的是,虽然Kindle没有辐射,和一般的纸质书区别不大,但看多了仍然有损视力 ^_^

 

上周末一时无聊,跟朋友跑去看房子。回来总结一下,当作经验和大家分享一下。现在这年代,看房子主角向来都是职业顾问(俗称中介),跟中介打交道,斗智斗勇那是相当有意思!回想起来,看房子的过程,几乎可以说是一部部大片的集合!且请听我细细道来:

## 看房子的地带有些远,通州九棵树附近(北京除了五棵松以外,还有九棵树,囧) ##

因为不是自己买房子,所以心态比较随意。等我睡饱爬起,吃过早饭,收拾妥当已然11点有余。慢条斯理的奔向长椿街,记录了一下从长椿街到九棵树的地铁运行时间,差不多1小时。出轻轨,打黑车,果然被黑之,忍之……

奔向朋友看中的房子,留意了一下小区的环境——环境确实非常不错,低密度6层板楼,让人很放松的感觉。房主是个搞艺术的,内部装修非常有品位,当听到中介MM说物业费是每月0.9元时,我自己差点没忍不住,要出手。

警匪篇

我见到的第二波中介一行有5个,其中三个男的,各个满脸横肉,凶神恶煞一般,若不是说带我们去看房子,我还真把他们当成劫匪了。不过最让我纳闷的是,总共就我们3个看房的,来5个中介陪同,兴师动众。搞得卖房的业主开门时都愣了,明显提高了警觉(估计当时想的是不是抢劫)。

这段时间中介日子不好过,真热情啊~~

科技篇

第三波中介是店长加助理组合(一个中介店面会有3、4个店长),店长颇能侃,一边走一边胡扯,其实聊的和房子没点实际关系。更牛的是,最后一套房子也没给我们看,直接把我们忽悠到他店里了,现在想想也纳闷的很,怎么当时就听他的了。

最奇怪的是,进到他们的店里,我们3人的手机全没信号。本来,一路上不同的中介给我们通电话,突然手机没了信号,没有电话可接,相当不习惯。中介谈生意的手段非常高明:许诺我们中意的那套房子的业主30分钟必到,马上可以进入真刀真枪的划价阶段。然而30分钟过后……中介解释为:在路上,再等30分钟……又一个30分钟过去,中介解释:下班点,路上,有些堵(周日,囧),再等一刻钟……仍没到,解释:手机打不通了!不信你听听~~再等5分钟……演的真像,绝对不亚于我们敬爱的影帝爷爷。

就这样从4点半耗到了7点。事后我又看了看别人看房经历,发现中介店里都会有个房间可以屏蔽手机信号的,为什么把我们拉到店里,恐怕是不想让别的中介从抢走这单生意吧(高科技成就业务,真NB了)。

惊悚篇

第四波中介是两小伙儿,其中的一个文质彬彬,颇有好感。路上,聊到我们刚刚看的一套房子,中介告诉我们,那是小区里最便宜的一套。而后问我们,上一波的中介有没有告诉我们便宜的原因。当时我就冒疑问了,里面还有文章?

中介小伙儿说,你们没看到他们正对楼下的红垫子么?没觉得有问题?我心说了,估计可能要说屋里面有人去世之类的话题,不过也很正常么。但后来,中介小伙儿说的话还是让我打了个冷战:

“这楼下住了个老头,就一个人儿,有天直接挂在屋里了,但也没人知道。过了一个月,天气炎热,尸体腐烂,散发出恶臭才被邻居发现……后来医院过来人,整个楼都是福尔马林消毒水。上面的住户受不了,想快速出手……”

惊悚归惊悚,我其实是对着老头的子女是很有看法的。老头就一个人,不在身边照顾就罢了,电话也不勤着点打。真是林子大了,什么鸟都有。

后编

中介MM,中介GG都太牛了,坐在屋里谈费用的时候,手里只用一台20元的计算器完全搞定。嘴里还念叨着,这我们可以给你避税,这儿我们有优惠……

我还好事了一下,提议搞个Excel表,把房价输入,生成明细单,你我这边都省时间。结果被中介鄙视了一下,理由是周围政策环境变化是很快的,这东西只能装脑子里(言外之意,只能意会不能言传,额……)

据中介说,买房子有个费用叫“代书费”,是北京建委收的,收费的缘由是要求网签,而网签是由建委“代书”的,故要收这一笔。问题是,这笔费用不是常量,而是房价×0.5%,也是一笔不小的银子。我没忍住又好事了一把,搜了一下所谓的“代书费”,原来又是中介巧立名目。实际是“10元工本费和80元手续费”。

额,这中介也太无良了吧!

© 2012 刘思喆 @ 贝吉塔行星 Suffusion theme by Sayontan Sinha