话说到,前段时间给某省移动公司做无线音乐交叉推荐项目,做的事不亦乐乎。且不说涉及的数据挖掘的算法,单说歌曲这玩意儿有关的一些有趣的话题,就挺让人兴奋,比如:

  • 什么歌曲好听?能不能按照既定规则作曲,就能得到好歌?
  • 歌曲有风格的,且风格是有限的。这个风格如何定义?
  • 歌曲是对应歌手的,一个歌手的所有歌曲是不是对于单个听众来说都是好的?
  • 歌手的风格有类似,那些比较相近?

这么多问题,假如有相关数据,其实都是可以通过数据挖掘的算法来给出答案的。最后一个歌手风格问题,假如能穷尽所有歌手之间的关系,没准能得到一些提示?于是乎,开始着手找数据,琢磨如何搞定这个事情。

问题有很多:

  • 歌手的范围如何界定?是中文、英文、日文、韩文、法文等一起考虑,还是一个语种一个语种的考虑?
  • 歌手列表如何获得?
  • 歌手间的关系如何获得?如何衡量歌手的关系?

网上搜了一下,发现百度可以给答案,它说:

  • 列表:http://list.mp3.baidu.com/top/top200.html
  • 关系:搜索两两歌手的网页数即可,即可代表二者的关系强弱(假设网页数多,即关系紧密)

于是乎,就这么办了(请新建标签页浏览图片):

百度top200歌手关系

很有意思的结果,有几点提示:

  1. 歌手后面的颜色点是歌手的分群(同群的风格相似?)
  2. 歌手间的线代表了两者间关系强弱
  3. 前200的歌手剔除掉了《信》和《黎明》二位(这俩哥们的搜索干扰太大了)

解释的话,我这儿就省了。仁者见仁,智者见智。反正这198位歌手,我还有几十个不认识,像什么格格、小雪、大嘴巴之类的,还有什么飞轮海啥的,我的偶像集中在上个世纪,呵呵。

http://www.bjt.name/2011/05/baidu-singers-relationships/

 

以前就想写一篇博客,讲述 Google 给我们生活带来的便利,这不,再不写,也许再也没有机会了。

为什么说没机会了,是因为 Google 官方博客的一篇文章——A new approach to China(抱歉,因为是订阅的内容,已经被墙了,我实在不能找到链接,不过可以访问这里,中文翻译的和原文),也许真的有一天 Google 会撇下我们

说到 Google,感慨颇深。以前在人大读书的时候,受舍友影响,从来不知道有其他的搜索引擎,不论干啥,第一反应就是 Google 之。后来,Google 进入中国,正式提出”谷歌“的中文名称,当时我还笑话 Google 的中文名太傻。而现在呢,患有严重的 Google 依赖综合征,算是交代了。

www.google.com 最适宜对英文资料的搜索,很多童鞋对 google.com 和 google.cn 感觉一样,实际上是有区别的。用一句很低俗很低俗的话来说就是,google.cn 是被阉割过的 Google(虽然仍然比 baidu 好很多)。举个最简单的例子,google.cn 是没有账户信息的,也就是说,你不能通过 google.cn 来登录 Google 的服务。而且似乎在中国,在浏览器中使用 Google 会默认指向 Google 中国。再换句话说,我们一般会把 Google 认为是一个很普通的搜索引擎,但实际上如果登录 Google,会发现别有洞天。

下面我列举一些每天相伴我的,便利的 Google 服务:

资讯类:

  • Gmail:Google 的 一款优秀的 mail。还记得最早 Google 开放邮件系统,没有独立注册的地方,必须通过其他人邀请。
  • Google Reader:每天开电脑后,要做的第二件事(第一件事是 foxmail 收取 gmail)。信息需要捕捉,使用书签记录互联网信息那是 web1.0 时代,现在我们有 RSS,Google Reader 可以带领我们翻墙去学统计,sigh!不过有个问题就是,如果你恰好在某个站点看到了一个很好的文章,而上面又有一个pdf链接……点击,浏览器报告错误链接……噢,那是在墙外。哪位童鞋有好办法解决,请告之。
  • Google Group:顾名思义,是小组讨论的论坛,很多志同道合的童鞋发言交流思想的地方。比如,申请了 TopLanguageCOS R Team 等,不过我更倾向把它归为 maillist 的一种,就和 R 的Mailing Lists 一样。
  • Google Alert:Google 中国翻译成“快讯”,恰到好处。它能告诉你每天最新发生的事情,当然发生的事情是你用关键词来定义的。

办公类:

  • Google Notebook:真正意义的互联网笔记本。
  • Google Docs:美国华盛顿特区政府官方使用的办公软件。挺好的,国内不知为啥又被封掉。
  • Google Talk:非常适合办公环境的即时聊天软件,聊天记录保存在 Gmail 帐号里,支持语音功能,同时有 gmail 邮件通知。
  • Google code:直接参考 R 的 sqldf 包 http://code.google.com/p/sqldf/

网站类:

  • Google Analytics:做网站的朋友肯定对它非常熟悉。
  • Google calendar:日程,合理规划时间是成功的必要条件。
  • Google Site 和 Google pages:功能上感觉比较类似,都是用来做站点的,但都不能用了,sigh again!
  • Goolge Picasa:图片分享,也不能用了
  • Google blog:其实挺好的 blog,由于众所周知的原因,被封了(偶尔也会能上)。唯一可惜的是,上面有很多不错的统计资源。

软件类:

  • Google 输入法:拼音输入法,表现中规中矩,可以同步用户词典。
  • Goolge 浏览器:感觉和 firefox 差不多,当然远远比 Internet explore 好很多很多辈(强调一下——不是倍)。
  • Google 词霸:自从有个这个,我就不再买正版的金山词霸。配合 neospeech 的 TTS (text-to-speech),挺舒服 ^_^
  • Google Earth:这个就更不用说了吧,我能通过它找到我家屋顶。

我这里只是简单了列了一下常用的 Google 服务,像一些比如 Google 学术搜索、Google 生活搜索、地图、桌面之类的我都没有提到,但它们都在或多或少的影响着我们的生活。

还是那句话——我患有严重的 Google 依赖综合征。

© 2012 刘思喆 @ 贝吉塔行星 Suffusion theme by Sayontan Sinha