前几天COS论坛上还在说中科大的R镜像还没弄好,今天再看cran,中科大的镜像已然可以正式使用。

中国的 R 语言镜像近几年来变化比较大,最早是东南大学,但不知道什么原因消失了。而后国内镜像主要集中在香港的geoexpat和厦门大学,再后来加入了中科院的两个所(包括CTeX),到今日加入中科大镜像。

个人一直觉得,人大作为中国R语言的倡导者,却一直没有提供镜像,挺遗憾的(人大文科氛围太浓烈)。

———————–分割线一—————————-

关于SAS:

4月30日,dapangmao在 SAS圈子 更新了一篇博客——SAS, 一个华丽时代的结束,具体内容我就不在这里转了。不过有些奇怪的是,评论没有硝烟,不知道是因为SAS太封闭还是大家争累了。

———————–分割线二—————————-

关于MySQL:

以前工作环境一般都是直接面对服务器上的Oracle、DB2,数据库安装、调试甚至数据源这些一般不用考虑。这两天项目需要,导了一些数据在本地。说来数据量也不大,1.5GB。一般的分析软件还不能直接搞定,于是乎倒腾上了MySQL。这个轻量级数据库挺有意思,注释和R是一样的(#),其前端工具heidisql不支持查询结果直接粘贴到word,却支持Copy selected rows as LaTeX table,大大的逗了我一下。以前我老说R和LaTeX是天然的搭档,现看来MySQL也是:)

 

2009年12月,hastie教授主页上更新了勘误后的The Elements of Statistical Learning II。这部机器学习领域的巨著,做数据挖掘或者统计分析的同行应该比较熟悉,不过这本书在美帝的 Amason 上要卖 80$,非常不符合中国特色的社会主义!

好在 Hastie 几位大牛深刻体会广大发展中国家莘莘学子的购买能力,在其主页上提供了免费的pdf版本。不过pdf版本有个小问题:排版是为了a4打印而设计的,白边太多,在电脑上看或者打印出来极为不爽。

下面提供一个解决方案来处理这个问题——使用LaTeX中的pdfpages宏包。
具体LaTeX代码参考如下:

\documentclass[a4paper,12pt]{report}
\usepackage[final]{pdfpages}
\begin{document}
\includepdf[pages=19-26, scale=1.3,
delta=0mm 5mm, frame]{ESLII_print3.pdf}
\end{document}
\endinput

使用PDF LaTeX编译。
主要参数非常简单,即从ESLII_print3.pdf中提取第19至26页(第一章),并放大1.3倍(成功剔除掉多余的白边)。

 

以前就想写一篇博客,讲述 Google 给我们生活带来的便利,这不,再不写,也许再也没有机会了。

为什么说没机会了,是因为 Google 官方博客的一篇文章——A new approach to China(抱歉,因为是订阅的内容,已经被墙了,我实在不能找到链接,不过可以访问这里,中文翻译的和原文),也许真的有一天 Google 会撇下我们

说到 Google,感慨颇深。以前在人大读书的时候,受舍友影响,从来不知道有其他的搜索引擎,不论干啥,第一反应就是 Google 之。后来,Google 进入中国,正式提出”谷歌“的中文名称,当时我还笑话 Google 的中文名太傻。而现在呢,患有严重的 Google 依赖综合征,算是交代了。

www.google.com 最适宜对英文资料的搜索,很多童鞋对 google.com 和 google.cn 感觉一样,实际上是有区别的。用一句很低俗很低俗的话来说就是,google.cn 是被阉割过的 Google(虽然仍然比 baidu 好很多)。举个最简单的例子,google.cn 是没有账户信息的,也就是说,你不能通过 google.cn 来登录 Google 的服务。而且似乎在中国,在浏览器中使用 Google 会默认指向 Google 中国。再换句话说,我们一般会把 Google 认为是一个很普通的搜索引擎,但实际上如果登录 Google,会发现别有洞天。

下面我列举一些每天相伴我的,便利的 Google 服务:

资讯类:

  • Gmail:Google 的 一款优秀的 mail。还记得最早 Google 开放邮件系统,没有独立注册的地方,必须通过其他人邀请。
  • Google Reader:每天开电脑后,要做的第二件事(第一件事是 foxmail 收取 gmail)。信息需要捕捉,使用书签记录互联网信息那是 web1.0 时代,现在我们有 RSS,Google Reader 可以带领我们翻墙去学统计,sigh!不过有个问题就是,如果你恰好在某个站点看到了一个很好的文章,而上面又有一个pdf链接……点击,浏览器报告错误链接……噢,那是在墙外。哪位童鞋有好办法解决,请告之。
  • Google Group:顾名思义,是小组讨论的论坛,很多志同道合的童鞋发言交流思想的地方。比如,申请了 TopLanguageCOS R Team 等,不过我更倾向把它归为 maillist 的一种,就和 R 的Mailing Lists 一样。
  • Google Alert:Google 中国翻译成“快讯”,恰到好处。它能告诉你每天最新发生的事情,当然发生的事情是你用关键词来定义的。

办公类:

  • Google Notebook:真正意义的互联网笔记本。
  • Google Docs:美国华盛顿特区政府官方使用的办公软件。挺好的,国内不知为啥又被封掉。
  • Google Talk:非常适合办公环境的即时聊天软件,聊天记录保存在 Gmail 帐号里,支持语音功能,同时有 gmail 邮件通知。
  • Google code:直接参考 R 的 sqldf 包 http://code.google.com/p/sqldf/

网站类:

  • Google Analytics:做网站的朋友肯定对它非常熟悉。
  • Google calendar:日程,合理规划时间是成功的必要条件。
  • Google Site 和 Google pages:功能上感觉比较类似,都是用来做站点的,但都不能用了,sigh again!
  • Goolge Picasa:图片分享,也不能用了
  • Google blog:其实挺好的 blog,由于众所周知的原因,被封了(偶尔也会能上)。唯一可惜的是,上面有很多不错的统计资源。

软件类:

  • Google 输入法:拼音输入法,表现中规中矩,可以同步用户词典。
  • Goolge 浏览器:感觉和 firefox 差不多,当然远远比 Internet explore 好很多很多辈(强调一下——不是倍)。
  • Google 词霸:自从有个这个,我就不再买正版的金山词霸。配合 neospeech 的 TTS (text-to-speech),挺舒服 ^_^
  • Google Earth:这个就更不用说了吧,我能通过它找到我家屋顶。

我这里只是简单了列了一下常用的 Google 服务,像一些比如 Google 学术搜索、Google 生活搜索、地图、桌面之类的我都没有提到,但它们都在或多或少的影响着我们的生活。

还是那句话——我患有严重的 Google 依赖综合征。

 

 

最近忙着准备 第二届中国 R 语言会议 的报告,其中一篇是关于《R 在大规模数据整理及自动化报告方面的应用》,演讲里说到了 LaTeX,于是乎,顺手翻了翻以前的文档。结果非常惊讶地发现 汤银才 老师04年的时候已经翻译了 pdfscreen,PPower4 的相关文档。这次汤老师在 第二届中国 R 语言会议(上海)会有一篇《R与Winbugs》的演讲,非常期待。预祝 第二届 R 语言会议成功举办!

R 语言会议报告的摘要附下,稍后几天更新 slides 和演示代码。

内容摘要:
    近年来高速发展的计算机技术极大地丰富了数据收集的方式与存储的总量。尤其是商业数据库优良的性能,为数据分析带来了极大的便利性。与此同时,数据规模和数据环境复杂性仍是我们需要面对的巨大挑战。
    作为当前数据分析领域最为活跃的 R 语言,不但提供了广泛的数据分析方法,而且为我们带来了灵活的扩展、便捷的编程,无疑是数据分析领域最优秀的环境。本文选取了一个侧面,主要介绍了 R 利用 Oracle 数据库进行大规模数据整理,以及利用 latex 环境和 Sweave 技术实现自动化报告的若干技术和应用。

 

准确的说是不到三年时间,从v2.4.6(2006.12.16)至v2.7.0 beta1(2009.05.03),估计5、6月份应该会出现稳定版本。话说 CTeX 更新慢,时常为人所诟病,但从功能上来讲,对自己并没有什么大影响——能用就行。 多年前,热衷于尝试新鲜软件,什么都要用最新版本,活脱一个测试专家。现在想开了,工具么,不必强求。一个 D 版的 Windows 即使常常蓝屏,也能被我用两年。唉,岁数大了,折腾不起了

© 2012 刘思喆 @ 贝吉塔行星 Suffusion theme by Sayontan Sinha