<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>刘思喆 @ 贝吉塔行星 &#187; baidu</title>
	<atom:link href="http://www.bjt.name/tag/baidu/feed/" rel="self" type="application/rss+xml" />
	<link>http://www.bjt.name</link>
	<description>R 语言，数据挖掘，数据可视化</description>
	<lastBuildDate>Wed, 30 Nov 2011 15:43:30 +0000</lastBuildDate>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.3.1</generator>
		<item>
		<title>百度如是说——中国两百强流行歌手关系</title>
		<link>http://www.bjt.name/2011/05/baidu-singers-relationships/</link>
		<comments>http://www.bjt.name/2011/05/baidu-singers-relationships/#comments</comments>
		<pubDate>Tue, 17 May 2011 15:21:59 +0000</pubDate>
		<dc:creator>刘思喆</dc:creator>
				<category><![CDATA[图型展示]]></category>
		<category><![CDATA[baidu]]></category>
		<category><![CDATA[networks]]></category>

		<guid isPermaLink="false">http://www.bjt.name/?p=10784</guid>
		<description><![CDATA[话说到，前段时间给某省移动公司做无线音乐交叉推荐项目，做的事不亦乐乎。且不说涉及的数据挖掘的算法，单说歌曲这玩意儿有关的一些有趣的话题，就挺让人兴奋，比如： 什么歌曲好听？能不能按照既定规则作曲，就能得到好歌？ 歌曲有风格的，且风格是有限的。这个风格如何定义？ 歌曲是对应歌手的，一个歌手的所有歌曲是不是对于单个听众来说都是好的？ 歌手的风格有类似，那些比较相近？ 这么多问题，假如有相关数据，其实都是可以通过数据挖掘的算法来给出答案的。最后一个歌手风格问题，假如能穷尽所有歌手之间的关系，没准能得到一些提示？于是乎，开始着手找数据，琢磨如何搞定这个事情。 问题有很多： 歌手的范围如何界定？是中文、英文、日文、韩文、法文等一起考虑，还是一个语种一个语种的考虑？ 歌手列表如何获得？ 歌手间的关系如何获得？如何衡量歌手的关系？ 网上搜了一下，发现百度可以给答案，它说： 列表：http://list.mp3.baidu.com/top/top200.html 关系：搜索两两歌手的网页数即可，即可代表二者的关系强弱（假设网页数多，即关系紧密） 于是乎，就这么办了（请新建标签页浏览图片）： 很有意思的结果，有几点提示： 歌手后面的颜色点是歌手的分群（同群的风格相似？） 歌手间的线代表了两者间关系强弱 前200的歌手剔除掉了《信》和《黎明》二位（这俩哥们的搜索干扰太大了） 解释的话，我这儿就省了。仁者见仁，智者见智。反正这198位歌手，我还有几十个不认识，像什么格格、小雪、大嘴巴之类的，还有什么飞轮海啥的，我的偶像集中在上个世纪，呵呵。 http://www.bjt.name/2011/05/baidu-singers-relationships/ 相关文章： 火箭对热火比赛（20100116）中，火箭球员的助攻网络关系 Google，其实不想走 数量庞大的包，复杂的网络]]></description>
			<content:encoded><![CDATA[<p>话说到，前段时间给某省移动公司做无线音乐交叉推荐项目，做的事不亦乐乎。且不说涉及的数据挖掘的算法，单说歌曲这玩意儿有关的一些有趣的话题，就挺让人兴奋，比如：</p>
<ul>
<li>什么歌曲好听？能不能按照既定规则作曲，就能得到好歌？</li>
<li>歌曲有风格的，且风格是有限的。这个风格如何定义？</li>
<li>歌曲是对应歌手的，一个歌手的所有歌曲是不是对于单个听众来说都是好的？</li>
<li>歌手的风格有类似，那些比较相近？</li>
</ul>
<p>这么多问题，假如有相关数据，其实都是可以通过数据挖掘的算法来给出答案的。最后一个歌手风格问题，假如能穷尽所有歌手之间的关系，没准能得到一些提示？于是乎，开始着手找数据，琢磨如何搞定这个事情。</p>
<p>问题有很多：</p>
<ul>
<li>歌手的范围如何界定？是中文、英文、日文、韩文、法文等一起考虑，还是一个语种一个语种的考虑？</li>
<li>歌手列表如何获得？</li>
<li>歌手间的关系如何获得？如何衡量歌手的关系？</li>
</ul>
<p>网上搜了一下，发现百度可以给答案，它说：</p>
<ul>
<li>列表：http://list.mp3.baidu.com/top/top200.html</li>
<li>关系：搜索两两歌手的网页数即可，即可代表二者的关系强弱（假设网页数多，即关系紧密）</li>
</ul>
<p>于是乎，就这么办了（请新建标签页浏览图片）：</p>
<div id="attachment_10785" class="wp-caption aligncenter" style="width: 1057px"><a href="http://www.bjt.name/wp-content/uploads/2011/05/singers.png"><img class="size-full wp-image-10785" title="singers" src="http://www.bjt.name/wp-content/uploads/2011/05/singers.png" alt="" width="1047" height="624" /></a><p class="wp-caption-text">百度top200歌手关系</p></div>
<p>很有意思的结果，有几点提示：</p>
<ol>
<li>歌手后面的颜色点是歌手的分群（同群的风格相似？）</li>
<li>歌手间的线代表了两者间关系强弱</li>
<li>前200的歌手剔除掉了《信》和《黎明》二位（这俩哥们的搜索干扰太大了）</li>
</ol>
<p>解释的话，我这儿就省了。仁者见仁，智者见智。反正这198位歌手，我还有几十个不认识，像什么格格、小雪、大嘴巴之类的，还有什么飞轮海啥的，我的偶像集中在上个世纪，呵呵。</p>
<p>http://www.bjt.name/2011/05/baidu-singers-relationships/<br />
<h3 class='related_post_title'>相关文章：</h3>
<ul class='related_post'>
<li><a href='http://www.bjt.name/2010/01/rockets-heat-assists-network/' title='火箭对热火比赛（20100116）中，火箭球员的助攻网络关系'>火箭对热火比赛（20100116）中，火箭球员的助攻网络关系</a></li>
<li><a href='http://www.bjt.name/2010/01/google-say-goodbye/' title='Google，其实不想走'>Google，其实不想走</a></li>
<li><a href='http://www.bjt.name/2009/09/r-cran-package-networks/' title='数量庞大的包，复杂的网络'>数量庞大的包，复杂的网络</a></li>
</ul>
]]></content:encoded>
			<wfw:commentRss>http://www.bjt.name/2011/05/baidu-singers-relationships/feed/</wfw:commentRss>
		<slash:comments>15</slash:comments>
		</item>
		<item>
		<title>Google，其实不想走</title>
		<link>http://www.bjt.name/2010/01/google-say-goodbye/</link>
		<comments>http://www.bjt.name/2010/01/google-say-goodbye/#comments</comments>
		<pubDate>Wed, 13 Jan 2010 16:15:06 +0000</pubDate>
		<dc:creator>刘思喆</dc:creator>
				<category><![CDATA[互联网]]></category>
		<category><![CDATA[baidu]]></category>
		<category><![CDATA[gmail]]></category>
		<category><![CDATA[google]]></category>
		<category><![CDATA[tts]]></category>

		<guid isPermaLink="false">http://www.bjt.name/?p=10504</guid>
		<description><![CDATA[以前就想写一篇博客，讲述 Google 给我们生活带来的便利，这不，再不写，也许再也没有机会了。 为什么说没机会了，是因为 Google 官方博客的一篇文章——A new approach to China（抱歉，因为是订阅的内容，已经被墙了，我实在不能找到链接，不过可以访问这里，中文翻译的和原文），也许真的有一天 Google 会撇下我们。 说到 Google，感慨颇深。以前在人大读书的时候，受舍友影响，从来不知道有其他的搜索引擎，不论干啥，第一反应就是 Google 之。后来，Google 进入中国，正式提出”谷歌“的中文名称，当时我还笑话 Google 的中文名太傻。而现在呢，患有严重的 Google 依赖综合征，算是交代了。 www.google.com 最适宜对英文资料的搜索，很多童鞋对 google.com 和 google.cn 感觉一样，实际上是有区别的。用一句很低俗很低俗的话来说就是，google.cn 是被阉割过的 Google（虽然仍然比 baidu 好很多）。举个最简单的例子，google.cn 是没有账户信息的，也就是说，你不能通过 google.cn 来登录 Google 的服务。而且似乎在中国，在浏览器中使用 Google 会默认指向 Google 中国。再换句话说，我们一般会把 Google 认为是一个很普通的搜索引擎，但实际上如果登录 Google，会发现别有洞天。 下面我列举一些每天相伴我的，便利的 Google 服务： 资讯类： Gmail：Google 的 一款优秀的 mail。还记得最早 Google 开放邮件系统，没有独立注册的地方，必须通过其他人邀请。 Google Reader：每天开电脑后，要做的第二件事（第一件事是 <a href='http://www.bjt.name/2010/01/google-say-goodbye/'>[...]</a>]]></description>
			<content:encoded><![CDATA[<p>以前就想写一篇博客，讲述 Google 给我们生活带来的便利，这不，再不写，也许再也没有机会了。</p>
<p>为什么说没机会了，是因为 Google 官方博客的一篇文章——A new approach to China（抱歉，因为是订阅的内容，已经被墙了，我实在不能找到链接，不过可以访问<a href="http://blog.sina.com.cn/s/blog_46f180bc0100h4mx.html" target="_blank">这里</a>，中文翻译的和原文），也许真的有一天 Google 会<a href="http://pyzxs.blog.sohu.com/142160649.html" target="_blank">撇下我们</a>。</p>
<p>说到 Google，感慨颇深。以前在人大读书的时候，受舍友影响，从来不知道有其他的搜索引擎，不论干啥，第一反应就是 Google 之。后来，Google 进入中国，正式提出”谷歌“的中文名称，当时我还笑话 Google 的中文名太傻。而现在呢，患有严重的 Google 依赖综合征，算是交代了。</p>
<p>www.google.com 最适宜对英文资料的搜索，很多童鞋对 google.com 和 google.cn 感觉一样，实际上是有区别的。用一句很低俗很低俗的话来说就是，google.cn 是被阉割过的 Google（虽然仍然比 baidu 好很多）。举个最简单的例子，google.cn 是没有账户信息的，也就是说，你不能通过 google.cn 来登录 Google 的服务。而且似乎在中国，在浏览器中使用 Google 会默认指向 Google 中国。再换句话说，我们一般会把 Google 认为是一个很普通的搜索引擎，但实际上如果登录 Google，会发现别有洞天。</p>
<p>下面我列举一些每天相伴我的，便利的 Google 服务：</p>
<h1>资讯类：</h1>
<ul>
<li>Gmail：Google 的 一款优秀的 mail。还记得最早 Google 开放邮件系统，没有独立注册的地方，必须通过其他人邀请。</li>
<li>Google Reader：每天开电脑后，要做的第二件事（第一件事是 foxmail 收取 gmail）。信息需要捕捉，使用书签记录互联网信息那是 web1.0 时代，现在我们有 RSS，Google Reader 可以带领我们翻墙去学统计，sigh！不过有个问题就是，如果你恰好在某个站点看到了一个很好的文章，而上面又有一个pdf链接……点击，浏览器报告错误链接……噢，那是在墙外。哪位童鞋有好办法解决，请告之。</li>
<li>Google Group：顾名思义，是小组讨论的论坛，很多志同道合的童鞋发言交流思想的地方。比如，申请了 <a href="http://groups.google.com/group/pongba?hl=zh-CN"><span>TopLanguage</span></a>，<a href="http://groups.google.com/group/cos-r-team?hl=zh-CN"><span>COS R Team</span></a> 等，不过我更倾向把它归为 maillist 的一种，就和 R 的<a href="http://www.r-project.org/mail.html" target="banner">Mailing Lists</a> 一样。</li>
<li>Google Alert：Google 中国翻译成“快讯”，恰到好处。它能告诉你每天最新发生的事情，当然发生的事情是你用关键词来定义的。</li>
</ul>
<h1>办公类：</h1>
<ul>
<li>Google Notebook：真正意义的互联网笔记本。</li>
<li>Google Docs：美国华盛顿特区政府官方使用的办公软件。挺好的，国内不知为啥又被封掉。</li>
<li>Google Talk：非常适合办公环境的即时聊天软件，聊天记录保存在 Gmail 帐号里，支持语音功能，同时有 gmail 邮件通知。</li>
<li>Google code：直接参考 R 的 sqldf 包 http://code.google.com/p/sqldf/</li>
</ul>
<h1>网站类：</h1>
<ul>
<li>Google Analytics：做网站的朋友肯定对它非常熟悉。</li>
<li>Google calendar：日程，合理规划时间是成功的必要条件。</li>
<li>Google Site 和 Google pages：功能上感觉比较类似，都是用来做站点的，但都不能用了，sigh again!</li>
<li><a href="http://picasaweb.google.com/">Goolge Picasa：</a>图片分享，也不能用了</li>
<li>Google blog：其实挺好的 blog，由于众所周知的原因，被封了（偶尔也会能上）。唯一可惜的是，上面有很多不错的统计资源。</li>
</ul>
<h1>软件类：</h1>
<ul>
<li>Google 输入法：拼音输入法，表现中规中矩，可以同步用户词典。</li>
<li>Goolge 浏览器：感觉和 firefox 差不多，当然远远比 Internet explore 好很多很多辈（强调一下——不是倍）。</li>
<li>Google 词霸：自从有个这个，我就不再买正版的金山词霸。配合 <a href="http://www.neospeech.com/" target="_blank">neospeech</a> 的 TTS （<em>text-to-speech</em>），挺舒服 ^_^</li>
<li>Google Earth：这个就更不用说了吧，我能通过它找到我家屋顶。</li>
</ul>
<p>我这里只是简单了列了一下常用的 Google 服务，像一些比如 Google 学术搜索、Google 生活搜索、地图、桌面之类的我都没有提到，但它们都在或多或少的影响着我们的生活。</p>
<p>还是那句话——我患有严重的 Google 依赖综合征。<br />
<h3 class='related_post_title'>相关文章：</h3>
<ul class='related_post'>
<li><a href='http://www.bjt.name/2011/07/money-supply-motion-char/' title='2006年至今国内货币供应量的Motion Chart'>2006年至今国内货币供应量的Motion Chart</a></li>
<li><a href='http://www.bjt.name/2011/05/baidu-singers-relationships/' title='百度如是说——中国两百强流行歌手关系'>百度如是说——中国两百强流行歌手关系</a></li>
<li><a href='http://www.bjt.name/2010/11/google-r-code-style/' title='R语言的代码规范'>R语言的代码规范</a></li>
</ul>
]]></content:encoded>
			<wfw:commentRss>http://www.bjt.name/2010/01/google-say-goodbye/feed/</wfw:commentRss>
		<slash:comments>2</slash:comments>
		</item>
	</channel>
</rss>

