十月份在公司的技术中心分享了《数据思维、技术到商业价值》,从数据科学的重要基石之一统计学开讲,帮大家串了一下数据科学到底是什么东西。 其中有一页幻灯片,讲到我心目中数据科学 milestone 的时间轴,这里分享给大家,以及怎么使用R包绘制。

啥也不说,先看图:

Information entropy,1948

由信息论之父 C. E. Shannon 在论文《A Mathematical Theory of Communication 》提出。Shannon 借用热力学的原理解决了 Uncertainty 的测量性问题。(太早,故未在时间轴上体现)

The Future of Data Analysis,1962

John W. Tukey 也是个人最为崇拜的统计学家(除了祖师爷Fisher以外),Tukey讨论了两个有意思的问题:

  1. 统计学和数据分析的关系
  2. 统计学和计算机学的关系

大家有兴趣可以搜一下原文,感受一下56年前大佬的思考深度。

Data science,1974

Data science 的概念是 Peter Naur 在《Concise Survey of Computer Methods》首次提出,Peter Naur是计算机科学家,图灵奖的获得者。 在这本书里,Peter Naur 给了偏计算机领域的数据定义:

Data is a representation of facts or ideas in a formalized manner capable of being communicated or manipulated by some process.

Peter Naur 对 computer science 这个词很有意见,建议应该叫做 datalogy 或者 data science,当然和现代 data science 的定义还是差别很大。

Two-Way Communication,1975

由日本邮政和通信省主导,在这次信息社会普查发现:信息(数据)的传递不是单向的,双向(个性化)的是未来的趋势。

Exploratory Data Analysis,1977

这个词学统计的应该非常清楚是什么意思,不多讲。Tukey 在1977年就提出来这个观点,让我们这些后辈只有佩服的份。

Business Intelligence,1989

Howard Dresner 赋予了商业智能以现代概念:

concepts and methods to improve business decision making by using fact-based support systems

The First Database Report,1992

Crystal Reports(水晶报表),较晚一些从事数据科学的童鞋可能没听过这款产品。想想那是1992年,能够在Windows上通过连接数据库形成一个数据报告是多么酷的事情。

The World Wide Web Explodes,1995

互联网技术和应用开始井喷式爆发,我们面临的以及需要优化的问题是人类社会前所未有的,同时提供给了数据科学更多的可能性。

Data Mining and Knowledge Discovery,1997

聚焦在数据挖掘的权威期刊,包括基础理论、数据挖掘方法、数据挖掘算法、知识发现过程、应用等。Data mining这个词是表示了从大型数据库中提取信息之意。

S(ACM Software System Award),1998

S语言由贝尔实验室的John Chambers发明,在1998年被授予ACM软件系统奖。这是唯一的数据科学领域被授予奖项的系统,它永久的改变了人们分析数据的方式,是探索性数据分析的集大成之作。

Statistical Modeling: The Two Cultures,2001

Leo Breiman 在该论文中提到:在使用统计模型从数据中提取结论的过程中有两种文化。一个假定数据是由一个特定分布模型生成的。另一个使用算法模型,并把数据结构看作未知的。统计学界普遍致力于仅仅使用针对数据的模型。这种投入产生了无意义的理论、值得怀疑的结论,并让统计学家无法触及大量现实问题。算法模型,在理论与实践中,在统计学之外快速发展。它既可以被应用于庞大复杂的数据集,也可以在小数据集上建立精确信息量大的模型。如果我们这个领域的目标是使用数据解决问题,那么我们需要摆脱对纯粹基于数据模型的依赖,并使用更多样的工具。

Hadoop,2006

离线分布式计算的基石,且免费,对硬件的要求不高。因为它的存在,所有机构都可以用较小的成本来处理海量的数据。记得2011年之后,国内讲大数据如果不讲Hadoop就感觉非常不专业的样子。

Data scientist,2008

Jeff Hammerbacher(Facebook) 和 DJ Patil(LinkedIn) 开始使用数据科学家来描述他们的团队以及工作。从此以后,数据科学家这个名词开始广泛地被提起。

NOSQL,2009

非关系型数据库,其口号是:

select fun, profit from real_world where relational=false;

Deep Learning,2015

深度学习其实并不是什么新鲜技术,人工神经网络在20世纪50年代就出现了,但是受限于算力和要求的数据量,神经网络发展一直相对缓慢。 2015年随着 Google 在语音识别领域精度的极大提高(几项比赛的革命性效果),深度学习再一次火了起来。

附代码

x <- read.table(
textConnection("
The Future of Data Analysis,1962
Relational Database,1970
Data science(Peter Naur),1974
Two-Way Communication,1975
Exploratory Data Analysis,1977
Business Intelligence,1989
The First Database Report,1992
The World Wide Web Explodes,1995
Data Mining and Knowledge Discovery,1997
S(ACM Software System Award),1998
Statistical Modeling: The Two Cultures,2001
Hadoop,2006
Data scientist,2008
NOSQL,2009
Deep Learning,2015
"), sep = ',')
names(x) <- c('Event', 'EventDate')
x$EventDate <- as.Date(paste(x$EventDate, '/01/01', sep =''))

library(timelineS)
timelineS(x, labels = paste(x[[1]], format(x[[2]], '%Y')),
          line.color = "blue", label.angle = 15)