用户名:
密码:
第1节 幂律思维

可以说,幂律是大数据所遵循的基本定理,这项研究成果给了人们一个能够预测未来的依据。那么,什么是幂律?它指的是几何平均定值,如有一万个连线的大节点有十个,有一千个连线的中节点有一百个,一百个连线的小节点有一千个……在对数坐标上画出来会得到一条斜向下的直线。

幂律是控制人们生活节奏的根本

在《致命争吵的统计数字》一书中,有一个显著的偏差值,可以表示冲突的等级数。一些战争的伤亡人数超过百万,另一些战争的死伤人数只有几十个。根据这种显著的差异,便可以将造成少量死亡人数定义为零级,伤亡人数为十人的战争是一级,伤亡人数为百人的是二级,数千人的丧生定义为三级。

如果战争是随机发生的,那么按照常理推算,每次战争的死亡人数应该是相差无几的,但是研究数据结果并非如此。在1820-1949年,共发生了282次战争中,有188次是三级以下的小型战争。通过数据观察,就可以知道伤亡人数与战争数量之间的关系遵循着一个简单的数学规律,也就是“越少就越大”。这是什么意思呢?

19世纪的经济学家维弗雷多·帕累托发现了这样一种现象:大多数人都是贫穷的,只有少数人积累了大部分财富,富人的出现并不令人吃惊。令人吃惊的是,富人的富有程度远远超过财富随机分配的一般水平。

研究的数据表明,战争和财富能够符合幂律的分布,小事件与个别大事件是完全可以共存的。在大数据“肆意传播”的世界中,如果没有数据分析的力量,谷歌和雅虎不会吸引数以百万的点击率,比尔·盖茨也不可能聚集如此之多的财富,战争也更加不应该造成那么多人的伤亡。然而,真实的世界是非常残酷的。幂律分布的本质就是能预测出这些,告诉人们总有严重偏离平均值的异常值。也就是说,一旦幂律出现,就会有异常值出现。

幂律和爆发点的相伴相生

在日常生活中,人们会参加会议、看电影、约会、吃饭、睡觉等,总之,会做很多事情。所以,人们无法一直待在电脑前查收邮件。但只要有时间,人们就会查收邮件,在短时间内发送回复或写邮件。而这就形成了数据模型中的一个爆发点。基于这样的生活节奏,人类活动中出现爆发点就不那么稀奇了。一旦幂律出现,爆发点的出现也就会随之出现了。短时间的活跃和长时间的耽搁相互交替,形成一个精确的规律,这个规律往往会被人们所忽视,但又是人类行为所共同遵循的。

无论是邮件还是网页搜索,人类的行为都遵循着幂律的法则,我们研究了图书馆中学生们借阅图书的数据,以及人们打电话所产生的相应数据,结果完全在我们的意料之中,幂律的法则与人类行为相伴相生,更与爆发点相伴相生。

不论我们观察哪种人类活动,都会有相同的“爆发”理论出现:长时间休息之后,就一定会出现短时间的密集活动,所有的一切都证明,爆发,无处不在。

爆发改变了一切

牛顿的万有引力定律之所以有极大的影响力,主要是能够对行星、火箭以及卫星的运行轨迹起到预测的作用。研究人员曾预测过新闻的生命周期为36分钟,而事实上,大部分新闻的生命周期要比36分钟长很多,甚至高达36小时。因此,解释幂律法则正确的结果是这样的:在浏览中意的网站时,人们绝不会每小时点击一次,而是在一个时间点上一个劲地点击,过了数小时或数天后,或许还会浏览这个网站,累计的时间一定会超过36分钟,从而保证我们看到最新的讯息。

总之,幂律思维不仅能在技术上体现出来,还能够在现象上体现出来。这一方向,将随着时间的发展和大数据的海量信息,具有越来越重大的意义。

最新书评 查看所有书评
发表书评 查看所有书评
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
评价:
表情:
用户名: 密码: 验证码: