You cannot select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.

116 lines
12 KiB
Markdown

This file contains ambiguous Unicode characters!

This file contains ambiguous Unicode characters that may be confused with others in your current locale. If your use case is intentional and legitimate, you can safely ignore this warning. Use the Escape button to highlight these characters.

# 05 | 直方图与幂分布为什么全世界1%的人掌握着50%的财富?
数据给你一双看透本质的眼睛,这里是《数据分析思维课》,我是郭炜。
我们之前讲了各种从数据结论中去伪存真的办法,我们今天更进一步,来看看当数据摆在你面前的时候,你应该如何从数据当中发现特征?
今天我就教给你一个最简单的办法——直方图。
你可能会有类似这样的想法直方图还不简单不就是柱状图吗一个Excel就搞定了我天天画柱状图。
但这种想法是错误的,因为直方图并不等于柱状图。现在请你花一分钟时间,仔细看看下面这两个图表,你能分辨出哪个是直方图,哪个是柱状图吗?
![](https://static001.geekbang.org/resource/image/ab/70/abf6c16bdb3c8dbda520a62b373de970.png?wh=632x441 "北京动物园日平均参观时长")
![](https://static001.geekbang.org/resource/image/10/c2/100bea855b9788143d89a922f3f5dfc2.png?wh=1080x698 "北京动物园日场馆平均参观人数")
## 直方图与柱状图
答案是第一个图(动物园平均参观时长)为直方图,第二个图(动物园平均参观人数)为柱状图。
看上去上面这两幅图都是用直直方方的图形来展示,但其实它们是两种完全不同的图形展现和数据分析方法。那问题来了,我们如何才能分清楚直方图和柱状图呢?
我教你一个最简单的办法:**直方图是展示数据的分布,而柱状图是比较数据的大小。**
更具体点来说直方图的X轴是定量的数据或者区域数据用于看分布而柱状图X轴是分类的数据。就拿刚刚的这两个图来说第一个图其实是 X轴是**人们观光动物园的时间分布**而第二个图的X轴是**人们去动物园场馆的具体分类**。
直方图是针对定量数据分布的定性分析柱状图是对分类数据的定量数据分析这两兄弟长得很像用途也是互为补充。在第一个图里你能看到有40%的游客是停留了4个小时但无法知道每天有多少游客去动物园。而在第二个图里你能够知道大概每天会有95万名游客去了熊猫馆但不能够看到游客的游览时间分布情况。
你也可以从表现形式上来对直方图与柱状图加以区分。
从柱子的间隔上来说,直方图的柱子和柱子之间没有间隔,而柱状图之间柱子是有间隔的。从柱子的宽度上来讲,直方图的柱子宽度可以不一样,而柱状图的柱子宽度必须一样。
对直方图来说它的柱子宽度代表区间的长度根据区间的不同柱子宽度可以不同。但柱状图的柱子宽度没有数值含义所以宽度必须一致。你可以看看下面的这张图这是美国人口普查局The U.S. Census Bureau调查12.4亿人的上班通勤时间的直方图,最后右侧的直方柱子就像一个矮胖子一样,直接蹲在地板上了。
![](https://static001.geekbang.org/resource/image/27/cf/276c4630dba5d6585863f9db2d8c4bcf.png?wh=985x642 "图片来源福布斯《A Histogram is NOT a Bar Chart》")
## 神奇的直方图
教你分辨完直方图与柱状图后我们再来聊聊直方图。直方图最早是由数据统计学家Karl Pearson在1891年引入它可以用来统计现实生活中各种各样的数据分布情况。
那具体直方图我们要怎么使用呢?你在搞不清楚某些数据的情况的时候。就可以把它画成一个直方图,然后就能够看到其中的规律了。举个例子,你可以看看[下面](https://raw.githubusercontent.com/owid/covid-19-data/master/public/data/vaccinations/vaccinations.csv)这组数据这是来自2021年截至4月底所有的新冠肺炎疫情国家的累计发病人数。
![](https://static001.geekbang.org/resource/image/6b/f7/6bf5c051120254e3712821af59b48bf7.png?wh=1250x792)
是不是如果只看这幅图,你会感觉满屏都是数字,不知道如何下手,更别说得出什么结论了。
但是当我们用直方图把这些数字给表示出来的时候,神奇的事情发生了。你会清晰地发现,拿全球所有的国家这个范围来看,其实绝大部分的病例都发生在极少数的国家里,就像下面这幅图一样。
![](https://static001.geekbang.org/resource/image/27/a4/27c7768186433dbc5ffa74fb79b2a1a4.png?wh=1164x706)
而且这样的分布并不是个例,我们现在把目光转向亚马逊丛林。
亚马逊地区有着全球树种最丰富的雨林科学家已将亚马逊地区将近16000种树种编入物种目录。尽管亚马逊雨林呈现出如此多彩的物种多样性科学家们还是发现在其中有227种树种牢牢占据主导地位这些树种的分布面积几乎占到了整个亚马逊雨林面积的一半也就是说仅1.4%的树种就占据了整个地区的50%,画出图来也和上面的图形类似。
这种从直方图体现出来呈指数下降或者上升的分布形式,科学家们把它叫做“幂律分布”。
## 幂律分布与帕累托法则
幂率分布也叫做指数分布你会发现在这种分布里X轴的开始的地方数值很高或很低然后以指数级的下降或上升到X轴的末尾段按照统计学定义叫做“分布密度函数是幂函数的分布”。
这样的规律其实无处不在拿我们日常使用的词汇来说你自己最常用的词汇往往就是那些500~1000个词其余的词汇少量或者更少量在书面时候使用如果你把你自己的用词数做一个直方图你会发现语言的词汇使用率也是呈幂律分布的。
不止中文、英文其实全球语言使用的词汇其实都是服从幂律分布的。所以我们在学外语的时候经常看到要背会最常用的多少个单词。比如大学英语你去考4级6级8级很多词汇书上会写着“超实用XX词速记”“XX词随身带”这些词汇书就是基于语言的幂律分布来帮助我们更好地学习外语。
那么这种现象是怎么产生的呢?
病毒、树种和语言其实都有一个共性——传播性。比如在亚马逊雨林里,两株植物长在了一块,那么每天这两株植物就要为阳光和土壤中的养分去竞争。如果其中一株能比另外一株植物每天稍微长快一点,那么它就能长得更高,从而获得更多的阳光、吸收更多的养分。
如果每天都有这些额外的能量,这株植物就更加有能力把种子给传播出去,然后复制这种模式。一直持续下去,这种植物就会积累出得天独厚的优势。
在语言的使用和病毒的传播当中也是同理。开始的微妙的优势会随着时间逐步加强,最后就能占领绝对优势,就像滚雪球一样,越滚越大。拿美国来说,它的医疗水平能力确实很强,但是由于美国对待疫情的态度并不够重视,病毒在美国其实是占据传播的优势的。所以强如美国,最后也被新冠给好好上了一课。
说到幂律分布,那就不得不提一下帕雷托法则了。你或许对帕累托法则有些陌生,但我要是说二八法则,你肯定听过。
二八法则简单来说就是20%的人占了80%的资源剩下80%的人分最后20%的资源。这个法则诞生于帕累托的花园。有一天帕累托偶然发现,自己园子里绝大部分的豌豆是由园子里极少部分豌豆荚产生。
作为一名擅长数学的经济学家帕累托意识到这里面大有玄机。于是他马上把这种现象应用到了生活的其他领域他惊奇地发现意大利人80%的土地仅掌握在20%的手的人的手中,就和园子当中的豌豆荚类似,于是发表了著名的“帕雷托法则”(也被人称之为“二八法则”)。这个法则的背后的规律就是幂律分布。
企业的竞争力也同样符合帕累托法则。举个例子如果我们把全网短视频APP的月活用户用柱状图表示出来你会发现同样符合幂律分布。就像文稿里的这张图这样比较高的APP的月活会高于均值很多倍第一名、第二名分掉了整体赛道流量的90%。所以在互联网领域里才会有这么一句话:一个领域只有第一、第二,没有第三。
![](https://static001.geekbang.org/resource/image/a2/83/a2bfd8c3489840c9b9de37e774120183.png?wh=1626x1085)
幂律分布与帕累托法则其实都强调了重要的少数和琐碎的多数,从某种意义上来讲,世界从来都不是平衡的。
所以在日常生活里不要把所有事都放在同一个优先级上而是学会用帕累托法则去看待问题找出最重要的20%的问题并最优先解决。同时你也要留个心眼为什么这20%的问题对你来说最为重要?
对应到工作中,你可以多想想以下几个问题。
* 在你一天的工作分配当中由于80%的工作都是日常反馈你是否安排了自己最清醒的时间去处理最重要的20%工作?
* 你所在的公司是不是由20%的客户来为公司提供了80%的利润,如果是,应该如何留住这些客户?
* 在团队里杰出贡献是20%的人做的80%的人是配合那么针对这20%的人,你应该如何留住他们?
* 能否通过弥补20%的质量缺口去获得80%的收益或者避免80%的客户投诉)?
* 在最有效的20%的时间内如何引导团队做出80%的相关分析?
最后再来说说我们个人的发展。为什么有的人一开始和普通人差不多,但是他们后来渐渐地把同龄人甩在了身后?
有的人可能会觉得是因为这些人运气好运气也是实力的一部分但毕竟“幸运只光顾有准备的人”。你比其他人更努力每天多积累1%哪怕是0.1%的优势,这样把优势不断积累下去,你就会占据越来越多的资源,成为这个领域里面的专家。
## 小结
好了,今天的课程到这里也就接近尾声了,我再来带你复习一下今天讲的内容。
今天我给你讲了两个重要的概念。一个是非常简单但有效的工具——直方图。直方图可以让你从混沌的数据里面找到其中的规律。很多的数据分布(包括下面几节课要讲的正态分布和拉普拉斯分布)都会用到这个工具。
紧接着我们从直方图讲到了幂律分布。这个统计学规律告诉我们,我们身处的世界是赢者通吃的世界,开始时细微优势最终将带来无穷多的回报。反之,最初的细微劣势也将导致最终一无所有。这个现象也有人称之为“马太效应”,在圣经《新约·马太福音》中是这样描述的:“ 凡有的,还要加给他,叫他多余。没有的,连他所有的也要夺过来 ”。
我们耳熟能详的帕雷托法则(也就是二八法则)、马太效应都是来自幂律分布。这个数字分布其实有很多点值得我们去思考,你可以尝试多在日常的工作以及生活里用一下它,或许能够给你一些意想不到的惊喜。
当然帕累托法则给我带来最重要的一个认知更新是每天在我们自己的专业领域里面或者你的企业在所在的赛道里只要你比其他人或者其他企业多成功1%,最终积累起来的竞争优势将使别人无法超越,你就会变成那个能够大声说“我全都要”的少数派。
不积跬步无以至千里不积小流无以成江海。数据给你一双看透本质的眼睛让我们每天在数据这个领域里面比别人多1%的认知,最终看到一个和别人完全不同的世界。我们一起学习数据的规律,一起共勉!
## 课后思考
在你的工作生活当中,还有哪些事情你觉得符合帕累托法则或者幂律分布?背后的原因是什么?分享出来,我们一起共同提高!