gitbook/数据分析思维课/docs/407445.md

114 lines
13 KiB
Markdown
Raw Permalink Normal View History

2022-09-03 22:05:03 +08:00
# 08 | 标准差:这人是不是“靠谱”其实看标准差?
数据给你一双看透本质的眼睛,这里是《数据分析思维课》,我是郭炜。
前面我们讲过平均值不能够代表整体的水平,也给你讲了大数定律、散点图这些知识。接下来我们再进入一个常见的问题:**怎样能快速看清一组数据的大概情况?**
对于这个问题来说,我们不必用非常复杂的散点图或者文字来进行表述,这个时候就轮到标准差登场了。标准差和数据分布、平均值一起就可以很方便地描述一组数据的大致情况。
标准差还有一个孪生兄弟叫做标准误差,这两个兄弟确实很像,我们也会经常能听到说“这个问题在误差允许的范围里。”感觉一旦说了这句话,好像这个东西就很靠谱了,但真的这样吗?今天我就给你展开讲讲标准差和标准误差。
## 标准差
标准差的概念比较简单,它代表一组数值和平均值相比分散开来的程度。也就是说,标准差大代表大部分的数值和平均值差异比较大,标准差小代表这组数字比较接近平均值。
标准差的计算公式我给你放在了附录里公式看上去稍微复杂一点但主要就是算每一个数据和平均值之间的差异距离。你经常听说某市平均薪资是X万你很纳闷我和周边人薪资这么少为啥平均薪资那么高我是怎么“被涨薪”的我们可以看一下下面这个例子假如两个小组的月薪大概是如下这个样子单位都是“万”。
第一组:\[1.721.701.681.711.69\] ;第二组:\[1.705.200.600.20.8\]。
这两组人你可以简单计算一下你会发现平均月薪都是1万7。但很明显第2组人的薪酬高低差异要比第1组人大很多。第一组人都是1万7左右的薪资差异不大。你很不巧在第二组里你月薪6000周边都是2000、8000的小伙伴但是实际上你这组里有月薪5万的人你不认识于是你就“被涨薪”了。
通过公式或者Excel函数我在最后一章会教你如何方便地计算你能算出来第一组标准差是0.014第二组是1.818,差异能有一百多倍。如果每次只给你某地区或者某部门的平均薪酬,但是不告诉你这个地区部门它的标准差有多大,那我们难免就会觉得困惑,“不患寡而患不均”用在这里依旧很合适。
所以看薪资的时候,**你不仅需要知道一个平均值,同时还需要知道一个标准差**,你才能知道整体薪资水平、你自己的水平以及你将来的天花板在哪里。
但是只有这个概念还不够假设对于第1组的薪资单位来说我用的是不是“万元”而是用“百元”甚至“元”作为单位的话它的标准差就会到1.414和141.4。这个时候再和第2组人员去比感觉好像标准差的离散度更高但是实际数据却不是如此。
所以一般我们真的在做数据分析的时候我们会常用另外一个数据来规避这种问题它叫做离散系数CVcoefficient of variation。它的计算公式很简单就是用标准差除以平均值**离散系数=标准差/平均值**),这样的话就规避了单位或者其他因素的这些差异。我们直接看离散系数这个数据,就能知道这几组数据之间的离散程度和差异是什么样的。
下次你再去问人力资源部门的平均薪酬的时候,你可以多问一句“这个部门的离散系数有多少?”你大概就会知道,你可以要到最高多少的薪酬和你将来的涨薪空间会有多大了。
## 标准差的具体使用
标准差除了衡量一个群体里面具体数值之间差异有多大,比如说衡量我们的薪酬、身高、体重这些差异之外,它还有什么用呢?
它也会用于衡量一个人或者一个团队的稳定性比如说。在你常见的NBA里我们会用[平均数据](https://zh.wikipedia.org/wiki/NBA%E4%B8%AA%E4%BA%BA%E5%8D%95%E8%B5%9B%E5%AD%A3%E5%B9%B3%E5%9D%87%E5%BE%97%E5%88%86%E8%AE%B0%E5%BD%95)来衡量一个球员的战斗力,比如场均得分,盖帽,抢断助攻等等。
![](https://static001.geekbang.org/resource/image/d2/9d/d2a716d67977bf7d77f8475cbe94669d.png?wh=858x424)
同时,我们会使用[标准差](http://sports.163.com/special/anglezero/nbaqp.html)来衡量一个球员的稳定性。
> 如果只看场均得分达到20+的球员中,当属勒布朗-詹姆斯最稳定标准差为5.8分遍历他本赛季所有的比赛他既没有超过40分的狂飙也无低于13分的低迷。
类似的,我们在衡量一个团队的销售业绩整体情况的时候,我们会使用平均值。但是如果我们要看的是一段时间内团队成员的收入稳定情况和能力,我们就会看他最近成单的标准差。
同样对应到做管理上比如我做CTO管理程序员的时候我会去留意大家提交代码的节奏。有的人就是喜欢所有事情都到最后一天才完成提交有的人就喜欢平均用力在各个时间段里都有提交。
用标准差来看,你就会发现有的人**标准差非常大,属于突击型选手**;有的人**标准差很小,属于细水长流型选手**。对于标准差比较大的人,他的风险就比较高,因为他有可能最后关头完美完成任务,也有可能拖延症拖到最后事情没有完成,最后整体的平均值都没有达到;而按部就班的人,他的标准差比较小,优势是比较稳定,但是突破性可能不够强。学到这里,你也可以试着评估一下你的工作节奏,你是属于哪一种选手呢?
而在做投资的时候,标准差也是一个重要的风险/收益衡量指标。你看我们在银行储蓄这个利率波动就很小相应地标准差很小股票的波动就会大一些收益的标准差也会比较大你再看比特币一会儿马斯克一句话翻好几倍一会儿跌30%,炒币收益的标准差可能是银行收益标准差的上万倍,股票的上百倍。
所以如果你把钱放在银行标准差较小收益稳定而如果你要去炒币标准差这么大你有可能大赚一大笔也可能赔得血本无归。标准差其实就是代表着一个行业里面的波动情况特别面对一个你不理解的投资产品的时候可以看一下这个产品历史的标准差和你常用的投资品比对一下你心里就有数了。像黄金这种很稳定的产品几个标准差就很大了。比如2013年04月16日黄金大跌路透社分析师约翰·肯普John Kemp感叹黄金波动率[超过6个标准差](https://business.sohu.com/20130416/n372827470.shtml),觉得非常不可思议。
像黄金一类很少波动的东西出现了这么大的波动达到6个标准差的波动的时候本来稳定的标准差发生了巨大改变我们就把这种事件叫做“**黑天鹅事件**”。这次事件也被后来的人叫做“黄金黑天鹅事件”,所以你下次再看到黑天鹅事件的时候,你要知道这个说法是从标准差这里衍生出来的概念。
## 标准误差
说完标准差,我们来说一下它的孪生兄弟:标准误差。误差这个词我们经常在生活和工作当中提到,说“这个是在我们误差范围里可以接受的。”那么这句话里面提到的“误差范围”说的到底是什么呢?它和标准差是啥关系?
这两个概念经常在很多地方被混淆,以至于很多的统计模型里说的标准差,其实说的是标准误差。这两个概念之间最大的差别其实就是在于,标准差是针对确切一次的已知统计结果,反映的是在一次统计中,个体之间的离散程度,也可以说**标准差是针对具体实例的描述性统计**。
而**标准误差代表一种推论的估计**,它反映的是多次抽样当中样本均值之间的离散程度,也就是反映这次抽样样本均值对于总体期望均值的代表性,它主要是用于推断整体情况预测和推算使用。如果这么说你还是有些分不清这两兄弟,你可以用下面这个两个公式来对照分辨一下。
标准差Standard deviation= 一次统计中个体分数间的离散程度,反映了个体对样本整体均值的代表性,用于描述统计。
标准误差Standard error= 多次抽样中样本均值间的离散程度,反映了样本均值对总体均值的代表性,用于推论统计。
## 标准误差的具体使用
标准误差经常会被用于拿出一部分样品去判断整体产品线的产品质量,或者判断一个事情是不是属于常见范围。
比如说我们常见的六希格玛Six Sigma其实就是指所有的产品质量问题需要控制在6个标准误差里面。你听到的产品质量或者运维故障控制在3个9或者5个9说的也是误差范围。5个9的意思就是99.99966%的产品是没有品质问题的。
这个是99.99966%怎么算出来的呢这就涉及我们06讲里正态分布的知识你要是记不清了可以回过头再复习一下。
比如说我们用下面这个图做质量控制那么这些值就是标准误差范围。例如我们说在一个标准误差范围里大概就是图里面的68.3%两个标准误差范围里也就是距离均值标准件的95.4%三个标准误差就是99.7%6个标准误差也就是6-sigma也就代表着要控制到在生产的产品中有99.99966%的产品是没有品质问题的每一百万件产品中只有3.4件有缺陷)。
![](https://static001.geekbang.org/resource/image/4e/76/4ef30be06631dc0e2a439ecd55eb1676.png?wh=963x516)
所以说我们从标准误差来看系统的稳定性要保证5个9、6个9或者说我们开发的代码的质量控制是6-sigma这个质量就非常好了。这么说可能你还没有感觉我再给你做个比喻帮助你理解一下。
帅哥美女其实在社会里面是非常难得一见的,毕竟我们绝大部分都是普通人。我们先假设人类美丽和帅的程度随机分布(整容的人没那么多),如果你每天见到一个美女(帅哥),那么有如下公式成立:
* 1个标准误差的美女约为3天一遇
* 2个标准误差的美女为约22天一遇
* 3个标准误差的美女约为370天一遇
* 4个标准误差的美女约为43年一遇
* 5个标准误差的美女约为4779年一遇
* 6个标准误差的美女约为139万年一遇
* 7个标准误差的概率约为10亿年一遇。
这样看你就知道6个标准误差有多么严格了。你下次遇到一个特别美丽的女孩子你觉得她是万年一遇的美女的时候你可以和她说“啊你是6个标准差一遇的美女啊”这肯定比说“你真美丽”要有深度得多她肯定会对你学识非常敬仰开个玩笑真说估计会被打出去。这样你应该知道标准误差是一个什么含义了。
## 小结
好,回顾一下今天的内容,今天主要给你讲了两个概念:标准差和标准误差。
标准差针对已经发生的事情,它是平均值的一个补充标准。而标准误差是多次抽样当中对样本离散程度的描述,用于推论中使用。在后面的内容里,我们还会用到这两兄弟来评估和衡量一个算法的稳定性以及实现结果的好坏。
看一个人、一个企业、一个投资产品靠不靠谱,除了人办事情的成功率、企业收入平均值和产品的盈利率,你还要看它标准差是怎样的。有可能这个所谓的“成功人士”只成功了一次,赚了一大笔钱,但是其实别的事他都失败了,那说明这人的标准差很大,有可能他就是靠运气,不太靠谱。我们中国人其实是比较喜欢“中庸”的这种感觉,用标准差的视角来看,就是自己做事做人的标准差要小。
对标准误差来说,我送你一个成语,叫做“严于律己,宽于待人”。前半句是指我们在工作和生活中,要尽量少出错,甚至是不犯错,这样不仅做事漂亮,领导喜欢,而且这种不断追求完美的理念,会一直推着我们往前跑。你可以试试,把六西格玛的思想不仅用在工作中,也用在生活里,对自己高标准、严要求一段时间,相信你会获得更进一步的成长。后半句是说,躺平无罪,奋斗有理。我们可以用六个标准误差来要求自己,但是别人也有用一个标准误差要求自己的自由。
如果用一句话来概括,**希望你尽量把自己做人做事的标准差变小,提高对自己的标准差预期。**
数据给你一双看透本质的眼睛,数据知识学无止境,让我们一起持续学习,一起共勉。
## 课后思考
你过去遇到过什么黑天鹅事件吗?从你的角度看,它是几个标准误差的范围呢?欢迎你在评论区分享你的想法,我们一起提高。
## 附录:方差及标准差公式
![](https://static001.geekbang.org/resource/image/a0/48/a035dcaaaccd8bfc7d9b8a69a0ac9548.png?wh=2228x424)