gitbook/技术管理案例课/docs/291930.md

# 18 | 组织管理：如何突破团队效率提升的三大关？

    你好，我是许健。今天我们来谈谈如何提高团队效率。

关于提高团队效率，我先和你分享一个故事吧。这次新冠疫情期间，我回顾了自己这八年做云计算的经历，我觉得我们的团队做得非常累，我们团队的工作时长在eBay中国研发中心一定是排在前面的，但是我们的口碑却不一定最好。

为什么这么说呢？因为同僚和领导承认我们很辛苦，却不觉得我们很优秀，从客户满意度、工程卓越性来说，我们取得的成效都和我们的付出不成正比。

为了提高效率，我们也多次抓过可靠性、代码质量、搞CICD，连执行组织形式也尝试过多次变更，但是我觉得做这些事情都不是最最关键的。事实上，当我们去总经理那里汇报组织提效方案时，得到的反馈是“**没有触及灵魂**”。

这个反馈对我的触动还是蛮大的，我开始认真地反思组织没效率，问题到底出现在哪里？

我这个人很喜欢从历史里汲取教训，于是就把我们这三代云计算系统的经历排了一遍，分析哪些事情做得好，哪些事情做得差，然后对比它们之间的区别，最后总结了提高组织效能的三个关键问题。接下来我们就来详细聊一聊。

## 1.选择正确的事情

踏上管理岗位以后，你有没有意识到你的一个决定下去，会直接影响少则几个人、多则几十个人，少则几个月、多则半年甚至数年的投入呢？

**很多时候，做正确的事情，远比正确地做事更重要。**做经理的，想要提升团队效率，首先就要看清楚我们身在何处，又想去向何方。

那怎么定义什么才是正确的事呢？我给你分享一个思路，就是做决定时反问一下，如果这是你自己拥有的公司，员工的工资都是你自己掏的，你还会这么决定吗？

我回顾云计算这些年在eBay的变迁，我们不是做得太少了，而是做得太多了。我们有的项目是技术驱动然后绑架客户来用，而不是真的客户需要，接下来我给你分享三个具体的故事来说明这一点。

第一件事儿，就是我们把内部的云计算CICD从Jenkins改成了Prow，这件事儿投入了我们很大的精力。我认为影响云计算团队交付效率的关键在于测试环境不够稳定，边界测试和性能测试的测试框架不够健全。我们总可以列出Prow优于Jenkins的点，但这是解决团队交付效率问题的核心吗？

第二件事，我们启动了Account Resource Quota，我承认公有云系统的资源都是属于Account 的，我们也列了很好的交付目标，比如可以让每一个业务部门自己管理自己的预算，从而帮助Capacity团队提高管理效率。

但后来Capacity团队的负责人却告诉我，他们最大的痛点不是缺乏按账户管理，而是如何在保证资源利用率的前提下，加快业务部门获取资源的速度。也就是说如果财务模型不转换成每个部门单独结算的话，就算我们把系统做成按每个部门的账户结算，也不会提高资源利用效率。看来单单从Account角度变更Capacity的管理方式，并没有解决用户真正的痛点。

第三件事，我们做了好几代网络管理系统了。在这个过程中，模型驱动是不停在强调的一个标准，模型驱动其实没有问题，但问题是花了这么大力气做系统变更以后，长期困扰我们的难点（比如安全流量迁移、网段分配冲突和泄漏）并没有得到解决。而且我们在搞出新系统的过程中，并没有干掉上一代系统，甚至更上一代的系统现在还在生产环境运行。

从刚才讲的三件事儿中，你可以看得出来，我们只是在积极地做事儿，但并没有选择做正确的事情，这些事儿的共性就是**投资收益比不高**，却白白花费了团队很多精力。所以，在我们做决策以前，必须先理清做什么才是正确的事儿。

那什么叫正确的事情呢？**我认为正确的事情就是在做决策的那个时刻，管理者所能选择的可以最大化交付业务价值的事情。并且这个业务价值不是管理者主观认定的业务价值，而应该是客户认可的业务价值。**

其实我自己整理了一个文档帮助我理清思路，文档中的例子还不止上面这些，也不仅仅限于云计算部门。这里的关键点是第一出发点的选择问题，就是说技术经理要从客户认可的最终业务价值考虑，而不是把技术先进性当作第一出发点。只有从最终的业务价值出发，我们后面的努力才有意义，组织效率才能真正提高。

凡是可以从根本上提高组织效率的事情都不简单，那么我们想干掉那些“不正确的事情”，难点在哪里呢？

第一个难点在于凡是有能力在组织内提出新项目，甚至有能力组织一部分员工做雏形系统的人，一般都是组织内能力较强的人。如果技术经理经过评估后要关停这些人的项目，抽走支撑这些项目的资源，很大可能会让这些骨干很不爽，那我们有没有这个感情强度和能力落实呢？

第二个难点是也不乏有些项目就是我们技术经理自己启动的。我们有这个气量来承认自己之前错了，然后纠正自己的错误，而不是不停去找理由证明自己是对的吗？

难点列出来了，我们要怎么解决呢？虽然有些一言难尽，但这里的本质问题就是做好冲突管理。我们要在组织内部统一思想和认识，有魄力“下刀”。因为我们一旦确认了某些事情不是我们要选择的方向，那再做这些事情不仅毫无意义，而且还会浪费企业的资源，要知道在错误的路上走得快还不如在原地不动，所以我们必须删除这些项目。

## 2.选择合适的技术方案

前面说的留下高收益比的项目，是决定了我们到底做什么，那么选出合适的技术方案，就决定了我们怎么做。

**不打移动靶**

我先说说方案选择的关键原则，**技术方案的选择请务必直指核心问题的解决，不要打移动靶，不要去追求技术的纯粹性导致不断扩大战局****，最终造成****投入成本的快速增长**。

为了让你理解这一点，我就拿C3（基于Openstack的云计算平台）到Tess（基于Kubernetes的云计算平台）的迁移为例做个说明。

假设C3环境下我们要创建一个带有100个虚拟机的应用，那么就要先准备100个虚拟机，然后一个批量操作把负载均衡器配置好，后续部署代码的时候重用这100个虚拟机。也就是说，多次代码部署的时候不用重建虚拟机或更改IP。

可是迁移到Tess以后，每一个POD创建完成都会触发一次负载均衡操作（加LB Member），Tess不是Fire-and-Forget（发后即忘）模式，而是不停地进行Reconcile。Kubernetes Native每次部署时都会重新创建所有POD，而在胖容器环境更换Image也是需要重建全部POD的。在这个过程中，其实API的调用次数是明显高于原来的C3环境的。

现实情况是，并非整个生态都已经在Tess上，我们还有很多外围系统。所以我们耗费了大量时间试图解决性能问题。我给你说说当时我们的尝试过程：

*   第一回合，首先我们把Tess调用LBMS（Load Balancer Management Service）的方式改成了Bulk Call，并且让LBMS去除了多余的输入有效性检验来换取性能，但还是不行，于是我们又联系数据中心添置额外的LB硬件设备来分摊调用量。
*   第二回合，硬件扛住了，可是我们的配置管理系统CMS Sync在高压下还是会出现数据不一致问题，改了好几版这些才解决掉这个问题。
*   第三回合，解决了数据不一致，我们又发现重建POD后的胖容器还需要重新部署代码，于是CMPAAS（eBay的代码部署工具）Schedule性能问题就因为不堪重负而暴露出来了.……

我们本来只是上一个新系统，结果变成了要改造整个生态。在这个过程中我们的实施成本成倍增长，最后的交付时间一拖再拖。回过头来看，**我们是不是需要思考一下，当引入一个新的系统的时候，到底最看中的是什么？**

我们看中Docker的“Build Once，Run Anywhere”（一次编译，随处运行），看中Kubernetes的Spec Driven（规范驱动），而在这个例子里，Rolling Upgrade是否需要坚持POD和对应的IP重建值得商榷。

很巧合的是类似事件屡见不鲜，所以我们一定要提高警惕。最近我还在跟总部一位同事讨论，我们一个项目的核心只是为了给Squid的Proxy 加上ACL， 但是为什么谈着谈着，就变成了要把整个Squid集群换成Envoy集群呢？这么多年来这样的事情发生得太多了，其模式如下：

一开始，我们要解决问题A，大家都认同A是值得解决的；接下来，解决问题时我们偏向新技术，觉得能搞定新技术，结果在过程中还想顺带解决别的问题，而且搞定新技术的时间超过预期。再然后业务突然有需求，新技术栈还没有好，只能让老技术栈来扛，这时人手已调往新技术；最后总是祸不单行，老技术栈扛不住业务突发需求，拖死。

所以我给你简单总结一下，做技术经理的一定要时刻提醒自己，我一开始启动这个项目的初衷和想解决的问题是什么，我够不够专注，特别是在项目推进中碰到周围干扰时我有没有坚持足够专注？有没有把一开始想要解决的问题**踏踏实实地解决彻底。**

**突破关键瓶颈**

刚才我给你讲了方案选择的关键原则——不打移动靶，专注于一开始要解决的问题。但是除了这个原则，我们还需要解决关键瓶颈怎么突破的问题。要知道，决定整个战役成败的，往往就是那一两场关键战斗。

我先和你分享一个故事吧，我们的监控组交付Metrics耗时了四年，记得对这件事做复盘的时候，副总觉得最最关键的问题是团队不够专注，所以他决定停掉监控组所有的项目，强迫监控组只专注Metrics这一件事上。

但我跟副总说，对于监控的复盘我有不同的看法，关键瓶颈没有突破，就算停掉所有的工作专注Metrics还是不行的。我为什么提出这样的看法呢？我们先看看监控组在Metrics上的历程：

第一版是基于Storm来实现的流式处理引擎。

第二版我们发现眼下Flink才是趋势并且觉得Flink有很多优点，但是因为改造成本过大，于是选择了Storm On Flink的方式。

第三版又有变化，因为第二版走到后来发现Storm On Flink有很多限制，于是决定走Native Flink模式。

第四版，这时美国的一位资深架构师M指出公司内已经有很多部门在使用Prometheus ，我们也意识到我们基于Flink的实施方案有问题。因为这个方案需要自主开发处理各类时序数据的函数，但我们没有足够的投入可以去开发这么多各式各样的函数。于是开始转为解决Prometheus的高扩展下的性能问题。

这四版的历程我刚才给你交代时只是简短的几句话，但实际过程都是我们团队以年为单位计数的成本投入，直到第四版的方向确立后，架构师M亲自实施了Prometheus的扩展原型，性能调优落实到Prometheus内部实现，最终论证了可行性。

**这个关键技术瓶颈解决后，监控组半年就交付了可投入生产环境的成熟时序数据监控方案。**其实整个监控Metrics的交付，核心问题就是高可扩展性下的性能问题，整个团队前期耗时三年半却没有交付，但最后半年就交付了的根本原因是什么？在我看来就是一个高水平技术人员在关键点做了突破。

后来又是这位架构师，确立了使用ClickHouse来构建我们的下一代Events监控方案，可扩展性和性能的问题也一并解决了。

类似的事情还有很多，这些都让我深深意识到从事基础架构工作中要去找关键瓶颈。这类难题只靠堆更多的人是不行的，就是需要高手，要么外面引进，要么内部有合适的人能攻坚。

我一直强调人和事的并行，我们找了高手，也总得搞清楚关键瓶颈在哪里吧，那关键瓶颈到底怎么找到呢？我一般会用这两个问题帮助自己整理定位关键瓶颈：

*   我们的着眼点是不是足够聚焦？不停逼问自己哪一个点突破可以极大提升产品竞争力。注意就只挑一个点。
*   问题真的是关键瓶颈么？关键瓶颈一定不能轻易解决。要么是技术难度极大，要么是关系很复杂，要么要耗时很久……

这个思路怎么落地呢？我们还是用一个实际案例来说明，比如我们监控目前在做**异常检测平台**，需要解决的问题看起来有这3个：

1.根据当前选定的一两个业务的实际生产环境，找到一个可以符合**性能和精度要求**的算法。

2.算法精度所依赖的底层数据质量不过关，所以需要增强算法的**鲁棒性**。

3.找到一种可以**快速自适应不同场景**，并能保证一定精度的算法。

这3个问题第一眼看上去都很重要，但是如果我强制说一定要排一个优先级，并且推断出最高的优先级，就会迫使我们进一步分析筛选。

我们的目标是构建一个平台，产品的竞争力到底在哪里呢？就是异常检测问题解决的投入产出比。也就是说，我们选择突破的点一定是能够让大批客户上线试用的，问题1能够让一两个用户上线但是无法实现大批客户上线，这不能让我们的异常检测成为平台去服务很多人，也就是解决方案的覆盖面不够广。

问题2单独看着挺重要的，但如果和3对比一下，我们就能找到不足了。问题2其实是问题3的必要条件而不是充分条件，因为即使解决了2 还是不能达到大批用户可以上线试用的平台要求。所以最终我们确定了关键瓶颈是3，因为这是将eBay的大量对异常检测有需求的场景，进行平台化解决的关键。

## **3.如何激励好组织内的员工**

确定了团队做什么和怎么做，既然是经理，最终还是要回到人这个话题上来。刚才在突破关键瓶颈的问题上，我也强调了高级别人才的关键作用，那我们经理要怎么激励他们呢？接下来，我结合自己的感受给你说一说：

在相当一段时间内，eBay中国研发中心都很忌讳讲Ownership这个词，我们只强调Responsibility。原因是美国有些领导觉得中国动不动就要跟他们谈Ownership，他们感觉这就是要抢活，没有One Team Mindset。

我最近对这件事有了新的看法，我跟总部的副总和诸多领导都直说了，我觉得只谈责任不谈权力不谈担当是不符合人性的，而且我不认为Ownership 和One Team Mindset 有什么冲突。

以我自己来说，副总最近让我全权负责云计算产品的入口体验，我对这个事情的投入程度和你让我辅助别的领导来做就是不一样的，我不是说我辅助别人就不卖力了，但是卖力程度可以不一样，我花100%的力气你也说不了我什么，问题上你怎么能让我花120% 甚至 200% 的力气呢？

其实答案很简单，**信任和授权**。给高级别员工授权让他们去独立负责一个大项目，给他们自由让他们按照他们的方法去实现目标，用经理的信任去换他们的承诺。

对于部门里我们看好的有潜力的员工，要敢于给机会，要高标准要求，出了问题我们也要兜着，因为对于经理来说，这些潜力股未来的成长更重要。

最后，如果他们真的高质量达到了高标准，不要吝惜奖励，并且要以超出常规的方式去奖励他们。我对比我们部门和数据基础架构部门新人培养速度的差异，为什么他们不断地有明星员工浮现出来？我觉得关键的点就在这里：**我对我们部门有潜力的员工的要求不够高，并且在奖励上不够刺激。**

最后就是淘汰部门内业绩差潜力差的员工。具体的操作方式我在[裁人](https://time.geekbang.org/column/article/284299?utm_source=pinpaizhuanqu&utm_medium=geektime&utm_campaign=guanwang&utm_term=guanwang&utm_content=0511)那一篇谈过了。心要慈，刀要快，有些事我们不喜欢做，但是为了这个组织能够有更好的发展，就是需要去做这些不开心的事情。而且级别越高的经理，最后留给我们去裁的人越难办。

总之，能者上庸者下，为了团队效率的提高，员工激励这件事的原则就是**：赋能有潜力的人才和淘汰业绩差的员工。**

## 总结

组织管理上我们可以定一个基调，所有能从根本上提高组织效率的事情，都一定是高成本、高难度的。

一招鲜吃遍天的绝技不存在，天上掉馅饼的好事更不会存在。“高光时刻”的背后，更多的是在整个过程中无数个平凡的日日夜夜的坚持，在我们成功之前，也要做好没有多少鼓励和关注的心理准备。

在提高组织效率的路上，我们有三大关卡要突破：选择做正确的事情、确定合适的技术方案以及激励好员工。

首先，**正确的事情就是在做决策的那个时刻，管理者所能选择的可以最大化交付业务价值的事情。**要注意，这个业务价值不是管理者主观认定的，而应该是客户认可的。想要干掉“不正确的事儿”，要么会动骨干的蛋糕，要么就是纠正自己的错误，本质上是我们做冲突管理，需要有足够的魄力去落刀。

接下来，决定了做什么后，在具体实施过程中要不停提醒自己目标是什么，然后不停地质问自己，我们的技术方案是否始终聚焦在最开始的那个问题上。不要打移动靶，而是要聚焦。尽量减少依赖，不要轻易扩大问题范围，总之就是减少变量数目。

关键技术点的突破对交付效率的影响是决定性的，我建议你把自己发现的问题写出来做比较分析，结合产品竞争力定位最关键的问题，然后通过外部引入或者内部资源寻找高手攻坚。

在人的问题上我给你分享了三点心得，第一给高级别技术人员授权并且给决定权，第二给高潜质员工更高的标准和火线提拔的机会，第三要淘汰组织内业绩和潜力差的员工。

最后我再强调一下，留给我们解决的问题大多是“硬骨头”，**没有轻轻松松可以提高组织效率的事情。这也正是需要你来做经理的原因。**

## 思考题

公司里说要提升效率，于是提出了测试代码覆盖率，CD覆盖率，手动重复劳动自动化率等指标并要求各部门执行，你怎么来看待这些提效的举措？

我们说到给予高级别员工决定权，你怎么来平衡给予下属的决定权和你作为部门主管经理的控制力？如果他们做出的技术决定跟你想的不一样呢？

欢迎在留言区晒出你在组织管理方面的经历和疑问。如果有收获，也欢迎你把这篇文章分享给你的朋友。