You cannot select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.

36 lines
5.6 KiB
Markdown

This file contains ambiguous Unicode characters!

This file contains ambiguous Unicode characters that may be confused with others in your current locale. If your use case is intentional and legitimate, you can safely ignore this warning. Use the Escape button to highlight these characters.

# 结束语聊聊我的SRE落地心路历程
你好,我是赵成,不知不觉我们已经来到了结束语,非常感谢你的一路陪伴。
学完咱们的专栏我想对于SRE到底是怎么一回事儿这个问题你应该有一个大致的了解了。就像我们在开篇词中提到的**SRE真的没有那么神秘**你平时在做的很多事情本身就属于SRE的范畴学到这里你应该对此深有体会了。
其实这个感受我也是在不断实践的过程中总结出来的。刚接触这个概念的时候立马被它吸引但同时也觉得这东西有点儿高大上自己有种心有余而力不足的感觉。幸好和团队一起就是一点一点死磕解决一个又一个具体的问题然后因为一直有这样一个大的框架和目标在那里最后慢慢发现这个框架居然已经落地得差不多了。如果总结下我自己实践SRE的心路历程我觉得王阳明《传习录》里的“**知者行之始,行者知之成**”就特别恰当、准确。
你是不是在想,这不就是知行合一嘛,也没啥特殊啊!嗯,确实是,听起来、说起来都挺简单的,但是很多时候我们想要做到还真不容易。
其实,在学习这个课程的过程里,我们也需要知行合一,从知出发,到行完成一个闭环,然后积累新的知,把这个知行的循环一直继续下去。
这么说有点抽象这里我特别举咱专栏里一位同学的例子。这位同学名字叫胡凯他一边学习课程一边和我探讨一些SRE问题。每次提问他总是可以带着具体场景和具体问题非常有针对性而且针对不同的场景他又会有自己的一些见解和解决方案然后在与我讨论的过程中不断迭代优化他的思路和方案特别是在SLO设定这一块因为很多监控指标都是现成的他马上就根据我们课程里给出的VALET方法整理出了一个新的表格这种从更多SLO维度分析稳定性的方法一下子就解答了他之前一直以单一维度判断稳定性的很多疑惑和问题。
像胡凯这样的同学,我们专栏里还有很多,大家都提出了非常好的问题,也分享了自己的思考和总结。这个我们一起交流探讨的过程,对于我来讲也是一次难得的学习机会,我想这就是“教学相长”的意义吧。
那么接着这个话题我再唠叨几句我的期待吧。这个课程基础篇的几讲是我花费心思最大的内容因为我想从基础上就讲明白SRE的一些概念和理论。说实话这部分内容也是需要你花费很大的精力和实践去消化的。如果你之前有过一些实践再结合我们的课程去看的时候你会发现理解起来就会轻松很多也会有更多的收获如果你现在还没有那么多的实践这些内容你理解起来还没那么直观那接下来就要抓住工作中的具体场景和问题先去实践下再回过头来看这几讲到时候你肯定会有不一样的理解我也会在这里继续等你提出更好的问题来。
所以你看,对于我们从书本、课程中学习到的知识,要想把它们真正地转化为自己的能力,唯一的方法就是实践、思考、优化实践,并且不断重复这个过程。
对于我们要学习的SRE来说也是这样。我认为很多人之所以没能好好落地SRE一个最大的障碍不是技术难度、甚至不是组织架构和文化等问题而是大家先把自己局限在了概念上很多人深深地沉浸在SRE到底是什么它跟现在非常流行的DevOps、AIOps、混沌工程以及各类中台的概念到底是怎样的一个关系我们该怎么选……**纠结在这样那样的问题中,结果就是在问题漩涡中停滞不前,迈不出第一步,那就永远都走不前去**。
这时候应该怎么做呢?我的建议就是,从你遇到的实际问题出发,从你所在的实际场景出发,解决问题,满足场景需求,先做起来再说,然后参考优秀的实践案例和分享,再做优化和调整。
其实在蘑菇街实践SRE的时候我们也不是天天把SRE挂在嘴边也不是动不动就提DevOps、AIOps这些名词的相反我们提到的更多是面对某个场景我们的容量评估应该怎么做细化到每个应用、每个接口上限流阈值是多少降级和熔断的具体判断策略是怎么样的发生故障时我们Step by Step的响应过程应该是怎么样的需要哪些人参与大家应该怎么协作对于监控怎么才能更准确需要用到什么具体算法参数应该怎么设定……
你看这些问题基本都是针对具体问题和具体场景的而且针对这些问题和场景业界都已经有非常多的经验和案例供我们参考了也就是我们大有可为的地方太多了。你可以设想一下如果这些问题都能够解决得很好我们是不是就已经达到了SRE的标准了呢我们是不是就已经是SRE了呢
我想答案是肯定的。
好了到这里我们专栏的内容就全部结束了。Google给我们呈现的SRE是理论性的、指导性的业内在这方面的实践还是相对稀缺。想要更好地落地SRE那就需要我们每一个团队和每一个热爱SRE的同行一起实践、一起总结、一起分享。
那还等什么SRE并不神秘让我们一起探索出一条适合我们自己的SRE实践之路。
[![](https://static001.geekbang.org/resource/image/0f/77/0ff24b3805b9494193071ab274498777.jpg)](https://jinshuju.net/f/LpoFKG)