你好,我是赵成,不知不觉我们已经来到了结束语,非常感谢你的一路陪伴。
学完咱们的专栏,我想对于SRE到底是怎么一回事儿这个问题,你应该有一个大致的了解了。就像我们在开篇词中提到的,SRE真的没有那么神秘,你平时在做的很多事情本身就属于SRE的范畴,学到这里,你应该对此深有体会了。
其实这个感受我也是在不断实践的过程中总结出来的。刚接触这个概念的时候立马被它吸引,但同时也觉得这东西有点儿高大上,自己有种心有余而力不足的感觉。幸好和团队一起,就是一点一点死磕,解决一个又一个具体的问题,然后因为一直有这样一个大的框架和目标在那里,最后慢慢发现,这个框架居然已经落地得差不多了。如果总结下我自己实践SRE的心路历程,我觉得王阳明《传习录》里的“知者行之始,行者知之成”就特别恰当、准确。
你是不是在想,这不就是知行合一嘛,也没啥特殊啊!嗯,确实是,听起来、说起来都挺简单的,但是很多时候我们想要做到还真不容易。
其实,在学习这个课程的过程里,我们也需要知行合一,从知出发,到行完成一个闭环,然后积累新的知,把这个知行的循环一直继续下去。
这么说,有点抽象,这里我特别举咱专栏里一位同学的例子。这位同学名字叫胡凯,他一边学习课程,一边和我探讨一些SRE问题。每次提问,他总是可以带着具体场景和具体问题,非常有针对性,而且针对不同的场景,他又会有自己的一些见解和解决方案,然后在与我讨论的过程中,不断迭代优化他的思路和方案,特别是在SLO设定这一块,因为很多监控指标都是现成的,他马上就根据我们课程里给出的VALET方法,整理出了一个新的表格,这种从更多SLO维度分析稳定性的方法,一下子就解答了他之前一直以单一维度判断稳定性的很多疑惑和问题。
像胡凯这样的同学,我们专栏里还有很多,大家都提出了非常好的问题,也分享了自己的思考和总结。这个我们一起交流探讨的过程,对于我来讲也是一次难得的学习机会,我想这就是“教学相长”的意义吧。
那么,接着这个话题,我再唠叨几句我的期待吧。这个课程基础篇的几讲是我花费心思最大的内容,因为我想从基础上就讲明白SRE的一些概念和理论。说实话,这部分内容也是需要你花费很大的精力和实践去消化的。如果你之前有过一些实践,再结合我们的课程去看的时候,你会发现理解起来就会轻松很多,也会有更多的收获;如果你现在还没有那么多的实践,这些内容你理解起来还没那么直观,那接下来就要抓住工作中的具体场景和问题,先去实践下,再回过头来看这几讲,到时候你肯定会有不一样的理解,我也会在这里,继续等你提出更好的问题来。
所以你看,对于我们从书本、课程中学习到的知识,要想把它们真正地转化为自己的能力,唯一的方法就是实践、思考、优化实践,并且不断重复这个过程。
对于我们要学习的SRE来说,也是这样。我认为很多人之所以没能好好落地SRE,一个最大的障碍不是技术难度、甚至不是组织架构和文化等问题,而是大家先把自己局限在了概念上,很多人深深地沉浸在SRE到底是什么,它跟现在非常流行的DevOps、AIOps、混沌工程以及各类中台的概念到底是怎样的一个关系?我们该怎么选?……纠结在这样那样的问题中,结果就是在问题漩涡中停滞不前,迈不出第一步,那就永远都走不前去。
这时候应该怎么做呢?我的建议就是,从你遇到的实际问题出发,从你所在的实际场景出发,解决问题,满足场景需求,先做起来再说,然后参考优秀的实践案例和分享,再做优化和调整。
其实,在蘑菇街实践SRE的时候,我们也不是天天把SRE挂在嘴边,也不是动不动就提DevOps、AIOps这些名词的,相反,我们提到的更多是面对某个场景,我们的容量评估应该怎么做?细化到每个应用、每个接口上限流阈值是多少,降级和熔断的具体判断策略是怎么样的?发生故障时,我们Step by Step的响应过程应该是怎么样的?需要哪些人参与?大家应该怎么协作?对于监控,怎么才能更准确?需要用到什么具体算法,参数应该怎么设定?……
你看,这些问题基本都是针对具体问题和具体场景的,而且针对这些问题和场景业界都已经有非常多的经验和案例供我们参考了,也就是我们大有可为的地方太多了。你可以设想一下,如果这些问题都能够解决得很好,我们是不是就已经达到了SRE的标准了呢?我们是不是就已经是SRE了呢?
我想答案是肯定的。
好了,到这里,我们专栏的内容就全部结束了。Google给我们呈现的SRE是理论性的、指导性的,业内在这方面的实践还是相对稀缺。想要更好地落地SRE,那就需要我们每一个团队和每一个热爱SRE的同行一起实践、一起总结、一起分享。
那还等什么,SRE并不神秘,让我们一起探索出一条适合我们自己的SRE实践之路。