gitbook/从0开始学架构/docs/11947.md

86 lines
9.4 KiB
Markdown
Raw Permalink Normal View History

2022-09-03 22:05:03 +08:00
# 40 | 互联网架构模板:“存储层”技术
很多人对于BAT的技术有一种莫名的崇拜感觉得只有天才才能做出这样的系统但经过前面对架构的本质、架构的设计原则、架构的设计模式、架构演进等多方位的探讨和阐述你可以看到其实并没有什么神秘的力量和魔力融合在技术里面而是业务的不断发展推动了技术的发展这样一步一个脚印持续几年甚至十几年的发展才能达到当前技术复杂度和先进性。
抛开BAT各自差异很大的业务站在技术的角度来看其实BAT的技术架构基本是一样的。再将视角放大你会发现整个互联网行业的技术发展最后都是殊途同归。
如果你正处于一个创业公司或者正在为成为另一个BAT拼搏那么深入理解这种技术模式或者叫技术结构、技术架构对于自己和公司的发展都大有裨益。
互联网的标准技术架构如下图所示,这张图基本上涵盖了互联网技术公司的大部分技术点,不同的公司只是在具体的技术实现上稍有差异,但不会跳出这个框架的范畴。
![](https://static001.geekbang.org/resource/image/60/91/603bfbe7aee29228b4bc3972ac874991.jpg)
从本期开始,我将逐层介绍每个技术点的产生背景、应用场景、关键技术,有的技术点可能已经在前面的架构模式部分有所涉及,因此就不再详细展开技术细节了,而是将关键技术点分门别类,进而形成一张架构大图,让架构师对一个公司的整体技术架构有一个完整的全貌认知。
今天我们首先来聊聊互联网架构模板的“存储层”技术。
## SQL
SQL即我们通常所说的关系数据。前几年NoSQL火了一阵子很多人都理解为NoSQL是完全抛弃关系数据全部采用非关系型数据。但经过几年的试验后大家发现关系数据不可能完全被抛弃NoSQL不是No SQL而是Not Only SQL即NoSQL是SQL的补充。
所以互联网行业也必须依赖关系数据考虑到Oracle太贵还需要专人维护一般情况下互联网行业都是用MySQL、PostgreSQL这类开源数据库。这类数据库的特点是开源免费拿来就用但缺点是性能相比商业数据库要差一些。随着互联网业务的发展性能要求越来越高必然要面对一个问题将数据拆分到多个数据库实例才能满足业务的性能需求其实Oracle也一样只是时间早晚的问题
数据库拆分满足了性能的要求,但带来了复杂度的问题:数据如何拆分、数据如何组合?这个复杂度的问题解决起来并不容易,如果每个业务都去实现一遍,重复造轮子将导致投入浪费、效率降低,业务开发想快都快不起来。
所以互联网公司流行的做法是业务发展到一定阶段后,就会将这部分功能独立成**中间件**例如百度的DBProxy、淘宝的TDDL。不过这部分的技术要求很高将分库分表做到自动化和平台化不是一件容易的事情所以一般是规模很大的公司才会自己做。中小公司建议使用开源方案例如MySQL官方推荐的MySQL Router、360开源的数据库中间件Atlas。
假如公司业务继续发展规模继续扩大SQL服务器越来越多如果每个业务都基于统一的数据库中间件独立部署自己的SQL集群就会导致新的复杂度问题具体表现在
* 数据库资源使用率不高,比较浪费。
* 各SQL集群分开维护投入的维护成本越来越高。
因此实力雄厚的大公司此时一般都会在SQL集群上构建SQL存储平台以对业务透明的形式提供资源分配、数据备份、迁移、容灾、读写分离、分库分表等一系列服务例如淘宝的UMPUnified MySQL Platform系统。
## NoSQL
首先NoSQL在数据结构上与传统的SQL的不同例如典型的Memcache的key-value结构、Redis的复杂数据结构、MongoDB的文档数据结构其次NoSQL无一例外地都会将性能作为自己的一大卖点。NoSQL的这两个特点很好地弥补了关系数据库的不足因此在互联网行业NoSQL的应用基本上是基础要求。
由于NoSQL方案一般自己本身就提供集群的功能例如Memcache的一致性Hash集群、Redis 3.0的集群因此NoSQL在刚开始应用时很方便不像SQL分库分表那么复杂。一般公司也不会在开始时就考虑将NoSQL包装成存储平台但如果公司发展很快例如Memcache的节点有上千甚至几千时NoSQL存储平台就很有意义了。首先是存储平台通过集中管理能够大大提升运维效率其次是存储平台可以大大提升资源利用效率2000台机器如果利用率能提升10%就可以减少200台机器一年几十万元就节省出来了。
所以NoSQL发展到一定规模后通常都会在NoSQL集群的基础之上再实现统一**存储平台**,统一存储平台主要实现这几个功能:
* 资源动态按需动态分配例如同一台Memcache服务器可以根据内存利用率分配给多个业务使用。
* 资源自动化管理例如新业务只需要申请多少Memcache缓存空间就可以了无需关注具体是哪些Memcache服务器在为自己提供服务。
* 故障自动化处理例如某台Memcache服务器挂掉后有另外一台备份Memcache服务器能立刻接管缓存请求不会导致丢失很多缓存数据。
当然要发展到这个阶段一般也是大公司才会这么做简单来说就是如果只有几十台NoSQL服务器做存储平台收益不大但如果有几千台NoSQL服务器NoSQL存储平台就能够产生很大的收益。
## 小文件存储
除了关系型的业务数据互联网行业还有很多用于展示的数据。例如淘宝的商品图片、商品描述Facebook的用户图片新浪微博的一条微博内容等。这些数据具有三个典型特征一是数据小一般在1MB以下二是数量巨大Facebook在2013年每天上传的照片就达到了3.5亿张三是访问量巨大Facebook每天的访问量超过10亿。
由于互联网行业基本上每个业务都会有大量的小数据,如果每个业务都自己去考虑如何设计海量存储和海量访问,效率自然会低,重复造轮子也会投入浪费,所以自然而然就要将小文件存储做成统一的和业务无关的平台。
和SQL和NoSQL不同的是小文件存储不一定需要公司或者业务规模很大基本上认为业务在起步阶段就可以考虑做小文件统一存储。得益于开源运动的发展和最近几年大数据的火爆在开源方案的基础上封装一个小文件存储平台并不是太难的事情。例如HBase、Hadoop、Hypertable、FastDFS等都可以作为小文件存储的底层平台只需要将这些开源方案再包装一下基本上就可以用了。
典型的小文件存储有淘宝的TFS、京东JFS、Facebook的Haystack。
下图是淘宝TFS的架构
![](https://static001.geekbang.org/resource/image/36/17/369dd4cc0835b109f01e22bf8e7f3317.jpg "图片来自网络")
## 大文件存储
互联网行业的大文件主要分为两类一类是业务上的大数据例如Youtube的视频、电影网站的电影另一类是海量的日志数据例如各种访问日志、操作日志、用户轨迹日志等。和小文件的特点正好相反大文件的数量没有小文件那么多但每个文件都很大几百MB、几个GB都是常见的几十GB、几TB也是有可能的因此在存储上和小文件有较大差别不能直接将小文件存储系统拿来存储大文件。
说到大文件特别要提到Google和YahooGoogle的3篇大数据论文Bigtable/Map- Reduce/GFS开启了一个大数据的时代而Yahoo开源的Hadoop系列HDFS、HBase等基本上垄断了开源界的大数据处理。当然江山代有才人出长江后浪推前浪Hadoop后又有更多优秀的开源方案被贡献出来现在随便走到大街上拉住一个程序员如果他不知道大数据那基本上可以确定是“火星程序员”。
对照Google的论文构建一套完整的大数据处理方案的难度和成本实在太高而且开源方案现在也很成熟了所以大数据存储和处理这块反而是最简单的因为你没有太多选择只能用这几个流行的开源方案例如Hadoop、HBase、Storm、Hive等。实力雄厚一些的大公司会基于这些开源方案结合自己的业务特点封装成大数据平台例如淘宝的云梯系统、腾讯的TDW系统。
下面是Hadoop的生态圈
![](https://static001.geekbang.org/resource/image/54/46/5484d6ae1d82a64eb31285da58367e46.jpg)
## 小结
今天我为你讲了互联网架构模板中的存储层技术,可以看到当公司规模发展到一定阶段后,基本上都是基于某个开源方案搭建统一的存储平台,希望对你有所帮助。
这就是今天的全部内容,留一道思考题给你吧,既然存储技术发展到最后都是存储平台,为何没有出现存储平台的开源方案,但云计算却都提供了存储平台方案?
欢迎你把答案写到留言区,和我一起讨论。相信经过深度思考的回答,也会让你对知识的理解更加深刻。(编辑乱入:精彩的留言有机会获得丰厚福利哦!)