May 12 2016

浅谈互联网数据架构

常见数据库架构
数据架构优化的顺序

今天我们来说一下一般互联网的的数据库的问题，以及随着业务发展的对应的一些常见的解决方案。

常见数据库架构

一主多从（读写分离，master负责写的操作，多台slave做读的操作）大部分互联网公司都是采用这样的数据库架构，这样的架构的优点就是容易提高读的性能（通过增加读库），缺点就是写库存在单点故障，读库越多的话，主从同步的时间就越长，存在不一致的窗口就越长。对于大部分互联网业务来说都是读多写少的逻辑，这种架构是非常适合的。魅族现在大部分业务用的就是这样的一种架构。
双主做主从（就是读写都在master，另外一台做standby高可用）读写都在主库，然后加一台standby做高可用，这样的结构的优点就是读写都在同一台机器，避免了数据不一致的情况，缺点很明显，没办法扩展读性能。我重点说一句：**并没有最优的架构，只有适合的架构！**如果有最优的架构直接用最优的架构就行，其他的架构就没必要存在了。
双主多从（写库做高可用，多台读）

在一主多从的架构上，为了主库的高可用引入了另一台写的主库，这个比较蛋疼，为了1%的主库挂掉的可能而引入了80%的复杂性。双写库带来的问题有同步延迟，数据不一致的情况，如果同一张的表的Id是自增的有可能导致Id一样带来dulipcate key错误（可以用全局唯一ID中间件来生成ID，或者两个库的自增ID的步长不一样的）。事实上双主多从的这种结构带来的复杂性多多，对业务的快速迭代也有诸多不利，不建议使用。

数据架构优化的顺序

第一优化你的SQL以及索引
第二就是加缓存，Redis，Memcache
读写分离，增加读库数量以提高读性能
垂直拆分
水平拆分

##第一优化你的SQL以及索引## 首先，为了提高数据库的读写性能，不要一上来就想各种拆分，首先当然是先优化的SQL，数据库只负责简单的增删查改，把复杂的操作丢给service层。有些字段有必要冗余就冗余不要做大表join操作，以空间换时间。

索引也不是越多越好，根据业务的需要，创建合理的索引。有时索引也会降低性能的，比如在写库创建索引，每插入一条记录，索引就要重建，这样的话反而降低了效率，所以针对不停的读写库，建立索引也要有策略。不同的库建立不同的索引，写库可以不建索引，给外网接口的读库的索引尽量少而准，运营后台的读库可以根据查询需要建多个索引

✔加缓存

缓存是个万精油啊，热数据放在缓存里面，Redis的GET操作在一般的key-val长度的QPS已经达到5W+。缓存确实是提高性能的万精油。加入缓存当然会引入一些新的问题：

更新操作是先淘汰缓存还是新更新数据，可以肯定的说：必须是先淘汰缓存，再更新数据库，为什么呢，为了避免如果更新数据库成功，但是淘汰缓存失败带来的脏数据。
主从缓存不一致 当更新主库的数据库和缓存时，由于从库同步需要时间的。所以从库读到旧的数据会重新入到缓存里面，这时就出现了脏数据。解决这个问题的做法就是：缓存双淘汰，设置缓存过期时间。
缓存双淘汰，设置缓存过期时间缓存双淘汰在淘汰第一次的之后，发送一个MQ消息在同步的时间窗口结束之后再一次淘汰一下缓存。这样就不会出现脏数据。当然如果可以容忍在一定时间期内读到脏数据的话，我们可以通过设置过期时间来淘汰缓存，事实上这种做法是非常可取的，大部分互联网业务也是可以容忍在一定时间期限读到旧数据的。

✔读写分离

读写分离这种很常见，为了提高读的性能冗余写库。

✔垂直拆分

当业务发展到一定的程度的话，用户量上去的时候，我们就有必要对业务进行拆分了。业务的垂直拆分当然涉及到数据库的拆分：数据库的表拆分成不同数据库的表分配到不同的业务，同一个表的字段拆分成不同的表分配到不同的业务。

✔水平拆分

当一个表记录达到千万，亿级别的时候，就有必要进行水平拆分，水平拆分可以是分表或者是分库。但是最重要的是还是在sharding的时候选择合适的key用来分库分表，由于水平分片，查询这一块就更讲究技巧，不同逻辑可能查询同一张表的维度是不一样的，这时分表分库之前用来sharding的库就不一定是适合的，所以还是那个做法空间换时间，通过用不同的sharding的key来分库分表，不同维度的数据冗余，方便不同业务逻辑的需要。

CXT's Blog

CLKBKB的个人博客，记录生活与技术的点滴！