Yupoo（又拍网）的系统架构

2013-5-23 12:28| 发布者: 红黑魂| 查看: 6950| 评论: 0|来自: linux中国

摘要: 　　Yupoo!（又拍网）是目前国内最大的图片服务提供商，整个网站构建于大量的开源软件之上。以下为其使用到的开源软件信息：操作系统：CentOS、MacOSX、Ubuntu服务器：Apache、Nginx、Squid数据库：MySQLmoc{敏感词}、 ...

2、按索引/映射表对应

这种方法是指建立一个索引表，保存每个用户的ID和数据库ID的对应关系，每次读写用户数据时先从这个表获取对应数据库。新用户注册后，在所有可用的数据库中随机挑选一个为其建立索引。这种方法比较灵活，有很好的伸缩性。一个缺点是增加了一次数据库访问，所以性能上没有按算法对应好。

比较之后，Yupoo采用的是索引表的方式，我们愿意为其灵活性损失一些性能，更何况我们还有memcached，因为索引数据基本不会改变的缘故，缓存命中率非常高。所以能很大程度上减少了性能损失。

索引表的方式能够比较方便地添加数据库节点，在增加节点时，只要将其添加到可用数据库列表里即可。当然如果需要平衡各个节点的压力的话，还是需要进行数据的迁移，但是这个时候的迁移是少量的，可以逐步进行。要迁移用户A的数据，首先要将其状态置为迁移数据中，这个状态的用户不能进行写操作，并在页面上进行提示。然后将用户A的数据全部复制到新增加的节点上后，更新映射表，然后将用户A的状态置为正常，最后将原来对应的数据库上的数据删除。这个过程通常会在临晨进行，所以，所以很少会有用户碰到迁移数据中的情况。当然，有些数据是不属于某个用户的，比如系统消息、配置等等，把这些数据保存在一个全局库中。

分库带来的问题如何解决？

分库会给在应用的开发和部署上都带来很多麻烦。

1、不能执行跨库的关联查询

如果我们需要查询的数据分布于不同的数据库，没办法通过JOIN的方式查询获得。比如要获得好友的最新照片，不能保证所有好友的数据都在同一个数据库里。一个解决办法是通过多次查询，再进行聚合的方式。所以需要尽量避免类似的需求。有些需求可以通过保存多份数据来解决，比如User-A和User-B的数据库分别是DB-1和DB-2，当User-A评论了User-B的照片时，我们会同时在DB-1和DB-2中保存这条评论信息，我们首先在DB-2中的photo_comments表中插入一条新的记录，然后在DB-1中的user_comments表中插入一条新的记录。这两个表的结构如下图所示。这样我们可以通过查询 photo_comments表得到User-B的某张照片的所有评论，也可以通过查询user_comments表获得User-A的所有评论。另外可以考虑使用全文检索工具来解决某些需求，使用Solr来提供全站标签检索和照片搜索服务。

2、不能保证数据的一致/完整性

跨库的数据没有外键约束，也没有事务保证。比如上面的评论照片的例子，很可能出现成功插入photo_comments表，但是插入user_comments表时却出错了。一个办法是在两个库上都开启事务，然后先插入 photo_comments，再插入user_comments，然后提交两个事务。这个办法也不能完全保证这个操作的原子性。

3、所有查询必须提供数据库线索

比如要查看一张照片，仅凭一个照片ID是不够的，还必须提供上传这张照片的用户的ID（也就是数据库线索），才能找到它实际的存放位置。因此，必须重新设计很多URL地址，而有些老的地址我们又必须保证其仍然有效。Yupoo把照片地址改成/photos /{username}/{photo_id}/的形式，然后对于系统升级前上传的照片ID，又增加一张映射表，保存photo_id和user_id的对应关系。当访问老的照片地址时，通过查询这张表获得用户信息, 然后再重定向到新的地址。

4、自增ID重复的问题

如果要在节点数据库上使用自增字段，那么我们就不能保证全局唯一。这倒不是很严重的问题，但是当节点之间的数据发生关系时，就会使得问题变得比较麻烦。再来看看上面提到的评论的例子。如果photo_comments表中的comment_id的自增字段，当我们在DB- 2.photo_comments表插入新的评论时，得到一个新的comment_id，假如值为101，而User-A的ID为1，那么我们还需要在DB-1.user_comments表中插入(1, 101 …)。 User-A是个很活跃的用户，他又评论了User-C的照片，而User-C的数据库是DB-3。很巧的是这条新评论的ID也是101，这种情况很用可能发生。那么我们又在DB-1.user_comments表中插入一行像这样(1, 101 …)的数据。那么我们要怎么设置user_comments表的主键呢（标识一行数据）？可以不设啊，不幸的是有的时候（框架、缓存等原因）必需设置。那么可以以 user_id、 comment_id和photo_id为组合主键，但是photo_id也有可能一样（的确很巧）。看来只能再加上photo_owner_id了，但是这个结果又让我们实在有点无法接受，太复杂的组合键在写入时会带来一定的性能影响，这样的自然键看起来也很不自然。所以，Yupoo放弃了在节点上使用自增字段，想办法让这些ID变成全局唯一。为此增加了一个专门用来生成ID的数据库，这个库中的表结构都很简单，只有一个自增字段id。当我们要插入新的评论时，我们先在ID库的photo_comments表里插入一条空的记录，以获得一个唯一的评论ID。当然这些逻辑都已经封装在我们的框架里了，对于开发人员是透明的。为什么不用其它方案呢，比如一些支持incr操作的Key-Value数据库。Yupoo还是比较放心把数据放在MySQL里。另外，Yupoo会定期清理ID库的数据，以保证获取新ID的效率。

1 234 / 4 页下一页在本页阅读全文