Wix是如何把MySQL当NoSQL用的
近年来,NoSQL引擎已经成为主流。许多开发人员都将NoSQL引擎(如MongoDB、Cassandra或Redis)作为构建应用程序的首选。Yoav Abrahami是免费建站平台 Wix 的首席架构师。他认为,MySQL是一个更好的NoSQL选项,理由是:MySQL是一个可靠的引擎,有大量的在线资料可供参考,而且作为键/值存储,能够提供卓越的性能、易用性和稳定性。近日,他用Wix的实践 证明 了这一观点。
当用户点击指向Wix站点的链接时,浏览器会向Wix服务器发送一个HTTP请求。服务器会执行一次键/值查找,将URL(Yoav将其成为路由)解析成一个站点,并加载该站点。由于站点可能暴露到多个路由上,所以路由与站点之间是多对一的关系。站点对象本身有一个复杂的结构,包含两个子对象列表。下面是在标准SQL数据库中记录上述对象的一个规范化模式:
在这样一个传统模型中,为了在更新站点的时候保持数据一致性,需要使用事务同时对多个表进行更新。事物会使用数据库级锁阻止并发写入。而且,这个模型中的每个表都有“序列键(serial key)”、外键,路由表的URL字段上建有索引。这个模型有如下几个问题:
- 锁限制了表的访问,在吞吐量比较高的情况下,会影响性能;
- 读取一个对象需要数个SQL查询或多个表关联,会增加延迟;
- 序列键会使用锁,再次限制了写吞吐量。
这些问题限制了MySQL的吞吐量和并发性。考虑到这实际上是一个键/值存储场景,许多开发人员会优先考虑寻找一种NoSQL解决方案。但在 Wix,他们创造性地将MySQL当作一个键/值存储来用,而且取得了很好的效果。例如,读延迟平均只有1~1.5毫秒 。这一延迟可以同大多数键/值存储引擎相媲美。
以下是他们实际使用的数据库模式:
CREATE TABLE `routes` ( `route` varchar(255) NOT NULL, `site_id` varchar(50) NOT NULL, `last_update_date` bigint NOT NULL, PRIMARY KEY (`key`), KEY (`site_id`) ) CREATE TABLE `sites` ( `site_id` varchar(50) NOT NULL, `owner_id` varchar(50) NOT NULL, `schema_version` varchar(10) NOT NULL DEFAULT '1.0', `site_data` text NOT NULL, `last_update_date` bigint NOT NULL, PRIMARY KEY (`site_id`) ) /*ENGINE=InnoDB DEFAULT CHARSET=utf8 ROW_FORMAT=COMPRESSED KEY_BLOCK_SIZE=16*/;
任何不在查询条件中使用的字段都并入一个Blob字段(site_data字段)。另外,使用varchar2(50)取代了序列键,用于存储客户生成的GUID值。这样,使用下面的查询就可以查找HTTP请求对应的站点:
select * from sites where site_id = ( select site_id from routes where route = ? )
该查询首先通过唯一索引查找站点标识,然后通过主键查找对应的站点,只需访问一次数据库就可以完成请求解析,可以提供很高的吞吐量和很低的延迟。在这种模式下,更新甚至都不需要事务,因为在一个插入语句中插入整个站点的信息后,该信息在路由插入之前并不会被读取。
根据从上述实例中获取的经验,Yoav对如何将MySQL用作NoSQL引擎进行了总结。首先,要避免使用数据库锁或复杂查询:
- 不要使用事务,那会引入锁,使用“应用事务(applicative transactions)”代替;
- 不要使用序列键,那会引入锁,使双活配置复杂化;
- 使用客户端生成的唯一键。
其次,在设计数据库模式时要专门针对数据读取操作进行优化:
- 不要规范化;
- 只保留索引字段,其他字段存入Blob/text字段;
- 不要使用外键;
- 模式设计要支持单行查询;
- 不要执行alter命令。
最后,在查询数据时要遵循如下原则:
- 通过主键或索引查询记录;
- 不要使用表连接;
- 不要使用聚合;
- 在副本上运行内务处理(如BI、数据挖掘等)查询,而不要在主数据库上。
总之,MySQL很适合作为NoSQL引擎使用,Wix将其用作键/值存储获得了很好的效果,MySQL为Wix提供了堪与大多数NoSQL引擎相媲美的延迟、吞吐量和并发性。