ptmagic 2019-11-16
在分布式系统中,实现强一致性并不容易。即使2PC、3PC阶段提交,也无法保证绝对的强一致性。
我们也不能因为极小的不一致性概率,导致系统整体性能低下,或者扩展性受到影响,并且架构也变得极其复杂。因此,在2PC/3PC提交缺乏大规模应用的情况下,最终一致性是一个较好的方案,在业界得到了大量使用。
如下图所示,Service Consumer 同时调用 Service A 和 Service B,如果Service A 调用成功,Service B 调用识别,为了保证最终一致性,最简单的办法是重试。
重试的时候,要注意设置Service Consumer 的超时时间, 避免长时间等待或卡死,耗尽资源。
Consumer 重试时,需要注意如下几个方面:
具体实现细节,可以参考基于Spring-tryer 优雅的重试方案(含源码)。
通过本地记录日志,然后收集到分布式监控系统或者其他后端系统中,启动一个定期检查的工具。根据实际情况,可以选择人工处理。
日志格式:TranID-A-B-Detail
收集识别日志的设计图,如下所示。
考虑到实际业务场景中发生故障的概率概率比较低,可以考虑如下方案。
Service Consumer 在调用 Service B 失败,先进行重试。如果重试一定的次数仍然失败,则直接发送消息Message Queue,转换为异步处理。
可以采用分布式能力比较强的MQ,如Kafka、RocketMQ等开源分布式消息系统,进行异步处理。
这种方案也有丢失消息的风险,就是Service Consumer 的消息还没有发出来就挂了,这是小概率事件。
还有一种方案-可靠消息模式,如下图所示。Service Consumer 发送一条消息给Message Queue Broker,如RocketMQ、Kafka等等。由Service A和Service B 消费消息。
MQ 可以采用分布式MQ,并且可以持久化,这样通过MQ 保证消息不丢失,认为MQ 是可靠的。
可靠消息模式的优点:
存在问题:
针对上述不一致的时间窗口问题,可以进一步优化。
直接调用订单服务(核心服务),将业务订单数据落地DB;同时,发送向MQ 发送消息。
考虑到在向MQ 发送消息之前,Service Consumer(创建订单)可以会挂掉,也就是说调用订单服务和发送Message 必须在一个事务中,因为处理分布式事务比较麻烦,且影响性能。
因此,创建了另外一张表:事件表,和订单表在同一个数据库中,可以添加事务保护,把分布式事务变成单数据库事务。
整个流程如下:
(1)创建订单 - 持久化业务订单数据,并在事件表中插入一条事件记录。注意,这里在一个事务中完成,可以保证一致性。如果失败了,无须关心业务服务的回退,如果成功则继续。
(2)发送消息 - 发送订单消息到消息队列。
(3)消费消息 - 其他从属业务服务,则可以消费MQ中的订单消息,进行自身业务逻辑的处理。
上述设计方案中,有3点需要说明一下:
(1)直接调用订单服务(核心业务),是为了让业务订单数据尽快落地,避免不一致的时间窗口问题,保证写后读一致性。
(2)创建订单业务直接发送消息给MQ,是为了增加实时性,只有异常的情况,才使用补偿服务。如果对实时性要求不高,也可以考虑去掉Message 直接发送的逻辑。
(3)额外引入一张事件表,是为了将分布式事务变成单数据库事务,在一定程度上,也增加了数据库的压力。