chvnetcom 2020-03-02
大家好,我是崔皓。
很高兴有这样一个机会和大家认识。我在IT行业从事软件开发工作十余年了,足迹涵盖企业服务,互联网,企业数字化转型等。工作之余热爱阅读和学习,希望能通过这个专栏和大家成为朋友。
本次专栏要给大家分享的是“如何设计秒杀系统”,专栏共包括15章,本章是第一章。
今天会给大家介绍以下内容:
秒杀通常是电商网站定期举办的活动,这个活动有明确的开始和结束时间,而且参与互动的商品是事先定义好的,商品的个数也是有限制的。同时会提供一个秒杀的入口,让用户通过这个入口进行抢购。
总结一下秒杀场景的特点:
秒杀场景的特征就决定了,秒杀系统与日常系统的不一样。秒杀系统是大流量请求在短时间内集中处理,而日常系统的请求处理更加平滑和平均。秒杀场景不会经常发生,它有实效性,有具体的开始和结束时间。再者秒杀系统是针对具体的商品或者商品分类进行的,资源的范围相对于日常系统来说也比较小。鉴于这些不同点,秒杀系统需要和日常系统需要分开考虑,这就是下面要提到的隔离的设计思路。
由于秒杀活动是有计划的,并且在短时间内会爆发大量的请求。为了不影响日常业务系统的正常运行,我们需要把它和现有的系统做隔离。这样即便秒杀系统出现了问题,也不会影响日常系统的正常工作。要不就“偷鸡不成反失一把米了”,因此在设计秒杀系统的时候可以从以下几个方面来思考隔离的问题。
业务隔离
既然秒杀是一场活动,那它一定和常规的业务不同,我们可以把它当成一个单独的项目来看。在活动开始之前,最好设计一个“热场”。“热场”的形式多种多样,例如:分享活动领优惠卷,领秒杀名额等等。“热场”的形式不重要,重要的是通过它获取一些准备信息。例如:有可能参与的用户数,他们的地域分布,他们感兴趣的商品。为后面的技术架构提供数据支持。别小看这些数据,通过这些数据可以预估出秒杀当天的流量,并发数等信息。而且可以作为压力测试数据来源的一部分,协助测试系统的可用性。
应用隔离
现在应用的部署多采用分布式或者微服务的架构,通过容器和服务编排的方式部署方式比较常见。建议分配给秒杀系统专门的系统资源,来应对高并发。我们可以将原来日常系统中的服务在秒杀系统中复用,也可以为秒杀系统设计专门的服务。众所周知一个系统中包含服务数量,少则几十个,多则上百个。如果为了秒杀系统复制一套,恐怕成本太高。这里需要区分,核心功能、支撑功能和通用功能。对于需要并发读写的功能就是秒杀系统的核心功能,例如:商品详情,下单等。这些功能的服务可以专门提供一套,做水平扩展。针对一些支撑功能和通用功能的服务,例如配置信息,用户评论。建议不做扩展,只需要做好熔断和降级的准备,使之不影响核心功能就好。
流量隔离
前面的特征分析中提到了,秒杀系统会在短时间内迎来巨大流量。如果秒杀系统和日常系统共用一个接入层,那么对应的负载均衡器也会接受海量的请求。无论是硬件负载均衡还是软件负载均衡,其能够承受的流量都是有限制的。超过了这个流量,系统会进行限流操作,将多余的流量置之门外。如果此时因为秒杀系统的流量增加,导致日常系统的流量瓶颈是得不偿失的。所以这里需要对流量进行隔离,如果共用负载均衡需要设置秒杀系统使用的流量上限。根据秒杀系统特有的请求头判断流入的请求是来自秒杀请求还是日常系统请求。同时也可以根据用户ID,请求IP、请求的地域来做隔离。
说了完了隔离的思路,再来聊聊如何设计秒杀系统。由于秒杀的场景不同,面向的用户数量不同,参与秒杀的资源数量不同,每个公司的现有系统架构千差万别,并且硬件配置和网络环境也各有不同。无法提出一个统一的架构,只能针对秒杀系统中出现的问题进行解决。回到秒杀场景的特征,实际上我们要解决的就是短时间对稀缺资源,高并发读写和结果可靠性的问题。解决这些问题的方法,在平时的系统架构中也会用到,只是在秒杀系统中会更有代表性、更极端。总结下来主要是缓存、限流、熔断、分布式服务、分布式存储、数据一致性、分布式可靠性、系统的监控。但是这些问题涉及到系统架构的方方面面,单独来讲大家都能理解,如何通过系统的方式给大家介绍,能够从架构的角度去看秒杀系统需要考虑哪些问题。这里我们通过架构分层的方式,逐层讲解如何解决秒杀系统的问题。专题总共分来7个部分共15个章节来讲述。最后总结为四横三纵。
专栏每章都会按照提出问题,讲解原理,实践落地的方式进行推进。说白了就是是什么->为什么->怎么办。尽量用大白话讲解复杂的问题。每段理论分析的部分会配上图解的方式帮助大家理解和记忆。因为上面提到的这些知识点,可能在目前还用不上,不过可以先了解,作为知识储备。等需要的时候在回看文章,那么图就是记忆的最好媒介,俗话说一图胜千言。下面我就把每个章节的主题列出来供大家查阅。