Walkerhau 2019-04-17
作者 | 菜菜
责编 | 郭芮
本文系作者投稿,版权归作者所有
YY妹:菜菜哥,有个事你还得帮我(苦笑一下).....前几天写了几个接口,领导让提高一下接口吞吐量。
菜菜:这是你技术提高的大好机会呀!
YY妹:可吞吐量具体是什么?怎么提高呢?
菜菜:来,哥给你解释一番。
什么是吞吐量?
吞吐量是指对网络、设备、端口、虚电路或其他设施,单位时间内成功地传送数据的数量(以比特、字节、分组等测量)。
以上的定义比较宽泛,定义到网站或者接口的吞吐量是这样的:吞吐量是指系统在单位时间内处理请求的数量。这里有一个注意点就是单位时间内,对于网站的吞吐量这个单位时间一般定义为1秒,也就是说网站在一秒之内能处理多少HTTP(HTTPS/TCP)请求。与吞吐量对应的衡量网站性能的还有响应时间、并发数、QPS每秒查询率。
我们以高速收费站为例子也许更直观一些,吞吐量就是一天之内通过的车辆数,响应时间就是车速,并发数就是高速上同时奔跑的汽车数。由此可见其实以上几个指标是有内在联系的。比如:响应时间缩短,在一定程度上可以提高吞吐量。
其实以上几个指标主要反映了两个概念:
提高吞吐量
以下场景都是在假设程序不发生异常的情况下。
服务器(进程)级别
服务器级别增加网站吞吐量也是诸多措施中最容易并且是效果最好的,如果一个网站能通过增加少量的服务器来提高吞吐量,应该优先采用。
毕竟一台服务器的费用相比较一个程序员费用来说要低的多。但是有一个前提,就是你的服务器是系统的瓶颈,网站系统之后的其他系统并非瓶颈。
如果你的系统的瓶颈在DB或者其他服务,盲目的增加服务器并不能解决你的问题。
通过增加服务器来解决你的网站瓶颈,意味着你的网站需要做负载均衡,如果没有运维相关人员,你可能还得需要研究负载均衡的方案,比如LVS、Nginx、F5等。
我曾经面试过很多入道不久的同学,就提高吞吐量问题,如果没有回答上用负载均衡方案的基本都PASS了。
不要说别的,这个方案就是一个基础,就好比学习一个语言,你连最基本的语法都不会,我凭什么让你通过?
其实现在很多静态文件采用CDN,本质上也可以认为是增加服务器的策略。
线程级别
当一个请求到达服务器并且正确的被服务器接收之后,最终执行这个请求的载体是一个线程。
当一个线程被CPU载入执行其指令的时候,在同步的状态下,当前线程会阻塞在那里等待CPU结果,如果CPU执行的是比较慢的IO操作,线程会一直被阻塞闲置很长时间,这里的很长是对比CPU的速度而言。
当一个新的请求到来的时候,如果没有新的线程去领取这个任务并执行,要么会发生异常,要么创建新的线程。
线程是一种很稀缺的资源,不可能无限制的创建。这种情况下我们就要把线程这种资源充分利用起来,不要让线程停下来。这也是程序推荐采用异步的原因。
试想,一个线程不停的在工作,遇到比较慢的IO不会去等待结果,而是接着处理下一个请求,当IO的结果返回来得到通知的时候,线程再去取IO结果,岂不是能在相同时间内处理更多的请求。
程序异步化(非阻塞)会明显提高系统的吞吐量,但是响应时间可能会稍微变大。
还有一点,尽量减少线程上下文在CPU的切换,因为线程上线文切换的成本也是比较大的,在线程切换的时候,CPU需要把当前线程的上下文信息记录下来用以下次调用的时候使用,然后把新线程的上下文信息载入然后执行。这个过程相对于CPU的执行速度而言,要慢很多。
不要拿Golang反驳以上观点,Golang的协程虽然是用户级别比线程更小的载体,但是最终和CPU进行交互的还是线程。
CPU级别
在讲CPU级别之前,如果有一定的网络模型的基础,也许会好一些。这里大体阐述一下,现代操作系统都采用虚拟寻址的方式,它的寻址空间(虚拟存储空间)为4G(2的32次方)。操作系统将虚拟空间分为两类:内核空间和用户空间。
内核空间独立于用户空间,有访问受保护的内存空间、IO设备的权限(所有的用户空间共享)。
用户空间就是我们的应用程序运行的空间,其实用户空间并没有操作各种IO设备的权限,像我们平时读取一个文件,本质上是委托内核空间去执行读取指令的,内核空间读取到数据之后再把数据复制到程序运行的空间,最后应用程序再把数据返回调用方。
通过上图大体可以看出,内核会为每个I/O设备维护一个buffer(同一个文件描述符读和写的buffer不同),应用程序发出一个IO操作的指令其实通过了内核空间和用户空间两个部分,并且发生了数据的复制操作。这个过程其实主要包含两个步骤:
根据这两个操作的不同表现,所以IO模型有了同步阻塞,同步非阻塞,异步阻塞,异步非阻塞的概念,但是这里并非此文的重点,所以不在展开详细介绍。
利用CPU提高系统吞吐量主要目标是提高单位时间内CPU运行的指令数,避免CPU做一些无用功:
网络传输级别
至于网络传输级别,由于协议大部分是TCP/IP,所以在协议传输方面优化的手段比较少,但是应用程序级别协议可以选择压缩率更好的,比如采用grpc会比单纯的HTTP协议要好很多,HTTP2 要比HTTP 1.1要好很多。
另外一方面网卡尽量加大传输速率,比如千兆网卡要比百兆网卡速度更快。由于网络传输比较偏底层,所以人工干预的切入点会少很多。
最后总结
大部分程序员都是工作在应用层,针对应用级别代码能提高吞吐量的建议: