心理学哲学批判性思维 2018-02-24
我们看到的计算机系统都只限于机器语言程序级。处理器执行一系列指令每天指令执行某个简单操作,它们被编码为由一个或多个字节序列组成的二进制格式。在本章的学习中,我们主要了解ISA抽象的作用以及了解流水线和实现方式。
字节序列转换为Y86-64指令的方法总结如下:
通过转换数值部分以小段法编码的数字来确定立即数、偏移量、绝对地址等值。
一个处理器支持的指令和指令的字节级编码称为它的指令集体系结构ISA。
ISA模型(概念抽象层):CPU允许的指令集编码,且顺序地执行指令,也就是先取出一条指令,等到她执行完毕,再开始下一条。然而,现代处理器的实际工作方式可能跟ISA隐含的计算模型大相径庭。通过同时处理多条指令的不同部分,处理器可以获得较高的性能。但其必须对外表现出符合ISA模型的执行结果。
更新PC(PC update)
根据指令代码和分支标志,从前几步得出的信号值中,选出下一个PC的值。
我们以SEQ(sequential 顺序的)处理器为例讲解CPU的基本原理。每个时钟周期上,SEQ执行处理一条完整指令所需的所有步骤。不过这需要一个很长的时钟周期时间,因此时钟周期频率会低到不可接受。
SEQ的时序
组合逻辑不需要任何时序或控制——只要输入变化了,值就通过逻辑门网络传播。
我们也将读随机访问存储器(寄存器文件、指令存储器和数据存储器)看成和组合逻辑一样的操作。(写随机访问存储器需要等待高电平)
由于指令存储器只用来读指令,因此我们可以将这个单元看成是组合逻辑。(内存向指令存储器中写指令是CPU外部的事件 不属于CPU内的时序)
每个时钟周期,程序计数器都会装载新的指令地址。
只有在执行整数运算指令时,才会装载条件码寄存器。
只有在执行mov、push、call指令时,才会写数据存储器。
要控制处理器中活动的时序,只需要寄存器和存储器的时钟控制。
因为指令运行计算的结果,写入寄存器或存储器中。
我们可以把取指、译码、执行等过程看做是组合逻辑的处理过程(因为它们不涉及写入寄存器)。把写回看做是另一个过程。
流水线原理
我们通过将执行每条指令所需的步骤组织成一个统一的流程,就可以用很少量的各种硬件单元以及一个时钟来控制计算的顺序,从而实现整个处理器。不过这样一来,控制逻辑就必须要在这些单元之间路由信号,并根据指令类型和分支条件产生适当的控制信号。(CPU内有三种总线:控制总线、地址总线、数据总线)
SEQ处理器不能充分利用硬件单元,因为每个单元只在整个时钟周期的一部分时间内才被使用。我们会看到引入流水线能获得更好的性能。在流水线化的系统中,待执行的任务被划分成了若干独立的阶段。
流水线化的一个重要特性就是增加了系统的吞吐量,也就是单位时间内服务的顾客总数,不过它也会轻微地增加延迟,也就是服务一个用户所需要的时间。(我们之前的设计是一条指令执行完,下条指令才能进入CPU,(所不同的是时钟周期的粒度)。流水线化是允许多条指令在CPU中,每条指令在CPU中的时间是一样的,哪怕你一个周期就执行完了,你也得等剩下的阶段结束,使后面的指令被延迟了。
虽然流水线化,所有指令在CPU中待的时间都一样(且都按最耗时指令算的),但它们的时间是重叠的。假设一条指令在CPU中待6ms,那么12ms能处理7条指令,而非流水线,虽然一条指令最多执行6ms,但它们的时间是相加的,12ms可能只执行3条。12=6+2+4)
流水化的硬件系统
假设将系统执行的计算分成三个阶段(A、B和C),每个阶段需要100ps,然后在各个阶段之间放上流水线寄存器,这样每条指令都会按照三步经过这个系统,从头到尾需要三个时钟周期。
(流水线寄存器的作用:作为电路不同部分中的组合逻辑之间的屏障。保存每步组合逻辑的运算结果。这是为了分割流水而插入的寄存器。)
流水线,在稳定状态下,三个阶段应该都是活动的,每个时钟周期,一条指令离开系统,一条新的进入。
这样,我们一个阶段的时间,相当于运行了一条指令,在这个系统中,我们将时钟周期设为100+20=120ps,得到的吞吐量大约为8.33GIPS。因为处理一条指令需要3个时钟周期,所以这条流水线的延迟就是3*120=360ps。非流水运行一条完整指令需要320ps。(从宏观整体上看,一个时钟周期运行了一条指令(这条指令是由多条指令的各阶段拼合的),而从单条指令的执行看,需要3个时钟周期执行一条完整指令。)我们将系统吞吐量提高到原来的8.33/3.12=2.67倍,代价是增加一些硬件(流水线寄存器),以及延迟的少量增加(360/320=1.12)。延迟变大是由于增加的流水线寄存器的时间开销。时钟周期的时间就是流水线分割的一个阶段的时间,这样,从宏观上看,是一个时钟周期执行一条指令。
流水线的局限性
1、不一致的划分
之前的是一个理想的流水线化的系统,每个阶段需要的时间都相同。而实际系统通过各阶段的延迟一般是不同的。且运行时钟的速率是由最慢阶段的延迟限制的。(即系统吞吐量受最慢阶段的速度所限制)
2、流水线过深,收益反而下降
例如,我们把计算分成6个阶段,每个阶段需要50ps。在每对阶段之间插入流水线寄存器就得到了一个六阶段流水线。这个系统的最小时钟周期为50+20=70ps,吞吐量为14.29GIPS。性能比3阶段流水提高了14.29/8.33=1.71倍。由于通过流水线寄存器的延迟,吞吐量并没有加倍。这个延迟成了流水线吞吐量的一个制约因素。为了提高时钟频率,现代处理器采用了很深的(15或更多的阶段)流水线。
流水线冒险
使用流水线技术,当相邻指令间存在相关时会导致出现问题。
这些相关有:
1、数据相关:下一条指令会用到这一条指令计算出的结果
2、控制相关:一条指令要确定下一条指令的位置,例如在执行跳转、调用或返回指令时。
这些相关可能会导致流水线产生计算错误,称为冒险。
用暂停来避免数据冒险
暂停(stalling)是避免冒险的一种常用技术。让一条指令停顿在译码阶段,直到产生它的源操作数的指令通过了写回阶段,这样我们的处理器就能避免数据冒险。
暂停技术就是让一组指令阻塞在它们所处的阶段,而允许其他指令继续通过流水线。
用转发来避免数据冒险
在译码阶段从寄存器文件中读入源操作数,但是对这些源寄存器的写有可能要在写回阶段才能进行。与其暂停直到写完成,不如简单地将要写的值传到流水线寄存器E作为源操作数。
(即,我们不必等到irmovl $10, %edx和irmovl $3, %eax 完成对寄存器的写更新之后再继续addl,而是在addl译码阶段发现需要%edx、%eax值,译码逻辑不从寄存器文件中去读,而是用前面阶段未写入寄存器的值。)这种将结果直接从一个流水线阶段传到较早阶段的技术称为数据转发。在周期4中,译码阶段逻辑发现有在访存阶段中对寄存器%edx未进行的写,还发现在执行阶段中正在计算寄存器%eax的新值。它用这些值,而不是从寄存器文件中读出的值,作为valA和valB的值。
加载/使用数据冒险
有一类数据冒险不能单纯用转发来解决,因为存储器读(访存阶段)在流水线发生的比较晚。
我们可以将暂停和转发结合起来,避免加载/使用数据冒险。(既然是来不及发送给后面的指令,那就让后面的指令暂停几个周期,再发送)
当mrmovl指令通过执行阶段时,流水线控制逻辑发现译码阶段中的指令(addl)需要从存储器中读出的结果。它会将译码阶段中的addl指令暂停一个周期,导致执行阶段中插入一个气泡。 mrmovl指令从存储器中读出的值可以从访存阶段转发到译码阶段中的addl指令。
这种用暂停来处理加载/使用冒险的方法称为加载互锁。加载互锁和转发技术结合起来足以处理所有可能类型的数据冒险。
异常处理
异常可以由程序执行从内部产生,也可以由某个外部信号从外部产生。
简单的三种内部异常:
1、halt指令
2、非法指令
3、访问非法地址
(还有一些外部异常:网口收到新包、用户点击鼠标等)
在简化的ISA模型中,当处理器遇到异常时,会停止,设置适当的状态码,且应该是到异常指令之前的所有指令都已经完成,而其后的指令都不应该对程序员可见的状态产生任何影响。在一个更完整的设计中,处理器会继续调用异常处理程序,这是操作系统的一部分。
一般地,通过在流水线结构中加入异常处理逻辑,我们会在每个流水线寄存器中包括一个状态码Stat。如果一条指令在其处理器中于某个阶段产生了一个异常,这个状态字段就被设置成指示异常的种类。
异常状态和该指令的其他信息一起沿着流水线传播,直到它到达写回阶段。在此,流水线控制逻辑发现了异常,并停止执行。
异常事件不会对流水线中的指令流有任何影响,除了会禁止流水线中后面的指令更新程序员的可见状态(条件码寄存器和存储器),直到异常指令到达最后的流水线阶段。
因为指令到达写回阶段的顺序与它们在非流水化的处理器中执行的顺序相同,所以我们可以保证第一条遇到异常的指令会第一个到达写回阶段,此时程序执行会停止,流水线寄存器(W写回)中的状态码会被记录为程序状态。