linuxvfast 2016-12-04
进程是处于执行期的程序(目标码存放在某种存储介质上)。但进程并不仅仅局限于一段可执行程序代码。通常进程还要包含其他资源,像打开的文件,挂起的信号,内核内部数据,处理器状态,一个或多个具有内存映射的内存地址空间以及一个或多个执行线程(Thread of execution),当然还包括用来存放全局变量的数据段等。实际上,进程就是正在执行的程序代码的实时结果。内核需要有效而又透明地管理所有细节。
执行线程,简称线程(thread),是进程中活动的对象。每个线程都拥有一个独立的程序计数器、进程栈和一组进程寄存器。内核调度的对象是线程,而不是进程。
程序本身并不是进程,进程是处于执行期的程序以及相关资源的总称。实际上,完全可能存在两个或多个不同进程执行的是同一个程序。并且两个或两个以上并存的进程还可以共享许多诸如打开的文件、地址空间之类的资源。
进程描述符中的state域描述了进程的当前状态,系统中的每个进程都必须处于五种状态中的一种。该域的值也必为下列五种状态标志之一。
TASK_RUNNING(运行) 进程是可执行的,它或者正在执行,或者在运行队列中等待执行。这是进程在用户控件中执行的唯一可能的状态。这种状态也可以应用到内核空间中正在执行的进程。
每个进程有一个明确定义的上下文,包含那些描述进程时所需要的所有信息。这个上下文由几个部分组成:
计算机的寄存器包含了当前运行进程的硬件上下文信息。当一个上下文切换发生时,这些寄存器保存在u区的一个特殊部分中,即进程控制块(process control block),或PCB。内核挑选一个新的进程来运行,并从PCB中加载硬件上下文。
因为寄存器和硬件状态不能直接通过高级语言来进行操作,所以resched调用一个汇编语言编写的函数ctxsw来执行从一个进程到另一个进程的上下文切换。当然,ctxsw的代码依赖于具体的机器。最后一步包括重新设置程序的计数器(即:跳转到新进程的位置)。程序所有部分都保留在内存中,因此新进程的文本段也在内存中。关键之处在于操作系统必须在跳转进入新程序之前加载新进程的所有状态变量。一些习题结构包含用于上下文切换的两条原子指令:一条将处理器状态信息存储在连续的内存单元中,另外一条将处理器状态信息从连续的内存单元中加载。在这种体系结构中,上下文切换代码执行一条指令将处理器状态保存在当前进程栈中,另一条指令加载新进程的处理器状态。当然每条指令都花费多条指令周期。但是每条指令都能快速执行。
Unix采用了与众不同的方式创建进程,它把创建线程的步骤封装到了两个独立的函数中去执行:fork()和exec().首先fork()通过拷贝当前进程创建一个子进程。子进程与父进程的区别仅仅在于PID,PPID(父进程的进程号,子进程将其设置为被拷贝进程的pid),和某些资源以及统计量(挂起信号、它没有必要继承)。exec()函数负责读取可执行文件并将其载入地址空间开始运行。
传统的fork()系统调用直接把所有的资源复制给新创建的进程。这种实现过于简单并且效率低下,因为它拷贝的数据也许并不共享,更糟糕的是,如果新进程打算立即执行一个新的映像,那么所有的拷贝将前功尽弃。Linux的fork()使用写时拷贝(copy-on-write)页实现。写时拷贝是一种可以推迟甚至免除拷贝的技术。内核此时并不复制整个进程的地址空间,而是让父进程和子进程共享同一个拷贝。
只有在需要些入的时候,数据才会被赋值,从而使各个进程拥有各自的拷贝。也就是说,资源的复制只有在需要写入的时候才进行,在此之前,只是以只读方式共享方式。
内核经常需要在后台执行一些操作。这种任务可以通过内核线程(kernel thread)完成--独立运行在内核控件的标准进程。内核线程和普通的进程间的区别在于内核线程没有独立的地址空间(实际上指向地址空间的mm指针被设置为NULL)。他们只在内核空间运行,从来也不切换到用户空间去。内核进程和普通进程一样,可以被调度,也可以被抢占。LInux会把一些任务交给内核线程去做,像flush和ksofireqd这些任务就是例子。
一个进程终结时,内核必须释放它所占有的资源并把这一消息告知其父进程。