Linux系统之一个功能正常的系统启动过程分析

关于开源软件最古老的笑话是：“代码是自具文档化的self-documenting”。经验表明，阅读源代码就像听天气预报一样：明智的人依然出门会看看室外的天气。本文讲述了如何运用调试工具来观察和分析Linux系统的启动。分析一个功能正常的系统启动过程，有助于用户和开发人员应对不可避免的故障。

从某些方面看，启动过程非常简单。内核在单核上以单线程和同步状态启动，似乎可以理解。但内核本身是如何启动的呢？initrd（initialramdisk）和引导程序bootloader具有哪些功能？还有，为什么以太网端口上的LED灯是常亮的呢？

启动的开始：OFF状态

局域网唤醒Wake-on-LAN

OFF状态表示系统没有上电，没错吧？表面简单，其实不然。例如，如果系统启用了局域网唤醒机制（WOL），以太网指示灯将亮起。通过以下命令来检查是否是这种情况：

#sudoethtool<interfacename>

其中<interfacename>是网络接口的名字，比如eth0。（ethtool可以在同名的Linux软件包中找到。）如果输出中的Wake-on显示g，则远程主机可以通过发送魔法数据包MagicPacket来启动系统。如果您无意远程唤醒系统，也不希望其他人这样做，请在系统BIOS菜单中将WOL关闭，或者用以下方式：

#sudoethtool-s<interfacename>wold

响应魔法数据包的处理器可能是网络接口的一部分，也可能是底板管理控制器BaseboardManagementController（BMC）。

英特尔管理引擎、平台控制器单元和Minix

BMC不是唯一的在系统关闭时仍在监听的微控制器（MCU）。x86_64系统还包含了用于远程管理系统的英特尔管理引擎（IME）软件套件。从服务器到笔记本电脑，各种各样的设备都包含了这项技术，它开启了如KVM远程控制和英特尔功能许可服务等功能。根据Intel自己的检测工具，IME存在尚未修补的漏洞。坏消息是，要禁用IME很难。TrammellHudson发起了一个me_cleaner项目，它可以清除一些相对恶劣的IME组件，比如嵌入式Web服务器，但也可能会影响运行它的系统。

IME固件和系统管理模式SystemManagementMode（SMM）软件是基于Minix操作系统的，并运行在单独的平台控制器单元PlatformControllerHub上（LCTT译注：即南桥芯片），而不是主CPU上。然后，SMM启动位于主处理器上的通用可扩展固件接口UniversalExtensibleFirmwareInterface（UEFI）软件，相关内容已被提及多次。Google的Coreboot小组已经启动了一个雄心勃勃的非扩展性缩减版固件Non-ExtensibleReducedFirmware（NERF）项目，其目的不仅是要取代UEFI，还要取代早期的Linux用户空间组件，如systemd。在我们等待这些新成果的同时，Linux用户现在就可以从Purism、System76或Dell等处购买禁用了IME的笔记本电脑，另外带有ARM64位处理器笔记本电脑还是值得期待的。

引导程序

除了启动那些问题不断的间谍软件外，早期引导固件还有什么功能呢？引导程序的作用是为新上电的处理器提供通用操作系统（如Linux）所需的资源。在开机时，不但没有虚拟内存，在控制器启动之前连DRAM也没有。然后，引导程序打开电源，并扫描总线和接口，以定位内核镜像和根文件系统的位置。U-Boot和GRUB等常见的引导程序支持USB、PCI和NFS等接口，以及更多的嵌入式专用设备，如NOR闪存和NAND闪存。引导程序还与可信平台模块TrustedPlatformModule（TPM）等硬件安全设备进行交互，在启动最开始建立信任链。

Linux系统之一个功能正常的系统启动过程分析

包括树莓派、任天堂设备、汽车主板和Chromebook在内的系统都支持广泛使用的开源引导程序U-Boot。它没有系统日志，当发生问题时，甚至没有任何控制台输出。为了便于调试，U-Boot团队提供了一个沙盒，可以在构建主机甚至是夜间的持续集成（CI）系统上测试补丁程序。如果系统上安装了Git和GNUCompilerCollection（GCC）等通用的开发工具，使用U-Boot沙盒会相对简单：

#gitclonegit://git.denx.de/u-boot;cdu-boot

#makeARCH=sandboxdefconfig

#make;./u-boot

=>printenv

=>help

在x86_64上运行U-Boot，可以测试一些棘手的功能，如模拟存储设备的重新分区、基于TPM的密钥操作以及USB设备热插拔等。U-Boot沙盒甚至可以在GDB调试器下单步执行。使用沙盒进行开发的速度比将引导程序刷新到电路板上的测试快10倍，并且可以使用Ctrl+C恢复一个“变砖”的沙盒。

启动内核

配置引导内核

引导程序完成任务后将跳转到已加载到主内存中的内核代码，并开始执行，传递用户指定的任何命令行选项。内核是什么样的程序呢？用命令file/boot/vmlinuz可以看到它是一个“bzImage”，意思是一个大的压缩的镜像。Linux源代码树包含了一个可以解压缩这个文件的工具——extract-vmlinux：

#scripts/extract-vmlinux/boot/vmlinuz-$(uname-r)>vmlinux

#filevmlinux

vmlinux:ELF64-bitLSBexecutable,x86-64,version1(SYSV),statically

linked,stripped

内核是一个可执行与可链接格式ExecutableandLinkingFormat（ELF）的二进制文件，就像Linux的用户空间程序一样。这意味着我们可以使用binutils包中的命令，如readelf来检查它。比较一下输出，例如：

#readelf-S/bin/date

#readelf-Svmlinux

这两个二进制文件中的段内容大致相同。

所以内核必须像其他的LinuxELF文件一样启动，但用户空间程序是如何启动的呢？在main()函数中？并不确切。

在main()函数运行之前，程序需要一个执行上下文，包括堆栈内存以及stdio、stdout和stderr的文件描述符。用户空间程序从标准库（多数Linux系统在用“glibc”）中获取这些资源。参照以下输出：

#file/bin/date

/bin/date:ELF64-bitLSBsharedobject,x86-64,version1(SYSV),dynamically

linked,interpreter/lib64/ld-linux-x86-64.so.2,forGNU/Linux2.6.32,

BuildID[sha1]=14e8563676febeb06d701dbee35d225c5a8e565a,

stripped

ELF二进制文件有一个解释器，就像Bash和Python脚本一样，但是解释器不需要像脚本那样用#!指定，因为ELF是Linux的原生格式。ELF解释器通过调用_start()函数来用所需资源配置一个二进制文件，这个函数可以从glibc源代码包中找到，可以用GDB查看。内核显然没有解释器，必须自我配置，这是怎么做到的呢？

用GDB检查内核的启动给出了答案。首先安装内核的调试软件包，内核中包含一个未剥离的unstrippedvmlinux，例如apt-getinstalllinux-image-amd64-dbg，或者从源代码编译和安装你自己的内核，可以参照DebianKernelHandbook中的指令。gdbvmlinux后加infofiles可显示ELF段init.text。在init.text中用l*(address)列出程序执行的开头，其中address是init.text的十六进制开头。用GDB可以看到x86_64内核从内核文件arch/x86/kernel/head_64.S开始启动，在这个文件中我们找到了汇编函数start_cpu0()，以及一段明确的代码显示在调用x86_64start_kernel()函数之前创建了堆栈并解压了zImage。ARM32位内核也有类似的文件arch/arm/kernel/head.S。start_kernel()不针对特定的体系结构，所以这个函数驻留在内核的init/main.c中。start_kernel()可以说是Linux真正的main()函数。

从start_kernel()到PID1

内核的硬件清单：设备树和ACPI表

在引导时，内核需要硬件信息，不仅仅是已编译过的处理器类型。代码中的指令通过单独存储的配置数据进行扩充。有两种主要的数据存储方法：设备树device-tree和高级配置和电源接口（ACPI）表。内核通过读取这些文件了解每次启动时需要运行的硬件。

对于嵌入式设备，设备树是已安装硬件的清单。设备树只是一个与内核源代码同时编译的文件，通常与vmlinux一样位于/boot目录中。要查看ARM设备上的设备树的内容，只需对名称与/boot/*.dtb匹配的文件执行binutils包中的strings命令即可，这里dtb是指设备树二进制文件device-treebinary。显然，只需编辑构成它的类JSON的文件并重新运行随内核源代码提供的特殊dtc编译器即可修改设备树。虽然设备树是一个静态文件，其文件路径通常由命令行引导程序传递给内核，但近年来增加了一个设备树覆盖的功能，内核在启动后可以动态加载热插拔的附加设备。

x86系列和许多企业级的ARM64设备使用ACPI机制。与设备树不同的是，ACPI信息存储在内核在启动时通过访问板载ROM而创建的/sys/firmware/acpi/tables虚拟文件系统中。读取ACPI表的简单方法是使用acpica-tools包中的acpidump命令。例如：

Linux系统之一个功能正常的系统启动过程分析

是的，你的Linux系统已经准备好用于Windows2001了，你要考虑安装吗？与设备树不同，ACPI具有方法和数据，而设备树更多地是一种硬件描述语言。ACPI方法在启动后仍处于活动状态。例如，运行acpi_listen命令（在apcid包中），然后打开和关闭笔记本机盖会发现ACPI功能一直在运行。暂时地和动态地覆盖ACPI表是可能的，而永久地改变它需要在引导时与BIOS菜单交互或刷新ROM。如果你遇到那么多麻烦，也许你应该安装coreboot，这是开源固件的替代品。

从start_kernel()到用户空间

init/main.c中的代码竟然是可读的，而且有趣的是，它仍然在使用1991-1992年的LinusTorvalds的原始版权。在一个刚启动的系统上运行dmesg|head，其输出主要来源于此文件。第一个CPU注册到系统中，全局数据结构被初始化，并且调度程序、中断处理程序（IRQ）、定时器和控制台按照严格的顺序逐一启动。在timekeeping_init()函数运行之前，所有的时间戳都是零。内核初始化的这部分是同步的，也就是说执行只发生在一个线程中，在最后一个完成并返回之前，没有任何函数会被执行。因此，即使在两个系统之间，dmesg的输出也是完全可重复的，只要它们具有相同的设备树或ACPI表。Linux的行为就像在MCU上运行的RTOS（实时操作系统）一样，如QNX或VxWorks。这种情况持续存在于函数rest_init()中，该函数在终止时由start_kernel()调用。

Linux系统之一个功能正常的系统启动过程分析

函数rest_init()产生了一个新进程以运行kernel_init()，并调用了do_initcalls()。用户可以通过将initcall_debug附加到内核命令行来监控initcalls，这样每运行一次initcall函数就会产生一个dmesg条目。initcalls会历经七个连续的级别：early、core、postcore、arch、subsys、fs、device和late。initcalls最为用户可见的部分是所有处理器外围设备的探测和设置：总线、网络、存储和显示器等等，同时加载其内核模块。rest_init()也会在引导处理器上产生第二个线程，它首先运行cpu_idle()，然后等待调度器分配工作。

kernel_init()也可以设置对称多处理（SMP）结构。在较新的内核中，如果dmesg的输出中出现“BringingupsecondaryCPUs...”等字样，系统便使用了SMP。SMP通过“热插拔”CPU来进行，这意味着它用状态机来管理其生命周期，这种状态机在概念上类似于热插拔的U盘一样。内核的电源管理系统经常会使某个核core离线，然后根据需要将其唤醒，以便在不忙的机器上反复调用同一段的CPU热插拔代码。观察电源管理系统调用CPU热插拔代码的BCC工具称为offcputime.py。

请注意，init/main.c中的代码在smp_init()运行时几乎已执行完毕：引导处理器已经完成了大部分一次性初始化操作，其它核无需重复。尽管如此，跨CPU的线程仍然要在每个核上生成，以管理每个核的中断（IRQ）、工作队列、定时器和电源事件。例如，通过ps-opsr命令可以查看服务每个CPU上的线程的softirqs和workqueues。

#ps-opid,psr,comm$(pgrepksoftirqd)

PIDPSRCOMMAND

70ksoftirqd/0

161ksoftirqd/1

222ksoftirqd/2

283ksoftirqd/3

#ps-opid,psr,comm$(pgrepkworker)

PIDPSRCOMMAND

40kworker/0:0H

181kworker/1:0H

242kworker/2:0H

303kworker/3:0H

[...]

其中，PSR字段代表“处理器processor”。每个核还必须拥有自己的定时器和cpuhp热插拔处理程序。

那么用户空间是如何启动的呢？在最后，kernel_init()寻找可以代表它执行init进程的initrd。如果没有找到，内核直接执行init本身。那么为什么需要initrd呢？

早期的用户空间：谁规定要用initrd？

除了设备树之外，在启动时可以提供给内核的另一个文件路径是initrd的路径。initrd通常位于/boot目录中，与x86系统中的bzImage文件vmlinuz一样，或是与ARM系统中的uImage和设备树相同。用initramfs-tools-core软件包中的lsinitramfs工具可以列出initrd的内容。发行版的initrd方案包含了最小化的/bin、/sbin和/etc目录以及内核模块，还有/scripts中的一些文件。所有这些看起来都很熟悉，因为initrd大致上是一个简单的最小化Linux根文件系统。看似相似，其实不然，因为位于虚拟内存盘中的/bin和/sbin目录下的所有可执行文件几乎都是指向BusyBox二进制文件的符号链接，由此导致/bin和/sbin目录比glibc的小10倍。

如果要做的只是加载一些模块，然后在普通的根文件系统上启动init，为什么还要创建一个initrd呢？想想一个加密的根文件系统，解密可能依赖于加载一个位于根文件系统/lib/modules的内核模块，当然还有initrd中的。加密模块可能被静态地编译到内核中，而不是从文件加载，但有多种原因不希望这样做。例如，用模块静态编译内核可能会使其太大而不能适应存储空间，或者静态编译可能会违反软件许可条款。不出所料，存储、网络和人类输入设备（HID）驱动程序也可能存在于initrd中。initrd基本上包含了任何挂载根文件系统所必需的非内核代码。initrd也是用户存放自定义ACPI表代码的地方。

Linux系统之一个功能正常的系统启动过程分析

救援模式的shell和自定义的initrd还是很有意思的。

initrd对测试文件系统和数据存储设备也很有用。将这些测试工具存放在initrd中，并从内存中运行测试，而不是从被测对象中运行。

最后，当init开始运行时，系统就启动啦！由于第二个处理器现在在运行，机器已经成为我们所熟知和喜爱的异步、可抢占、不可预测和高性能的生物。的确，ps-opid,psr,comm-p1很容易显示用户空间的init进程已不在引导处理器上运行了。

总结

Linux引导过程听起来或许令人生畏，即使是简单嵌入式设备上的软件数量也是如此。但换个角度来看，启动过程相当简单，因为启动中没有抢占、RCU和竞争条件等扑朔迷离的复杂功能。只关注内核和PID1会忽略了引导程序和辅助处理器为运行内核执行的大量准备工作。虽然内核在Linux程序中是独一无二的，但通过一些检查ELF文件的工具也可以了解其结构。学习一个正常的启动过程，可以帮助运维人员处理启动的故障。

Linux系统之一个功能正常的系统启动过程分析

相关推荐