浅析Linux下core文件

仙游阁 2010-09-13

当我们的程序崩溃时,内核有可能把该程序当前内存映射到core文件里,方便程序员找到程序出现问题的地方。最常出现的,几乎所有C程序员都出现过的错误就是“段错误”了。也是最难查出问题原因的一个错误。下面我们就针对“段错误”来分析core文件的产生、以及我们如何利用core文件找到出现崩溃的地方。 

何谓core文件

当一个程序崩溃时,在进程当前工作目录的core文件中复制了该进程的存储图像。core文件仅仅是一个内存映象(同时加上调试信息),主要是用来调试的。

当程序接收到以下UNIX信号会产生core文件:

名字

说明

ANSICPOSIX.1

SVR44.3+BSD

缺省动作

SIGABRT

异常终止(abort)

..

..

终止w/core

SIGBUS

硬件故障

.

..

终止w/core

SIGEMT

硬件故障

..

终止w/core

SIGFPE

算术异常

..

..

终止w/core

SIGILL

非法硬件指令

..

..

终止w/core

SIGIOT

硬件故障

..

终止w/core

SIGQUIT

终端退出符

.

..

终止w/core

SIGSEGV

无效存储访问

..

..

终止w/core

SIGSYS

无效系统调用

..

终止w/core

SIGTRAP

硬件故障

..

终止w/core

SIGXCPU

超过CPU限制(setrlimit)

..

终止w/core

SIGXFSZ

超过文件长度限制(setrlimit)

..

终止w/core

在系统默认动作列,“终止w/core”表示在进程当前工作目录的core文件中复制了该进程的存储图像(该文件名为core,由此可以看出这种功能很久之前就是UNIX功能的一部分)。大多数UNIX调试程序都使用core文件以检查进程在终止时的状态。

core文件的产生不是POSIX.1所属部分,而是很多UNIX版本的实现特征。UNIX第6版没有检查条件(a)和(b),并且其源代码中包含如下说明:“如果你正在找寻保护信号,那么当设置-用户-ID命令执行时,将可能产生大量的这种信号”。4.3+BSD产生名为core.prog的文件,其中prog是被执行的程序名的前16个字符。它对core文件给予了某种标识,所以是一种改进特征。

表中“硬件故障”对应于实现定义的硬件故障。这些名字中有很多取自UNIX早先在DP-11上的实现。请查看你所使用的系统的手册,以确切地确定这些信号对应于哪些错误类型。

下面比较详细地说明这些信号。

•SIGABRT调用abort函数时产生此信号。进程异常终止。

•SIGBUS指示一个实现定义的硬件故障。

•SIGEMT指示一个实现定义的硬件故障。

EMT这一名字来自PDP-11的emulatortrap指令。

•SIGFPE此信号表示一个算术运算异常,例如除以0,浮点溢出等。

•SIGILL此信号指示进程已执行一条非法硬件指令。

4.3BSD由abort函数产生此信号。SIGABRT现在被用于此。

•SIGIOT这指示一个实现定义的硬件故障。

IOT这个名字来自于PDP-11对于输入/输出TRAP(input/outputTRAP)指令的缩写。系统V的早期版本,由abort函数产生此信号。SIGABRT现在被用于此。

•SIGQUIT当用户在终端上按退出键(一般采用Ctrl-\)时,产生此信号,并送至前台进

程组中的所有进程。此信号不仅终止前台进程组(如SIGINT所做的那样),同时产生一个core文件。

•SIGSEGV指示进程进行了一次无效的存储访问。

名字SEGV表示“段违例(segmentationviolation)”。

•SIGSYS指示一个无效的系统调用。由于某种未知原因,进程执行了一条系统调用指令,

但其指示系统调用类型的参数却是无效的。

•SIGTRAP指示一个实现定义的硬件故障。

此信号名来自于PDP-11的TRAP指令。

•SIGXCPUSVR4和4.3+BSD支持资源限制的概念。如果进程超过了其软CPU时间限制,则产生此信号。

•SIGXFSZ如果进程超过了其软文件长度限制,则SVR4和4.3+BSD产生此信号。

摘自《UNIX环境高级编程》第10章信号。

使用core文件调试程序

看下面的例子:

/*core_dump_test.c*/

#include<stdio.h>

constchar*str="test";

voidcore_test(){

str[1]='T';

}

intmain(){

core_test();

return0;

}

编译:

gcc–gcore_dump_test.c-ocore_dump_test

如果需要调试程序的话,使用gcc编译时加上-g选项,这样调试core文件的时候比较容易找到错误的地方。

执行:

./core_dump_test

段错误

运行core_dump_test程序出现了“段错误”,但没有产生core文件。这是因为系统默认core文件的大小为0,所以没有创建。可以用ulimit命令查看和修改core文件的大小。

ulimit-c0

ulimit-c1000

ulimit-c1000

-c指定修改core文件的大小,1000指定了core文件大小。也可以对core文件的大小不做限制,如:

ulimit-cunlimited

ulimit-cunlimited

如果想让修改永久生效,则需要修改配置文件,如.bash_profile、/etc/profile或/etc/security/limits.conf。

再次执行:

./core_dump_test

段错误(coredumped)

lscore.*

core.6133

可以看到已经创建了一个core.6133的文件.6133是core_dump_test程序运行的进程ID。

调式core文件

core文件是个二进制文件,需要用相应的工具来分析程序崩溃时的内存映像。

filecore.6133

core.6133:ELF32-bitLSBcorefileIntel80386,version1(SYSV),SVR4-style,from'core_dump_test'

在Linux下可以用GDB来调试core文件。

gdbcore_dump_testcore.6133

GNUgdbRedHatLinux(5.3post-0.20021129.18rh)

Copyright2003FreeSoftwareFoundation,Inc.

GDBisfreesoftware,coveredbytheGNUGeneralPublicLicense,andyouare

welcometochangeitand/ordistributecopiesofitundercertainconditions.

Type"showcopying"toseetheconditions.

ThereisabsolutelynowarrantyforGDB.Type"showwarranty"fordetails.

ThisGDBwasconfiguredas"i386-redhat-linux-gnu"...

Corewasgeneratedby`./core_dump_test'.

Programterminatedwithsignal11,Segmentationfault.

Readingsymbolsfrom/lib/tls/libc.so.6...done.

Loadedsymbolsfor/lib/tls/libc.so.6

Readingsymbolsfrom/lib/ld-linux.so.2...done.

Loadedsymbolsfor/lib/ld-linux.so.2

#00x080482fdincore_test()atcore_dump_test.c:7

7str[1]='T';

(gdb)where

#00x080482fdincore_test()atcore_dump_test.c:7

#10x08048317inmain()atcore_dump_test.c:12

#20x42015574in__libc_start_main()from/lib/tls/libc.so.6

GDB中键入where,就会看到程序崩溃时堆栈信息(当前函数之前的所有已调用函数的列表(包括当前函数),gdb只显示最近几个),我们很容易找到我们的程序在最后崩溃的时候调用了core_dump_test.c第7行的代码,导致程序崩溃。注意:在编译程序的时候要加入选项-g。您也可以试试其他命令, 如 fram、list等。更详细的用法,请查阅GDB文档。

core文件创建在什么位置

在进程当前工作目录的下创建。通常与程序在相同的路径下。但如果程序中调用了chdir函数,则有可能改变了当前工作目录。这时core文件创建在chdir指定的路径下。有好多程序崩溃了,我们却找不到core文件放在什么位置。和chdir函数就有关系。当然程序崩溃了不一定都产生core文件。

什么时候不产生core文件

在下列条件下不产生core文件:

(a)进程是设置-用户-ID,而且当前用户并非程序文件的所有者;

(b)进程是设置-组-ID,而且当前用户并非该程序文件的组所有者;

(c)用户没有写当前工作目录的许可权;

(d)文件太大。core文件的许可权(假定该文件在此之前并不存在)通常是用户读/写,组读和其他读。

利用GDB调试core文件,当遇到程序崩溃时我们不再束手无策。 

在程序不寻常退出时,内核会在当前工作目录下生成一个core文件(是一个内存映像,同时加上调试信息)。使用gdb来查看core文件,可以指示出导致程序出错的代码所在文件和行数。

1.core文件的生成开关和大小限制

1)使用ulimit-c命令可查看core文件的生成开关。若结果为0,则表示关闭了此功能,不会生成core文件。

 2)使用ulimit -c filesize命令,可以限制core文件的大小(filesize的单位为kbyte)。若ulimit -c unlimited,则表示core文件的大小不受限制。如果生成的信息超过此大小,将会被裁剪,最终生成一个不完整的core文件。在调试此core文件的时候,gdb会提示错误。

2.core文件的名称和生成路径

core文件生成路径:

输入可执行文件运行命令的同一路径下。

若系统生成的core文件不带其它任何扩展名称,则全部命名为core。新的core文件生成将覆盖原来的core文件。

1)/proc/sys/kernel/core_uses_pid可以控制core文件的文件名中是否添加pid作为扩展。文件内容为1,表示添加pid作为扩展名,生成的core文件格式为core.xxxx;为0则表示生成的core文件同一命名为core。

可通过以下命令修改此文件:

echo "1" > /proc/sys/kernel/core_uses_pid

2)proc/sys/kernel/core_pattern可以控制core文件保存位置和文件名格式。

可通过以下命令修改此文件:

echo"/corefile/core-%e-%p-%t">core_pattern,可以将core文件统一生成到/corefile目录下,产生的文件名为core-命令名-pid-时间戳

以下是参数列表:

%p-insertpidintofilename添加pid

%u-insertcurrentuidintofilename添加当前uid

%g-insertcurrentgidintofilename添加当前gid

%s-insertsignalthatcausedthecoredumpintothefilename添加导致产生core的信号

%t-insertUNIXtimethatthecoredumpoccurredintofilename添加core文件生成时的unix时间

%h-inserthostnamewherethecoredumphappenedintofilename添加主机名

    %e - insert coredumping executable name into filename 添加命令名

3.core文件的查看

core文件需要使用gdb来查看。

gdb./a.out

core-filecore.xxxx

使用bt命令即可看到程序出错的地方。

以下两种命令方式具有相同的效果,但是在有些环境下不生效,所以推荐使用上面的命令。

1)gdb-core=core.xxxx

file./a.out

bt

2)gdb-ccore.xxxx

file./a.out

bt

4.开发板上使用core文件调试

如果开发板的操作系统也是linux,core调试方法依然适用。如果开发板上不支持gdb,可将开发板的环境(依赖库)、可执行文件和core文件拷贝到PC的linux下。

在PC上调试开发板上产生的core文件,需要使用交叉编译器自带的gdb,并且需要在gdb中指定solib-absolute-prefix和solib-search-path两个变量以保证gdb能够找到可执行程序的依赖库路径。有一种建立配置文件的方法,不需要每次启动gdb都配置以上变量,即:在待运行gdb的路径下建立.gdbinit。

配置文件内容:

setsolib-absolute-prefixYOUR_CROSS_COMPILE_PATH

setsolib-search-pathYOUR_CROSS_COMPILE_PATH

setsolib-search-pathYOUR_DEVELOPER_TOOLS_LIB_PATH

handle SIG32 nostop noprint pass

注意:待调试的可执行文件,在编译的时候需要加-g,core文件才能正常显示出错信息!有时候core信息很大,超出了开发板的空间限制,生成的core信息会残缺不全而无法使用,可以通过挂载到PC的方式来规避这一点。

相关推荐