目前流行的Native Crash捕获方案
方案 | 优点 | 缺点 |
---|---|---|
Google Breakpad | 官方出品,多平台支持,文档全面 | 代码体量大,crash信息保存在mini_dump文件中,拿到dump文件后,需要再次解析才能获取crash堆栈 |
利用Logcat日志 | 利用Android系统实现 | 需要再Crash时启动新进程过滤logcat日志,不可靠 |
unwind库 | 实现简单,改动容易。很多三方库也是基于该方案 | 需要了解信号机制,自行实现获取Crash堆栈方式 |
本次实践采用方案三(unwind)
- 使用
信号量+<unwind.h>
库。 - 崩溃信息写入文件,通过 log 上传到日志平台(Elastic)
- 下次启动后读取文件内容上报,然后删除文件
- 对java层的崩溃捕获不会有任何影响,Native层Crash bugly不再能够捕获异常
实现方案细节
要实现 Native Crash 的收集,主要有四个重点:
- 知道 Crash 的发生;
- 捕获到 Crash 的位置;
- 获取 Crash 发生位置的函数调用栈;
- 数据能回传到服务器。
一、知道 Crash 的发生
与 Java 平台不同,C/C++ 没有一个通用的异常处理接口,在 C 层,CPU 通过异常中断的方式,触发异常处理流程。不同的处理器,有不同的异常中断类型和中断处理方式,linux 把这些中断处理,统一为信号量,每一种异常都有一个对应的信号,可以注册回调函数进行处理需要关注的信号量。
信号量定义在 signal.h 中,常见的信号量有:
注册信号处理函数,也是在 signal.h 中:int sigaction(int __signal, const struct sigaction* __new_action, struct sigaction* __old_action);
- 第一个参数 int 类型,表示需要关注的信号量
- 第二个参数 sigaction 结构体指针,用于声明当某个特定信号发生的时候,应该如何处理
- 第三个参数也是 sigaction 结构体指针,他表示的是默认处理方式,当我们自定义了新的信号量处理的时候,用他来存储之前默认的处理方式。
这也是指针与引用的区别,指针操作操作的都是变量本身,所以给新指针赋值了以后,需要另一个指针来记录封装了默认处理方式的变量在内存中的位置。
sigaction 内容结构体如下:struct sigaction {
union {
sighandler_t sa_handler;
void (*sa_sigaction)(int, struct siginfo*, void*);
};
sigset_t sa_mask;
int sa_flags;
void (*sa_restorer)(void);
};
sa_sigaction就是信号处理函数的指针,这个指针指向的是一个拥有三个参数的函数,结构体中定义的函数指针为:
void (*sa_sigaction)(int, struct siginfo_t *,void *) |
- 1.第一个参数为信号值
- 2.第二个参数为信号的一些具体信息
- 3.第三个参数为一些上下文信息, 包括崩溃时的 pc 值
siginfo_t 结构体
siginfo_t { |
结构体内包含了我们常见的si_signo、si_code、si_errno等。类似:Native Crash, signal: 11, tname: conorlee.test, pid: 13283, tid: 13283, code: 1, error: 0
所以,要订阅异常发生的信号,最简单的做法就是直接用一个循环遍历所有要订阅的信号,对每个信号调用sigaction(),如下示例:
void init() { |
二、捕获到Crash的位置
然后,我们仿照上面的信号处理函数定义,可以声明一个函数,直接将函数的地址赋值给sa_sigaction
// 我们声明的函数 |
这样当发生 Crash 的时候就会回调我们传入的signal_handle()函数了。在signal_handle()函数中,通过siginfo_t 结构体,我们就能拿到当前执行的代码信息。
设置紧急栈空间
如果当前函数发生了无限递归造成堆栈溢出,在统计的时候需要考虑到这种情况来新开堆栈,否则本来就满了的堆栈又在当前堆栈处理溢出信号,处理肯定是会失败的。所以我们需要设置一个用于紧急处理的新栈,可以使用 sigaltstack() 在任意线程注册一个可选的栈,保留一下在紧急情况下使用的空间。(系统会在危险情况下把栈指针指向这个地方,使得可以在一个新的栈上运行信号处理函数)
void signal_handle_test(int sig) { |
三、捕获出问题的代码
signal_handle() 函数中的第三个参数 context 是uc_mcontext的结构体指针,它封装了 cpu 相关的上下文,包括当前线程的寄存器信息和奔溃时的 pc 值,能够知道崩溃时的pc,就能知道崩溃时执行的是那条指令。
不过uc_mcontext结构体的定义是平台相关的,比如我们熟知的arm、x86这种都不是同一个结构体定义,要兼容其他架构的 cpu 在处理的时候,就得要寄出宏编译大法,不同的架构使用不同的定义,如下展示了不同架构获取pc值(绝对内存地址)的不同方式:
uintptr_t pc_from_ucontext(const ucontext_t *uc) { |
pc值转内存地址
pc值是程序加载到内存中的绝对地址,绝对地址不能直接使用,因为每次程序运行创建的内存肯定都不是固定区域的内存,所以绝对地址肯定每次运行都不一致。我们需要拿到崩溃代码相对于当前库的相对偏移地址,这样才能使用 addr2line 分析出是哪一行代码。
通过 dladdr() 可以获得共享库加载到内存的起始地址,和pc值相减就可以获得相对偏移地址,并且可以获得共享库的名字。
Dl_info info; |
获取 Crash 发生时的函数调用栈
获取函数调用栈是最麻烦的,至今没有一个好用的,全都要做一些大改动。常见的做法有四种:
- 第一种:直接使用系统的
<unwind.h>
库,可以获取到出错文件与函数名。只不过需要自己解析函数符号,同时经常会捕获到系统错误,需要手动过滤。 - 第二种:在4.1.1以上,5.0以下,使用系统自带的 libcorkscrew.so,5.0开始,系统中没有了libcorkscrew.so,可以自己编译系统源码中的libunwind。libunwind是一个开源库,事实上高版本的安卓源码中就使用了他的优化版替换 libcorkscrew。
- 第三种:使用开源库coffeecatch,但是这种方案也不能百分之百兼容所有机型。
- 第四种:使用 Google 的breakpad,这是所有 C/C++堆栈获取的权威方案,基本上业界都是基于这个库来做的。只不过这个库是全平台的 android、iOS、Windows、Linux、MacOS 全都有,所以非常大,在使用的时候得把无关的平台剥离掉减小体积。
下面以第一种为例讲一下实现:
核心方法是使用<unwind.h>
库提供的一个方法_Unwind_Backtrace()
这个函数可以传入一个函数指针作为回调,指针指向的函数有一个重要的参数是_Unwind_Context
类型的结构体指针。
可以使用_Unwind_GetIP()
函数将当前函数调用栈中每个函数的绝对内存地址(也就是上文中提到的 pc 值),写入到_Unwind_Context结构体中,最终返回的是当前调用栈的全部函数地址了,_Unwind_Word实际上就是一个unsigned int。
而capture_backtrace()返回的就是当前我们获取到调用栈中内容的数量。
/** |
当所有的函数的绝对内存地址(pc 值)都获取到了,就可以用上文讲的办法将 pc 值转换为相对偏移量,获取到真正的函数信息和相对内存地址了。void *buffer[max_line];
int frames_size = capture_backtrace(buffer, max_line);
for (int i = 0; i < frames_size; i++) {
Dl_info info;
const void *addr = buffer[i];
if (dladdr(addr, &info) && info.dli_fname) {
void * const nearest = info.dli_saddr;
uintptr_t addr_relative = addr - info.dli_fbase;
}
Dl_info是一个结构体,内部封装了函数所在文件、函数名、当前库的基地址等信息
具体结构体如下:typedef struct {
/* Pathname of shared object that contains address. */
const char* dli_fname;
/* Address at which shared object is loaded. */
void* dli_fbase;
/* Name of nearest symbol with address lower than addr. */
const char* dli_sname;
/* Exact address of symbol named in dli_sname. */
void* dli_saddr;
} Dl_info;
有了这个对象,我们就能获取到全部想要的信息了。虽然获取到全部想要的信息,但<unwind.h>
有个麻烦的就是不想要的信息也给你了,所以需要手动过滤掉各种系统错误,最终得到的数据,就可以上报到自己的服务器了。
如何分析上面抓到各种信息,可以看我的下一篇文章:《Native Crash日志分析》
四、数据传回到服务器
数据回传有两种方式,一种是直接将信息写入文件,下次启动的时候直接由 Java 上报;另一种就是回调 Java 代码,让 Java 去处理。用 Java 处理的好处是 Java 层可以继续在当前上下文上加上 Java 层的各种状态信息,写入到同一个文件中,使得开发在解决 bug 的时候能更方便。
目前遗留的问题
64位so在部分设备(比如我自己的 IQOO)上无法获取到崩溃堆栈,只能捕获到信号,但是32位的so没有这个问题数据可以上传到java层,但是日志上报是在java层的子线程,native无法等待子线程执行完成堆栈信息在java层上传的时候未格式化- 部分backtrace没有关键信息,比如一些SIGSEGV
Ref
本文链接:http://agehua.github.io/2023/11/02/native-crash-principle/