作者简介:乔哲,西安邮电大学研一在读,Linux内核之旅社区成员。
BPFtrace是一个基于BCC和eBPF技术的开源跟踪工具,同时提供高级编程语言用于创建功能强大的单行程序和BPFtrace工具。相较于BPF c和BPF python在自定义工具方面有着不可比拟的优势。有利于初学者快速创建属于自己的工具。
文章主要内容包括:
- BPFtrace的特性
- BPFtrace和Ftrace比较
- BPFtrace编程
BPFtrace特性
- 插桩所需要的额外系统开销较低
- 在生产环境中只能由root用户使用
- 工具应尽量简单、短小。更复杂的工具需要借助BCC实现。
- 新手教学文档和帮助文档齐全、完整。
BPFtrace和Ftrace比较
BPFtrace提供一种和c语言以及awk非常相似的编程语言,而Ftrace则使用一种自有语法来实现对内核的探测功能。由于Ftrace所需要的依赖比BPFtrace少,因此Ftrace更适用于嵌入式Linux环境,BPFtrace适合个人计算机或服务器环境。Ftrace在某些功能上经过专门的性能优化,因而在一些特定事件上 Ftrace比BPFtrace更加高效。
BPFtrace编程
1. 编写hello world!
单行程序:
文件格式:
BEGIN{printf( "hello world!\n"); }//文档格式中换行和缩进不是必须的//文档运行方式:bpftrace 文档名;文档后缀.bt,也可以不用加后缀
程序运行后会打印出“hello world!”,按Ctrl+c退出程序。
从上面程序中可以看出bpftrace单行程序基本格式为:bpftrace -e '探针 {代码块} 探针 {代码块} ......',代码段需要放在单引号中,避免shell对其进行解释。文档程序的编写方式和单行程序一样。
2. 读取用户态函数参数
用户程序:
inta = 1, b = 2;
intadd( intx, inty) {returnx + y; }
intmain{intc; c = add(a, b); printf( "%d\n", c); return0; }
bpftrace单行程序:
打印结果:
@a: 1
这块打印用户态程序add函数的第一个参数,用内置变量arg0表示,通过映射变量a输出数据。若需要跟踪其他参数可以使用arg1、arg2 ...... argN表示。
通过上面两个例子让我们对bpftrace有个直观感受,但是在正式编写可用工具之前还需要熟悉几个知识点:
1.程序注释:bpftrace注释方式和c语言一样:
/**多行注释*/
2.探针格式:
标识符的类型由探针类型决定。内核级别的探针可以使用“pbftrace -l”命令查看,这个命令会以标准格式完整的打印出bpftrace支持的跟踪点。用户态探针格式为‘uprobe:用户程序二进制文档的绝对地址:跟踪的函数名’。例如:
3.探针通配符:
这会对bpftrace支持的所有以vfs_开头的内核函数进行插桩。通配符不仅可以在探针插桩上使用,而且也能在查找跟踪点上使用。例如:
这个命令会打印出bpftrace支持的所有以vfs_*开头的内核函数。
4.过滤器:
过滤器是一个布尔表达式,当检查内容为真时才会继续执行后面的程序。例如下面的过滤条件:
5.代码块:
一个代码块可以是单条语句,也可以是多条语句,多条语句需要使用分号将语句分隔。例如:
6.函数:
除了第一个例子中的printf之外,还有time、exit、str等,更多支持的函数参考https://github.com/iovisor/bpftrace/blob/master/docs/reference_guide.md
7.变量:
变量分为内置变量、临时变量和映射变量。
7.1 内置变量:由bpftrace预先定义好,可以直接读取信息的变量。例如表示进程ID的pid变量,表示进程名的comm表示以纳秒为单位的nsecs等。
7.2 临时变量:可以用于临时存储数据、计算的变量。以‘‘$’’作为前缀。例如:
7.3 映射变量:使用映射表存储数据,以“@”作为前缀,同时也可以用作全局存储,在不同语句间传递数据。
编写小工具,打印进程调用vfs_read函数需要的时间
目标:利用上面所学的知识点,计算进程调用vfs_read函数所需要的时间,并用直方图的形式打印。
单行程序:
文档程序:
kretprobe: vfs_read/ @start[pid]/ {@ns[comm] = hist( nsecs- @start[pid]); delete(@start[pid]);}
程序使用kprobe对函数开始位置进行插桩,读取开始调用函数时的时间。使用kretprobe读取函数结束时的时间,然后两个时间做减法,计算出进程调用vfs_read函数的时间。最后利用hist函数将数据打印出来。这块使用 /@start[pid]/作为过滤条件,是为了确保程序已经记录了函数调用的起始时间,否则会出现错误数据。
学习资料:
《BPF之巅》
https://github.com/iovisor/bpftrace/blob/master/docs/返回搜狐,查看更多
责任编辑: