Doris开发手记5:一场链接引发“吊诡”的性能问题

news/2024/10/3 14:31:03

近期正在对 Doris 的性能问题展开排查,发现了一个极为“吊诡”的函数执行性能问题。经过一系列的CPU热点代码分析之后,发现“罪魁祸首”居然是libtoolchain中的静态库导致的。借用本篇手记记录下问题的发现,希望记录下一些对于C/C++程序链接问题的分析思路,也希望读者也能有所收获。

1.奇怪的性能问题

最近发现了一个奇怪的性能问题,Doris的cos函数居然比sin函数快了有百倍之多

sin函数的性能:
sin函数性能

cos函数的性能:
cos函数性能

于是实际分析了一下现有Doris的函数实现代码,发现无论是cos和sin都是调用了cmath的标准的std的函数,能有这么大的差距确实让人匪夷所思。

通过Perf工具来分析一下函数的CPU占用情况,来进一步分析是哪里出了问题?

奇怪的调用

通过汇编发现了这里的猫腻,果不其然,两个函数生成的汇编函数调用有着明显的区别

  • sin函数
    sin函数的汇编调用

乍看之下,就是一个正常的函数跳转调用的过程,并无不妥之处。而真相藏在下面cos函数的调用汇编里。

  • cos函数
    cos函数的汇编调用

    在这里发现和上面sin函数调用的一个小区别,变成了callq cos@plt, 这里多出了@plt的标识是Procedure Linkage Table(过程链接表,简称PLT)。即每个在程序中被调用的外部函数在PLT中都有一个对应的条目。当程序首次调用某个共享库函数时,PLT会负责解析该函数的实际地址(如果尚未解析),然后通过跳转到该实际地址来执行函数。那就说明cos函数是动态链接调用的,而sin函数却是静态链接进来的。

分析:Doris的代码或链接库应该在某处实现了一个低效率的sin函数,奇怪的静态链接进来了,从而没有调用到真正libm.so里应该被动态链接的sin函数。 (可恶的C语言,函数没有命名空间和重载,链接问题解决起来简直是....)由于libm的标准库是基于平台且高度优化的,sin出现性能差也就不足为奇了。

2.验证想法,解决性能问题

好的,既然有了怀疑问题的点了,那么就开始研究解决方案。那这里的思路也很简单,既然cos函数是动态链接的,那莫不如笔者也强行动态链接一把,利用dlopen找到需要的sin函数来验证性能。

2.1 dlopen与dlsym

dlopen是POSIX标准库中的一个函数,用于在运行时动态地加载共享函数库。它是动态链接机制的一部分,允许程序在执行过程中根据需要加载库,而不是在编译时静态链接所有依赖的库。这对于模块化编程、插件系统、减少内存占用、以及在不重新编译整个程序的情况下更新库等功能非常有用。

void* dlopen(const char* filename, int flags);

dlsym 用于在运行时从已打开的动态链接库中查找并获取符号(比如函数)的地址。

void* dlsym(void* handle, const char* symbol);

通过二者的配合,我们可以打开一个动态链接库,并通过函数名提取对应的函数,这样就能够绕开静态链接的sin,调用到笔者期待的libm.so提供的sin函数了。

2.2 代码开发

思路是最难的,写代码永远是最简单的。直接上笔者修改Doris的代码吧:

struct UnaryFunctionPlainSin {using Type = DataTypeFloat64;static constexpr auto name = "sin";using FuncType = double (*)(double);static FuncType get_sin_func() {void* handle = dlopen("libm.so.6", RTLD_LAZY);if (handle) {if (auto sin_func = (double (*)(double))dlsym(handle, "sin"); sin_func) {return sin_func;}dlclose(handle);}return std::sin;}static void execute(const double* src, double* dst) {static auto sin_func = get_sin_func();*dst = sin_func(*src);}
};

代码很简单,简单解释一下就好:这里通过dlopen 打开libm.so的动态库, 并且用dlsym获取了对应sin函数的函数指针。那么后续直接用sin_func这个函数指针就可以调用到libm.so里的sin函数了。

果然,药到病除,Doris的性能再次起飞~~~

image.png

3. 刨根问底,发现链接之处

通过上一小节对代码性能的验证,进一步实锤了笔者的怀疑。那么接下来需要逮捕这个奇怪的sin函数的源头,究竟是从哪里链接进来的呢?

通过traceing 链接器的链接结果,发现了sin函数定位在了ldb_toolchain提供的静态库里glibc-compatibility.a

找到引入的静态库

于是在鸟哥的帮助之下, 找到了引入了sin函数commit,看起来musl库引入了sin函数的符号在链接顺序上提前链接在libm.sosin函数上,导致出现这次的性能乌龙。而后续ldb_toolchain剔除对应的数学库在glibc-compatibility.a上的实现,则能够彻底解决该问题。

碎碎念:幸好当时没顺手实现cos,否则笔者的问题定位起来会更加的扑朔迷离

4.小结

Bingo! 到此为止,问题顺利解决,又可以重新体验Doris的丝滑极速了。

本文特别鸣谢社区小伙伴:

  • @JackDrogon的指点分析
  • @amosbird的协助排查和耐心指点,感恩@amosbird提供了丝滑的ldb toolchain工具, 它给了Doris最友好的编译体验。

最后,也希望大家多多支持Apache Doris,多多给Doris贡献代码,感谢~~

5.参考链接

修复Pull Request
Ldb toolchain的修复版本

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.ryyt.cn/news/44595.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈,一经查实,立即删除!

相关文章

中西文化比较

这本书名为《Western Civilization with Chinese Comparisons》,由John G. Blair和Jerusha Hull McCormack合著,是一本专注于西方文明与中国文明比较研究的教材。以下是对书中核心知识点的快速总结: 1. **文明比较的目的**:本书强调通过比较不同文明来增进对各自独特性的理…

FreeRTOS简单内核实现5 阻塞延时

增加阻塞延时,初步实现任务并行运行效果0、思考与回答 0.1、思考一 为什么 FreeRTOS简单内核实现3 任务管理 文章中实现的 RTOS 内核不能看起来并行运行呢? Task1 延时 100ms 之后执行 taskYIELD() 切换到 Task2,Task2 延时 500ms 之后执行 taskYIELD() 再次切换 Task1 ,在…

阿里也出手了!Spring CloudAlibaba AI问世了

写在前面 在之前的文章中我们有介绍过SpringAI这个项目。SpringAI 是Spring 官方社区项目,旨在简化 Java AI 应用程序开发, 让 Java 开发者想使用 Spring 开发普通应用一样开发 AI 应用。 而SpringAI 主要面向的是国外的各种大模型接入,对于国内开发者可能不太友好。 于是乎…

【译】向您介绍改版的 Visual Studio 资源管理器

随着最近 Visual Studio 的资源管理器的改进,开发人员将得到一种全新的享受!我们非常激动地宣布重新设计的 Visual Studio 资源管理器,相信我们,它将改变游戏规则。随着最近 Visual Studio 的资源管理器的改进,开发人员将得到一种全新的享受!我们非常激动地宣布重新设计的…

OpenVX使用案例分析

OpenVX使用案例分析 用例 1 第一个用例涉及 2 个vx_reference,一个已经为vx_reference分配了内存缓冲区,另一个没有。 (注意:有关何时发生内存缓冲区分配的更多信息,请参阅 TIOVX 中的内存管理。这些用例图描述了如何成功地将内存缓冲区从一个vx_reference导入到下一个,而…

多种方案图文并茂分分钟教你解决Kubernetes(k8s)容器安全问题(不断更新中)

Kubernetes(k8s)Secrets in clear text environment variables 明文中的秘密环境变量 问题详解在Kubernetes(k8s)中,Secrets用于管理诸如密码、令牌和密钥等敏感信息。安全地存储这些密钥至关重要。然而,将密钥直接注入到明文环境变量中可能会使它们面临潜在的安全风险。…

团队总结 - Beta版总结会议

在过去的几周中,我们团队共同努力完成了我们的项目。在这次会议中,我们将简要总结我们的成果以及我们仍需要改进的方面。 设想和目标: 解决问题:我们的软件旨在解决已发生或可能发生校园霸凌的问题,我们将基于AI大模型通过和用户的聊天,定点解决用户得心理痛点以及用户学…

Current without potential difference(没有电位差为什么还有会电流?)

Reference:Current without potential difference电路短路时,电池正极和负极之间的电位差虽然在理想情况下应该接近于0,但在实际情况下仍然会有一些电位差存在。这些电位差和电流的产生有几个主要原因: 1. 电池内阻 电池并不是一个理想的电源,它具有内阻。当电池短路时,电…