1.LevelDB 源码剖析1 -- 原理
2.Linux 调试秘籍深入探索 C++运行时获取堆栈信息和源代码行数的量堆终极指南
3.DenseNet源码解读(pytorch官方)
4.自然语言处理大模型BLOOM模型结构源码解析(张量并行版)
5.开源项目|高性能内存分配库mimalloc
6.找到卡顿来源,BlockCanary源码精简分析
LevelDB 源码剖析1 -- 原理
LSM-Tree,源码源码全称Log-Structured Merge Tree,堆量被广泛应用于数据库系统中,指标如HBase、量堆Cassandra、源码源码烟台产妇吃溯源码燕窝LevelDB和SQLite,堆量甚至MongoDB 3.0也引入了可选的指标LSM-Tree引擎。这种数据结构旨在提供优于传统B+树或ISAM(Indexed Sequential Access Method)方法的量堆写入吞吐量,通过避免随机的源码源码本地更新操作实现。
LSM-Tree的堆量核心思想基于磁盘性能的特性:随机访问速度远低于顺序访问,三个数量级的指标差距。因此,量堆简单地将数据附加至文件尾部(日志或堆文件策略)可以提供接近理论极限的源码源码写入吞吐量。尽管这种方法足够简单且性能良好,堆量但它有一个明显的缺点:从日志中随机读取数据需要花费更多时间,因为需要按时间顺序从近及远扫描日志直至找到所需键。因此,日志策略仅适用于简单的数据访问场景。
为了应对更复杂的读取需求,如基于键的搜索、范围搜索等,LSM-Tree引入了一种改进策略,通过创建一系列排序文件来存储数据,每次写入都会生成一个新的文件,同时保留了日志系统优秀的写性能。在读取数据时,系统会检查所有文件,并定期合并文件以减少文件数量,从而提高读取性能。
在LSM-Tree的基本算法中,写入数据按照顺序保存到一组较小的排序文件中。每个文件代表了一段时间内的数据变更,且在写入前进行排序。内存表作为写入数据的缓冲区,用于保持键值的顺序。当内存表填满后,已排序的数据刷新到磁盘上的新文件。系统会周期性地执行合并操作,选择一些文件进行合并,以减少文件数量和删除冗余数据,同时维持读取性能。
读取数据时,系统首先检查内存缓冲区,若未找到目标键,则以反向时间顺序检查各个文件,php直销源码php直播源码直到找到目标键。合并操作通过定期将文件合并在一起,控制文件数量和读取性能,即使文件数量增加,读取性能仍可保持在可接受范围内。通过使用内存中保存的页索引,可以优化读取操作,尤其是在文件末尾保留索引块,这通常比直接二进制搜索更高效。
为了减少读取操作时访问的文件数量,新实现采用了分级合并(Leveled Compaction),即基于级别的文件合并策略。这不仅减少了最坏情况下需要访问的文件数量,还减少了单次压缩的副作用,同时提供更好的读取性能。分级合并与基本合并的主要区别在于文件合并的策略,这使得工作负载扩展合并的影响更高效,同时减少总空间需求。
Linux 调试秘籍深入探索 C++运行时获取堆栈信息和源代码行数的终极指南
在软件开发的世界里,特别是在C++领域,运行时错误和异常是常见的挑战。这些错误和异常往往需要开发者深入探索、分析和解决。在这个过程中,获取运行时的堆栈信息和代码行数成为了一项至关重要的任务。正如《代码大全》(Code Complete) 中所说:“好的代码是自我解释的。” 但在现实世界中,当面临复杂的、多层次的代码结构时,我们需要更多的上下文信息来理解和解决问题。
在C++中,获取运行时的堆栈信息和代码行数并不像看上去那么简单。我们常常需要依赖外部工具和库来帮助我们完成这项任务。但是,这并不意味着我们无法在代码内部实现这一功能。通过深入探索和学习,我们可以找到合适的方法和技术来实现这一目标。
在本文中,我们将探讨如何使用backtrace, dladdr, 和 libbfd 的组合来获取运行时的堆栈信息和代码行数。我们将从底层原理出发,深入分析每个函数和库的工作原理和使用方法。我们将通过实例代码,展示如何整合这些技术来实现我们的目标。
正如《C++编程思想》(The C++ Programming Language) 中所说:“C++的设计目标是表达直观的设计。” 我们的俄罗斯源码端游源码目标也是通过直观、清晰的代码和解释,帮助读者理解这一复杂但有趣的主题。
在GCC的源码中,我们可以找到backtrace 和 dladdr 函数的具体实现。这些函数位于 libgcc 和 glibc 中,通过深入分析这些源码,我们可以更好地理解它们的工作原理和限制。
通过阅读本文,读者将能够了解如何使用backtrace 函数获取当前的堆栈地址,并使用 backtrace_symbols 函数将这些地址转换为人类可读的字符串形式。这些字符串通常包含函数名、偏移量和地址。我们还将讨论如何使用 dladdr 函数解析堆栈地址,获取函数名和所在的动态链接库信息。libbfd 库将用于获取源代码的行数信息。通过详细的代码示例、图表和解释,我们将帮助读者逐步理解和掌握这些技术。
正如《深入理解计算机系统》中所说:“堆栈跟踪是程序运行时的快照,它展示了函数调用的层次结构和执行路径。” 获取堆栈信息对于调试和优化代码至关重要。
接下来,我们将深入探讨如何使用backtrace 函数获取堆栈信息。backtrace 是一个强大的工具,它能帮助我们在程序运行时捕获当前的堆栈跟踪信息。
在获取堆栈信息后,我们将讨论如何解析这些信息,以获取更具体的信息,例如函数名和源代码行数。我们将深入分析 dladdr 函数的工作原理,以及如何使用它解析堆栈地址。此外,我们还将探讨 libbfd 库如何帮助我们从堆栈地址中获取源代码的文件名和行号。
为了提供一个完整的解决方案,我们将整合所有步骤,展示如何从获取堆栈信息到解析堆栈地址,再到获取源代码行数,形成一个完整的、自动化的解决方案。
在解决可能出现的问题方面,我们将详细探讨符号缺失、动态链接库的影响、编译器和平台差异以及复杂或模糊的堆栈信息等问题,并提供相应的解决方案。我们的红角鸮源码60专精源码目标是确保实现既准确又完整,能够在各种情况下可靠地工作。
总结而言,通过综合应用backtrace, dladdr, 和 libbfd 等技术,我们不仅解决了运行时获取堆栈信息和源代码行数的复杂问题,还为读者展示了这些技术的实际应用和深层次原理。在这个过程中,我们不仅学习了技术,更深入探讨了技术背后的原理和思维。
DenseNet源码解读(pytorch官方)
DenseNet源码解析:一个基于PyTorch实现的深度密集连接网络模型,提供了一系列预训练模型选项。首先,我们引入必要的库,如ReLU、卷积层、批量归一化和函数模块。DenseNet的核心是通过`_bn_function_factory`函数拼接前一层的特征,然后通过一系列的卷积块进行特征提取,包括1x1卷积、ReLU激活和3x3卷积,形成了密集层 `_DenseLayer`。该层可以设置内存高效模式以节省内存。在 `_DenseBlock` 中,通过循环堆叠指定数量的密集层,并在每个块之间插入降采样层 `_Transition` 以控制通道数量的增长。模型类 `DenseNet` 建立了整套网络结构,包括初始卷积层、多个密集块、过渡层以及最终的全局平均池化和全连接层。提供了针对不同配置(如densenet、densenet等)的预训练模型加载方法 `_densenet`,用户可以根据需求选择并加载预训练权重。
每个模型函数,如`densenet`,接受参数如预训练状态、进度条显示等,允许用户根据需要定制网络行为。总的来说,DenseNet的设计旨在通过密集连接和递增特征组合来提升模型性能,适用于图像识别等计算机视觉任务。
自然语言处理大模型BLOOM模型结构源码解析(张量并行版)
BLOOM模型结构解析,采用Megatron-DeepSpeed框架进行训练,张量并行采用1D模式。基于BigScience开源代码仓库,本文将详细介绍张量并行版BLOOM的原理和结构。 单机版BLOOM解析见文章。html源码和php源码下载 模型结构实现依赖mpu模块,推荐系列文章深入理解mpu工具。 Megatron-DeepSpeed张量并行工具代码mpu详解,覆盖并行环境初始化、Collective通信封装、张量并行层实现、测试以及Embedding层、交叉熵实现与测试。 Embedding层:Transformer Embedding层包含Word、Position、TokenType三类,分别将输入映射为稠密向量、注入位置信息、类别信息。通常,位置信息通过ALiBi注入,无需传统Position Embedding,TokenType Embedding为可选项。张量并行版BLOOM Embedding层代码在megatron/model/language_model.py,通过参数控制三类Embedding使用。 激活函数:位于megatron/model/utils.py,BLOOM激活函数采用近似公式实现。 掩码:张量并行版模型用于预训练,采用Causal Mask确保当前token仅见左侧token。掩码实现于megatron/model/fused_softmax.py,将缩放、mask、softmax融合。 ALiBi:位置信息注入机制,通过调整query-key点积中静态偏差实现。8个注意力头使用等比序列m计算斜率,个头则有不同序列。实现于megatron/model/transformer.py。 MLP层:全连接层结构,列并行第一层,行并行第二层,实现于megatron/model/transformer.py。 多头注意力层:基于标准多头注意力添加ALiBi,简化版代码位于megatron/model/transformer.py。 并行Transformer层:对应单机版BlookBlock,实现于megatron/model/transformer.py。 并行Transformer及语言模型:ParallelTransformer类堆叠多个ParallelTransformerLayer,TransformerLanguageModel类在开始添加Embedding层,在末尾添加Pooler,逻辑简单,代码未详述。 相关文章系列覆盖大模型研究、RETRO、MPT、ChatGLM-6B、BLOOM、LoRA、推理工具测试、LaMDA、Chinchilla、GLM-B等。开源项目|高性能内存分配库mimalloc
mimalloc
开源内存分配库,微软研究院年发布,旨在提供高性能内存管理解决方案。
使用方法如下:
1. 克隆代码库至本地。
2. 编译代码。
3. 将头文件复制至系统目录,如:
4. 编译项目时链接mimalloc。
尝试直接使用mimalloc,无需编译:
配置环境变量。
mimalloc特点:
1. 简洁高效,核心代码量少于行。
2. 性能显著优于其他内存分配库,如:mi(mimalloc)、tc(tcmalloc)、je(jemalloc)等。
3. 支持多线程。
架构:
mimalloc设计中,每个线程拥有专属堆,线程在分配内存时从各自堆进行。堆中包含多个分段,每个分段对应多个页面,内存分配在页面上进行。
free列表操作代码。
源码实现:
1. malloc函数实现
2. free函数实现
参考资料:
[1] cnblogs.com/linkwk7/p/1...
[2] github.com/microsoft/mi...
[3] cnblogs.com/linkwk7/p/1...
找到卡顿来源,BlockCanary源码精简分析
通过屏幕渲染机制我们了解到,Android的屏幕渲染是通过vsync实现的。软件层将数据计算好后,放入缓冲区,硬件层从缓冲区读取数据绘制到屏幕上,渲染周期是ms,这让我们看到不断变化的画面。如果计算时间超过ms,就会出现卡顿现象,这通常发生在软件层,而不是硬件层。卡顿发生的原因在于软件层的计算时间需要小于ms,而计算的执行地点则在Handler中,具体来说是在UI的Handler中。Android进程间的交互通过Binder实现,线程间通信通过Handler。
软件层在收到硬件层的vsync信号后,会在Java层向UI的Handler中投递一个消息,进行view数据的计算。这涉及到测量、布局和绘制,通常在`ViewRootImpl`的`performTraversals()`函数中实现。因此,view数据计算在UI的Handler中执行,如果有其他操作在此执行且耗时过长,则可能导致卡顿,我们需要找到并优化这些操作。
要找到卡顿的原因,可以通过在消息处理前后记录时间,计算时间差,将这个差值与预设的卡顿阈值比较。如果大于阈值,表示发生了卡顿,此时可以dump主线程堆栈并显示给开发者。实现这一功能的关键在于在Looper中设置日志打印类。通过`Looper.loop()`函数中的日志打印,我们可以插入自定义的Printer,并在消息执行前后计算时间差。另一种方法是在日志中添加前缀和后缀,根据这些标志判断时间点。
BlockCanary是一个用于检测Android应用卡顿的工具,通过源码分析,我们可以了解到它的实现逻辑。要使用BlockCanary,首先需要定义一个继承`BlockCanaryContext`的类,并重写其中的关键方法。在应用的`onCreate()`方法中调用BlockCanary的安装方法即可。当卡顿发生时,BlockCanary会通知开发者,并在日志中显示卡顿信息。
BlockCanary的核心逻辑包括安装、事件监控、堆栈和CPU信息的采集等。在事件发生时,会创建LooperMonitor,同时启动堆栈采样和CPU采样。当消息将要执行时,开始记录开始时间,执行完毕后停止记录,并计算执行时间。如果时间差超过预设阈值,表示发生了卡顿,并通过回调传递卡顿信息给开发者。
堆栈和CPU信息的获取通过`AbstractSampler`类实现,它通过`post`一个`Runnable`来触发采样过程,循环调用`doSample()`函数。StackSampler和CpuSampler分别负责堆栈和CPU信息的采集,核心逻辑包括获取当前线程的堆栈信息和CPU速率,并将其保存。获取堆栈信息时,通过在`StackSampler`类中查找指定时间范围内的堆栈信息;获取CPU信息时,从`CpuSampler`类中解析`/proc/stat`和`/proc/mpid/stat`文件的CPU数据,并保存。
总结而言,BlockCanary通过在消息处理前后记录时间差,检测卡顿情况,并通过堆栈和CPU信息提供详细的卡顿分析,帮助开发者定位和优化性能问题。
STL 源码剖析:sort
我大抵是太闲了。
更好的阅读体验。
sort 作为最常用的 STL 之一,大多数人对于其了解仅限于快速排序。
听说其内部实现还包括插入排序和堆排序,于是很好奇,决定通过源代码一探究竟。
个人习惯使用 DEV-C++,不知道其他的编译器会不会有所不同,现阶段也不是很关心。
这个文章并不是析完之后的总结,而是边剖边写。不免有个人的猜测。而且由于本人英语极其差劲,大抵会犯一些憨憨错误。
源码部分sort
首先,在 Dev 中输入以下代码:
然后按住 ctrl,鼠标左键sort,就可以跳转到头文件 stl_algo.h,并可以看到这个:
注释、模板和函数参数不再解释,我们需要关注的是函数体。
但是,中间那一段没看懂……
点进去,是一堆看不懂的#define。
查了一下,感觉这东西不是我这个菜鸡能掌握的。
有兴趣的 戳这里。
那么接下来,就应该去到函数__sort 来一探究竟了。
__sort
通过同样的方法,继续在stl_algo.h 里找到 __sort 的源代码。
同样,只看函数体部分。
一般来说,sort(a,a+n) 是对于区间 [公式] 进行排序,所以排序的前提是 __first != __last。
如果能排序,那么通过两种方式:
一部分一部分的看。
__introsort_loop
最上边注释的翻译:这是排序例程的帮助程序函数。
在传参时,除了首尾迭代器和排序方式,还传了一个std::__lg(__last - __first) * 2,对应 __depth_limit。
while 表示,当区间长度太小时,不进行排序。
_S_threshold 是一个由 enum 定义的数,好像是叫枚举类型。
当__depth_limit 为 [公式] 时,也就是迭代次数较多时,不使用 __introsort_loop,而是使用 __partial_sort(部分排序)。
然后通过__unguarded_partition_pivot,得到一个奇怪的位置(这个函数的翻译是无防护分区枢轴)。
然后递归处理这个奇怪的位置到末位置,再更新末位置,继续循环。
鉴于本人比较好奇无防护分区枢轴是什么,于是先看的__unguarded_partition_pivot。
__unguarded_partition_pivot
首先,找到了中间点。
然后__move_median_to_first(把中间的数移到第一位)。
最后返回__unguarded_partition。
__move_median_to_first
这里的中间数,并不是数列的中间数,而是三个迭代器的中间值。
这三个迭代器分别指向:第二个数,中间的数,最后一个数。
至于为什么取中间的数,暂时还不是很清楚。
`__unguarded_partition`
传参传来的序列第二位到最后。
看着看着,我好像悟了。
这里应该就是实现快速排序的部分。
上边的__move_median_to_first 是为了防止特殊数据卡 [公式] 。经过移动的话,第一个位置就不会是最小值,放在左半序列的数也就不会为 [公式] 。
这样的话,__unguarded_partition 就是快排的主体。
那么,接下来该去看部分排序了。
__partial_sort
这里浅显的理解为堆排序,至于具体实现,在stl_heap.h 里,不属于我们的讨论范围。
(绝对不是因为我懒。)
这样的话,__introsort_loop 就结束了。下一步就要回到 __sort。
__final_insertion_sort
其中某常量为enum { _S_threshold = };。
其中实现的函数有两个:
__insertion_sort
其中的__comp 依然按照默认排序方式 < 来理解。
_GLIBCXX_MOVE_BACKWARD3
进入到_GLIBCXX_MOVE_BACKWARD3,是一个神奇的 #define:
其上就是move_backward:
上边的注释翻译为:
__unguarded_linear_insert
翻译为“无防护线性插入”,应该是指直接插入吧。
当__last 的值比前边元素的值小的时候,就一直进行交换,最后把 __last 放到对应的位置。
__unguarded_insertion_sort
就是直接对区间的每个元素进行插入。
总结
到这里,sort 的源代码就剖完了(除了堆的那部分)。
虽然没怎么看懂,但也理解了,sort 的源码是在快排的基础上,通过堆排序和插入排序来维护时间复杂度的稳定,不至于退化为 [公式] 。
鬼知道我写这么多是为了干嘛……