【源码空间 ftp】【闲聊牛牛玩源码】【网游斗地主源码】gpu源码编译-皮皮网

【源码空间 ftp】【闲聊牛牛玩源码】【网游斗地主源码】gpu源码编译

2024-11-28 16:57:37 来源：微信ocr源码分类：综合

1.GPU编程3：CUDA环境安装和IDE配置
2.视频和视频帧：Intel GPU（核显）的源译编解码故事
3.ffmpeg使用NVIDIA GPU硬件编解码
4.极智开发 | ubuntu源码编译gpu版ffmpeg
5.GPU编程9：共享内存3→线程同步和数据布局
6.LLVM源码编译及调试

gpu源码编译

GPU编程3：CUDA环境安装和IDE配置

本文指导如何在个人机器上安装CUDA环境，结合集成开发环境Clion进行配置，码编以方便后续CUDA编程学习。源译

安装CUDA环境如下：

1. 针对显卡型号，码编从官方下载相应驱动。源译

示例显卡型号：小米pro寸，码编源码空间 ftpGF MX 。源译

参考链接：nvidia.cn/Download/index.aspx

2. 阻止或卸载nouveau驱动。码编

3. 通过控制台进入文本界面，源译安装NVIDIA驱动。码编

步骤示例：调整引导运行级别，源译以便开机进入文本界面。码编

网址参考：jingyan.baidu.com/article/0abcb0fbdf.html

4. 确认驱动安装。源译

5. 尽量与CUDA版本匹配安装NVIDIA驱动。码编

6. 进行CUDA测试。源译

CUDA代码编译与运行：

编译CUDA源码时，包含两个部分：CUDA设备函数与主机函数，它们分开独立编译。CUDA 5.0+支持文件间设备代码独立编译，而整体编译是默认模式。

编译三个文件（a.cu, b.cu, c.cpp），其中a.cu调用了b.cu中定义的设备代码，可以使用独立编译方式实现。

详细编译步骤：使用nvcc编译设备函数，普通C/C++编译器编译主机代码。

举例：`nvcc a.cu`编译设备文件。

实际工程中，为了优化编译效率，常采用`makefile`或`CMake`工具配置源码编译。

`nvcc`支持多种快捷开关，如`-arch=sm_`编译特定架构。

基于Clion的CUDA配置流程：

1. 遇到Clion创建CUDA可执行文件失败问题。

检查是否已安装NVCC。

验证机器安装GPU卡。

检查安装路径：执行`which nvcc`，若未找到，则进行安装。

确认安装位置：输入`nvcc`显示默认路径，通常为`/usr/bin/nvcc`。

2. 利用Clion新建CUDA项目，并设置CMake。

配置CMake代替`makefile`，简化编译过程。

输出及结果：提供示例链接供参考。

视频和视频帧：Intel GPU（核显）的编解码故事

一般提及基于“显卡或多媒体处理芯片对视频进行解码”为硬解码，本文将探讨如何利用Intel的核显，即集成GPU实现硬解码。闲聊牛牛玩源码提及QSV，全称为Quick Sync Video，Intel在年发布Sandy Bridge CPU时，一同推出了这项基于核显进行多媒体处理，包括视频编解码的技术。集成核显，官方称HD Graphics，最早在Sandy Bridge前一代制程已推出，但性能提升及充分发挥在Sandy Bridge时期。Haswell及后续制程发布更高级的Iris架构。最近Intel宣布将开发独立显卡，核显发展具体走向未知。

接手QSV项目时，预期会有很多相关资料，实则相反。因此，将记录自己学习过程。

本文将介绍：

I. Intel的核显（集成GPU）：

了解核显很有必要，几个月前，作者对CPU的认识还停留在“南北桥”架构。以下内容若有不准确之处，欢迎指正。

查看Gen CPU结构图，首先看CPU核心部分。在整块CPU芯片中，核显占比不小，算力不容小觑。在没有独立显卡的笔记本上，可以运行大量大型游戏，虽偶有卡顿、掉帧情况，整体表现已相对不错。

接下来，看官方给出的GPU内部结构图。GPU内部远比图上所示复杂，图中介绍的仅为部分Subslice芯片结构。GPU分为Slice部分和Un-Slice部分，Slice部分已介绍，接下来介绍Un-Slice部分。

作者找到了一张图，展示了在MFF上进行视频处理的流程：1) 首先在MFX/VDBOX模块上进行编解码；2) 接着送到VQE/VEBOX上做图像增强和矫正处理；3) 然后送到SFC上做scale和transcode；4) 最后送出到显示屏上展示。是否完全正确，作者这里做个记录。

推荐知乎文章《转》Intel Gen8/Gen9核芯显卡微架构详细剖析，深入浅出，关于thread dispatch的网游斗地主源码说明即出自该文。

最后，总结Intel集成GPU/核显结构图。

注意，这是skylake架构下的GT2/GT3/GT4 GPU结构图，X数字越大，集成的Slice和Unslice芯片更多，能力越强，价格也更高。

II. Quick Sync Video（QSV）技术：

QSV是Intel推出的将视频处理任务直接送到GPU上进行专门负责视频处理的硬件模块处理的软件技术。与CPU或通用GPU上的视频编码不同，QSV是处理器芯片上的专用硬件核心，这使得视频处理更为高效。

要了解QSV如何驱动GPU的MFF，首先看官方Intel® Video and Audio for Linux上的图。在介绍QSV之前，提及Intel在FFmpeg上提供的插件，包括ffmpeg-qsv、ffmpeg-vaapi和ffmpeg-ocl。详细描述如下：

· FFmpeg-vaapi提供基于低级VAAPI接口的硬件加速，在VA API标准下在Intel GPU上执行高性能视频编解码器、视频处理和转码功能。

· FFmpeg-qsv提供基于Intel GPU的硬件加速，基于Intel Media SDK提供高性能视频编解码器、视频处理和转码功能。

· FFmpeg-ocl提供基于工业标准OpenCL在CPU/GPU上的硬件加速，主要用于加速视频处理过滤器。

接下来，介绍QSV在ffmpeg2.8及以上版本的支持，经过MSDK、LibVA、UMD和LibDRM。分层进行分析：

· MSDK：Intel的媒体开发库，支持多种图形平台，实现通用功能，可用于数字视频的预处理、编解码和不同编码格式的转换。源码地址为Intel® Media SDK，在Linux平台上编译使用。

· VA-API：Video Acceleration API，提供类unix平台的视频硬件加速开源库和标准。Intel源码地址在Intel-vaapi-driver Project，在Linux平台上使用。

· UMD：User Mode Driver的缩写，指VA-API Driver。Intel提供了两个工具：intel-vaapi-driver 和 intel-media-driver，推荐使用后者。源码字体更改

· LibDRM：Direct Rendering Manager，解决多个程序协同使用Video Card资源问题，提供一组API访问GPU。与VA-API，LibDRM是一套通用的Linux/Unix解决方案。

· Linux Kernel：Intel的Kernel是i driver，描述了libDRM和Kernel Driver之间的关系。

至此，整个关系图较为清晰。

III. FFMPEG+QSV解码：

QSV硬解的任务主要包括：

关于3-4步操作的详细实现，底层库会帮助完成。但作为一个优秀的工程师，研究FFMPEG源码依然十分重要。接下来，介绍如何使用FFmpeg API中的h_qsv解码器插件。

提及FFmpeg命令行使用方法，推荐阅读官方资料《QuickSync》或《Intel_FFmpeg_plugins》。

关于示例代码，作者曾遇到许多坑，总结为：多数中文博客不可靠，官方demo最可信。官方代码提供了两份可用：qsvdec.c和hw_decode.c。作者最早使用的是第一段代码，核心部分如下：

然而，这段代码存在问题。测试发现，对于赛扬系列一款CPU，在p视频上MSDK达到fps，理论上h_qsv平台上限也应为fps，但实际测试不到fps。排查后发现是av_hwframe_transfer_data()性能较弱。

最终，与Intel一起解决了性能问题。那么，性能提升方案为何是GPU-COPY技术做Memory-Mapping？

解释GPU和CPU渲染图像的过程，包括坐标系转化、纹理叠加等，仅需了解两点：

后者的数据组织方式能充分利用GPU的并行特性，加速图像处理、渲染。尽管存在一些纹理叠加的技术难题，但性能提升足以补偿。

接下来，解释Memory-Mapping：从Intel CPU架构图中可见，GPU和CPU位于同一芯片上，各自寄存器/缓存区有限，太子棋牌源码批发视频数据主要存储在内存上。GPU和CPU的数据组织方式不同，同一帧数据存于内存同一位置，数据格式不同，因此需要做Memory-Mapping。Memory-Mapping相较于Memory-Copy，减少了数据从内存区域A移动到区域B的操作，已经是优化。进一步优化：GPU完成Memory-Mapping以及数据从GPU到内存和CPU的操作。

在av_hwframe_transfer_data()内部，Memory-Mapping由CPU完成，性能受限于CPU，只能并行。修改后，整体性能从不到fps提升至fps，虽然与理想fps仍有差距，但满足性能需求。

据悉，Intel将在FFmpeg 4.3开源出这个解决方案。

写在后面：

了解GPU底层对应用开发人员帮助不大，毕竟了解芯片布线的重新设计、制程工艺提升、GPU-COPY技术的数据I/O提升等，也不能做什么。最终，芯片架构是芯片工程师的事，底层逻辑实现是嵌入式工程师的事。应用开发人员无法做出实质贡献，但作为知识库扩充或休闲阅读，了解也无妨。

希望有机会接触CUDA的编解码，深入学习N卡设计。

感谢因《视频和帧》系列文章结识的朋友，热心指出文章描述不准确的地方。文中如有不严谨之处，欢迎指正。

ffmpeg使用NVIDIA GPU硬件编解码

要在Ubuntu .上利用NVIDIA GPU硬件加速ffmpeg 3.4.8的编解码功能，首先需要安装必要的依赖库和特定驱动。

1. 安装依赖库：确保系统具备基本的开发环境，可以通过apt命令安装。

2. 安装ffnvcodec：这是关键组件，用于利用NVIDIA硬件进行视频编码和解码。

遇到官方驱动安装问题时，建议采取以下步骤：

卸载旧版本Nvidia驱动

加入显卡驱动的PPA（个人包存档）

查找并安装最新NVIDIA驱动，可能需要查看官方文档获取版本号

推荐学习资源：有关音视频开发的免费课程，包括FFmpeg、WebRTC等，可通过链接获取更多资料和学习资料包。

3. 安装CUDA：CUDA是NVIDIA提供的GPU计算库，对视频编解码的支持至关重要，可以从developer.download.nvidia.cn下载。

4. 编译ffmpeg：在安装完CUDA后，进行ffmpeg的编译。在编译前，务必检查系统环境是否正确设置。

针对NVIDIA NVENC并发Session数量的限制，如果你的GTX显卡限制在2路编码，可以参考老雷的Windows解决方案，虽然Linux下修改方法尚未在GitHub上找到通用解决方案，但已有一些针对不同驱动版本的特定修改，如github.com/keylase/nvidia...。

对于编码输出帧的问题，当使用nvenc或h_nvenc时，可能会出现SEI帧在RTP传输中导致错误。解决方法是直接在ffmpeg源码中的nvenc.c文件进行适当修改。

最后，完成上述步骤后，你可以编译ffmpeg进行测试，确保硬件加速功能正常工作。

极智开发 | ubuntu源码编译gpu版ffmpeg

欢迎访问极智视界公众号，获取更多深入的编程知识与实战经验分享。

本文将带你了解在 Ubuntu 系统中，如何进行源码编译，获得 GPU 加速版本的 FFmpeg 工具。

FFmpeg 是一款功能强大的音视频处理工具，支持多种格式的音视频文件，并提供了丰富的命令行工具和库，允许开发者在 C 语言或其他编程语言中进行音视频处理。

然而，FFmpeg 本身并不具备 GPU 加速功能。通过集成 CUDA SDK、OpenCL 或 Vulkan 等第三方库，能够实现 FFmpeg 的 GPU 加速，显著提升处理速度和性能。

在本文中，我们将重点介绍如何在 Ubuntu 系统中编译 GPU 加速版本的 FFmpeg。

首先，确保已安装 nv-codec-hearers，这是 NVIDIA 提供的 SDK，用于在 GPU 上加速 FFmpeg 的操作。

接下来，安装 FFmpeg 编码库和相关依赖，完成 FFmpeg 的编译配置。

最后，运行编译命令，检查 FFmpeg 是否成功安装并验证 GPU 加速功能。

至此，GPU 加速版本的 FFmpeg 已成功编译和安装，能够为你在音视频处理任务中带来显著性能提升。

通过极智视界公众号，获得更多有关人工智能、深度学习的前沿技术与实用知识，欢迎加入知识星球，获取丰富的资源与项目源码，共同探索 AI 领域的无限可能。

GPU编程9：共享内存3→线程同步和数据布局

并行线程间的同步是所有并行计算语言的重要机制，确保数据一致性与程序顺序执行。共享内存可以同时被线程块中的多个线程访问，当不同步的多个线程修改同一个共享内存地址时，将导致线程内的冲突。CUDA提供障碍(barrier)和内存栅栏(memory fences)来实现块内同步。

在弱排序内存模型下，GPU线程在不同内存写入数据的顺序不一定和这些数据在源码中的顺序相同，且一个线程的写入顺序对其他线程可见时，可能与写操作被执行的实际顺序不一致。为了显式地强制程序确切顺序执行，必须在代码中插入内存栅栏和障碍。

同步方法包括显式障碍和内存栅栏。显式障碍只能在同一线程块的线程间执行，通过调用void __syncthreads()函数来指定一个barrier点。__syncthreads作为barrier点要求块中的线程必须等待直到所有线程都到达该点。内存栅栏功能可确保栅栏前的任何内存写操作，对栅栏后的其他线程都是可见的，包括块、网格或系统级的内存栅栏。

Volatile修饰符用于防止编译器优化，避免数据在寄存器或本地内存中被缓存。GPU全局内存常驻在设备内存（DRAM)，访问粒度可以是个字节或个字节，共享内存的访问粒度为4字节或8字节存储体宽。

数据布局通过选择共享内存的形状和访问方式来优化全局内存加载。方形共享内存块可以通过相邻线程访问邻近元素来优化，最佳实现方式是按行主序写、按行主序读。对于行列不等长的矩阵转置，可以使用共享内存进行并行归约或展开并行归约，以减少全局内存的访问。

通过全局内存进行矩阵转置时，读取行、存储列或读取列、存储行都会有一次读写的交叉访问。使用共享内存作为中转可以提高效率，因为共享内存相比全局内存有更好的带宽。共享内存中的交叉访问效率也高于全局内存。

性能上下限在不同硬件下表现可能不同，具体原因尚不明确。在实际编码中需要注意这个问题。

LLVM源码编译及调试

为了深入理解并实现LLVM源码的编译与调试，我们需要分步骤进行，逐一安装相关软件并配置环境。首先，安装cmake，这是构建过程的核心工具。

在Linux环境下，我们可以使用tar命令来下载并解压cmake的安装包。具体的步骤是：

访问cmake官网，下载cmake-3..0-rc2-linux-x_.tar.gz。

使用tar命令解压文件：`tar xf cmake-3..0-rc2-linux-x_.tar.gz`。

将解压后的文件移到/usr/share目录，并重命名为cmake-3..0-rc2-linux-x_以方便访问。

创建软连接，将cmake-3..0-rc2-linux-x_/bin/cmake移动到/usr/bin目录，并重命名为cmake，确保它可以被直接调用。

然后，安装ninja，这是构建过程中高效的任务执行工具。

使用git克隆ninja的源代码。

运行配置脚本以生成构建文件。

复制ninja到/usr/bin目录。

通过`ninja --version`检查ninja的安装情况。

接下来，安装Python、gcc和g++，这是构建LLVM环境的基本依赖。

之后，安装LLVM。我们可以通过git克隆LLVM项目并进行配置、构建和安装。

克隆LLVM项目。

指定版本（例如，基于特定版本）。

切换到项目目录并使用cmake进行配置。

使用预先选择的构建系统（如Ninja）和选项进行构建。

执行构建并使用ninja命令进行编译。

调试LLVM源码涉及查看支持的后端target、使用前端编译器（clang）生成LLVM IR、使用LLVM工具（如llc）进行调试、并使用graphviz生成可视化图表。

在调试过程中，可以使用以下工具：

查看各阶段DAG使用llvm-dis。

查看AMDGPU寄存器信息与指令信息使用llvm-tblgen。

通过上述步骤，您可以成功安装并配置LLVM源码的编译环境，并进行有效的调试与分析。

Win 环境下，LightGBM GPU 版本的安装

在Win环境下，想要利用GPU提升LightGBM的训练速度，安装过程并非易事。LightGBM，微软开发的高效梯度提升框架，可与XGBoost比肩，尤其适用于大规模数据。由于其GPU版本的教程相对较少，本文基于官方指南和Stack Overflow上的解答，总结了安装步骤和注意事项。

安装步骤

1. 对于CPU版本，LightGBM的安装方法有三种，与Python包安装类似。但使用GPU版本需要从源代码编译安装。

GPU版本安装

主要流程包括下载LightGBM源代码，使用CMake进行构建，然后通过`python setup.py install --gpu`安装。对于Windows用户，有两种编译方式：

VS Build Tools：推荐用于Win平台，可以简化步骤，避免MinGW可能遇到的问题。

MinGW：虽然速度可能较快，但可能会产生更多问题，且不推荐。

对于VS Build Tools，需要安装Git、CMake、VS Build Tools，以及对应的OpenCL和Boost Binaries。具体步骤涉及下载、安装、设置环境变量，然后编译源文件。

MinGW编译步骤类似，但需要下载MinGW或MinGW-w，然后按照类似流程操作。

参数设置与性能测试

安装成功后，通过设置`device='gpu'`和相关GPU参数，可以启用GPU计算。测试性能时，如能顺利运行，表明安装成功。不过，与其他框架相比，LightGBM在GPU调用上稍显不便，但其支持更多类型的显卡，对Intel集成显卡友好。

性能提升方面，实际测试显示使用GPU计算有明显加速，但具体提升程度取决于硬件配置，如Intel集显和Nvidia独显的性能差异。

着色器编译是什么

着色器编译是将着色器源代码转换为GPU能够理解和执行的机器代码的过程。着色器是一种专为图形渲染而生的程序代码，通常运行在GPU上，负责计算3D场景中的光、暗和颜色级别，从而生成精美的画面和特效。由于GPU架构的多样性，着色器编译通常是延迟进行的，即在应用安装后首次启动时，将着色器源代码编译为特定GPU的机器码，并缓存下来供后续使用。

着色器编译是图形渲染流程中的重要环节，它直接影响到游戏的加载时间和运行性能。随着游戏图形技术的不断发展，着色器编译变得越来越复杂和耗时。为了优化游戏体验，一些游戏引擎和驱动程序提供了着色器预编译和缓存功能，以减少游戏启动时的编译时间和运行时的卡顿现象。

总的来说，着色器编译是图形渲染技术中的一项关键技术，对于提升游戏性能和画面质量具有重要意义。

更多内容请点击【综合】专栏