【centos安装系统源码】【无敌斗地主源码】【idea 高效源码阅读】材质源码分析

【centos安装系统源码】【无敌斗地主源码】【idea 高效源码阅读】材质源码分析_材质代码

2024-11-25 04:48:30 来源：小米平板5源码分类：焦点

1.游戏引擎随笔 0x29：UE5 Lumen 源码解析（一）原理篇
2.URP管线PBR源码剖析（上）
3.Re：从零开始的材质材质UE渲染学习-4Shader与材质
4.UGUI源码阅读之Mask
5.真实感人物渲染（四）布料篇
6.游戏引擎随笔 0x36：UE5.x Nanite 源码解析之可编程光栅化（下）

材质源码分析_材质代码

游戏引擎随笔 0x29：UE5 Lumen 源码解析（一）原理篇

实时全局光照的追求一直是图形渲染界的焦点。随着GPU硬件光线追踪技术的源码兴起，Epic Games的分析Unreal Engine 5推出了Lumen，一个结合SDF、代码Voxel Lighting、材质材质Radiosity等技术的源码centos安装系统源码软件光线追踪系统。Lumen的分析实现极其复杂，涉及个Pass，代码近5.6万行C++代码和2万行Shader，材质材质与Nanite、源码Virtual Shadow Map等系统紧密集成，分析并支持混合使用硬件和软件光线追踪。代码

本系列将逐步解析Lumen，材质材质从原理入手。源码Lumen以简化间接光照（主要由漫反射构成）为核心，分析采用Monte Carlo积分方法估算，利用Ray Tracing获取Radiance，生成Irradiance，最终得到光照值。它的核心是Radiance的计算、缓存和查询，以及这些操作的高效整合。

数学原理上，Lumen依赖渲染方程，通过离散采样近似无限积分。它主要处理Diffuse部分，利用Lambert Diffuse和Ray Tracing获取Radiance。加速结构方面，Lumen利用SDF Ray Marching在无需硬件支持的情况下实现高效的SWRT。

Surface Cache是关键技术，通过预生成的低分辨率材质属性图集，高效获取Hit Point的Material Attribute，结合SDF Tracing，为Lumen提供了实时性能。Radiance Cache则是将Direct Lighting结果保存，便于后续的光照计算和全局光照的无限反弹。

Lumen构建了一个由DF和Surface Cache构成的低精度场景表示，即Lumen Scene，负责Mesh DF更新、Global DF合并和Surface Cache更新。通过Screen Space Probe的自适应放置，Lumen实现了高效的光照追踪和降噪处理。

总体流程包括Lumen Scene更新、Lighting计算和Final Gather，涉及众多数据流和过程，通过3D Texture和Spatial Filtering进行降噪和Light Scattering的处理。后续篇章将深入源码，以更详细的方式揭示Lumen的实现细节和优化策略。

URP管线PBR源码剖析（上）

URP管线与PBR算法的联系并不直接，但新版本的代码结构和算法有了显著变化。本文将深入剖析URP管线下的内置PBR着色器，对比旧版本，探讨主要区别。

此篇内容旨在学习和解答问题，期待大家的反馈和讨论。以下分析分为三步：

梳理UniversalFragmentPBR函数的无敌斗地主源码功能和代码结构

解析通用PBR算法

详解ClearCoatPBR算法

首先，UniversalFragmentPBR的主要工作分为数据准备和光照计算。数据准备包括初始化BRDF数据、ClearCoat BRDF数据、shadowMask、获取主光源信息和处理SSAO等。光照计算则涵盖了间接光和直接光的计算，如GI、主光、额外像素和顶点光照等。

通用PBR算法的关键部分包括BRDF数据初始化，其中金属和非金属材质的处理有所不同；间接光的计算涉及漫反射和镜面反射；主光光照计算使用了改良的Lambert和Cook-Torrance模型；额外光计算则根据光源类型进行相应调整。

URP版本与旧版的不同点在于支持ClearCoat材质、ShadowMask功能、SSAO效果的整合，以及额外光处理的简化。整体来看，新版本的PBR算法更加灵活且高效。

Re：从零开始的UE渲染学习-4Shader与材质

通过前面的学习，我们知道在UE中渲染网格时需要指定一个shader。本文将深入讲解UE的Shader、材质系统以及它们之间的关联。所涉及的源码版本为UE5.3，所有配图已上传至Github，便于查看高清图。

顶点工厂的作用在于处理模型网格上的顶点信息，如位置、法线、UV等，UE通过顶点工厂使shader能够直接获取所需顶点数据，这简化了自定义网格信息的解释工作。

Shader是控制渲染物体在屏幕上的关键，通常需要指定VertexShader和PixelShader。在编写shader时，需要遵循特定的编程语言和标准，例如DirectX使用HLSL，OpenGL使用GLSL。UE通过一套规范来管理shader体系，最后将shader编译到支持的平台上。

Shader类是shader文件与实际渲染系统之间的桥梁。UE中有三种主要的shader类，分别针对材质编辑器的使用情况和顶点工厂类型。Shader实现主要依赖RDG提供的宏和函数，如声明宏、用于对着色器参数表达的宏等，以及为着色器类型声明必要的数据和函数的宏，实现将shader文件与shader类绑定。

材质系统是UE中用于定义物体属性的界面，包括质感、颜色、透明度等。shader提供材质属性的计算方式，而材质则通过指定shader来实现这些计算。UE的材质编辑器允许用户通过直观的操作设置材质属性，这些属性最终被转化为HLSL函数，由shader调用以计算光照效果。idea 高效源码阅读

在渲染过程中，材质、shader和顶点工厂紧密关联，形成渲染流程。UE会根据材质所使用的shader类型和顶点工厂类型编译出特定的组合结果，存储在材质的ShaderMap中。当使用BuildMeshDrawCommands()时，传入的shader是针对特定pass的完整shader。

材质类涉及游戏线程、代理和渲染线程相关的类，与材质蓝图的关联主要体现在UMaterialGraph上，它用于存储和管理材质节点和参数。UMaterialExpression管理节点的表达式，包括节点输入、名称和编译逻辑。拓展材质节点通常需要继承UMaterialExpression并实现相关函数，尤其是Compile()函数，直接决定节点如何被编译。

在进行材质编译时，UE首先翻译材质蓝图到HLSL代码，然后根据不同的组合进行编译，并存储到ShaderMap中。编译过程涉及环境设置，这影响宏的使用，进而影响shader效果。在将材质蓝图翻译到HLSL时，UE使用不同的翻译帮助函数，如FHLSLMaterialTranslator。

总的来说，Shader与材质是UE中不可或缺的部分，它们共同决定了物体如何在屏幕上呈现。本文介绍了UE中Shader和材质的基本概念、关联方式以及编译流程，同时也简要提及了自定义Shader和拓展材质节点的方法。

UGUI源码阅读之Mask

Mask主要基于模版测试来进行裁剪，因此先来了解一下unity中的模版测试。

Unity Shader中的模版测试配置代码大致如上

模版测试的伪代码大概如上

传统的渲染管线中，模版测试和深度测试一般发生在片元着色器（Fragment Shader）之后，但是现在又出现了Early Fragment Test，可以在片元着色器之前进行。

Mask直接继承了UIBehaviour类，同时继承了ICanvasRaycastFilter和IMaterialModifier接口。

Mask主要通过GetModifiedMaterial修改graphic的Material。大致流程：

1.获取当前Mask的层stencilDepth

2.StencilMaterial.Add修改baseMaterial的模板测试相关配置，并将其缓存

3.StencilMaterial.Add设置一个unmaskMaterial，用于最后将模板值还原

MaskableGraphic通过MaskUtilities.GetStencilDepth计算父节点的Mask层数，然后StencilMaterial.Add修改模板测试的配置。

通过Frame Debugger看看具体每个batch都做了什么。先看第一个，是Mask1的m_MaskMaterial，关注Stencil相关的数值，白色圆内的stencil buffer的值设置为1

这个是Mask2的m_MaskMaterial，根据stencil的计算公式，Ref & ReadMask=1，Comp=Equal，在线预览源码下载只有stencil buffer & ReadMask=1的像素可以通过模板测试，即第一个白色圆内的像素，然后Pass=Replace，会将通过的像素写入模板值（Ref & WriteMask=3），即两圆相交部分模板值为3

这个是RawImage的Material，只有模板值等于3的像素可以通过模板测试，所以只有两个圆相交的部分可以写入buffer，其他部分舍弃，通过或者失败都不改变模板值

这是Mask2的unmaskMaterial，将两个圆相交部分的模板值设置为1，也就是还原Mask2之前的stencil buffer

这是Mask1的unmaskMaterial，将第一个圆内的模板值设置为0，还有成最初的stencil buffer

可以看到Mask会产生比较严重的overdraw。

2.drawcall和合批

每添加一个mask，一般会增加2个drawcall（加上mask会阻断mask外和mask内的合批造成的额外drawcall），一个用于设置遮罩用的stencil buffer，一个用于还原stencil buffer。

如图，同一个Mask下放置两个使用相同的RawImage，通过Profiler可以看到两个RawImage可以进行合批

如图，两个RawImage使用相同的，它们处于不同的Mask之下，但是只要m_StencilValue相等，两个RawImage还是可以进行合批。同时可以看到Mask1和Mask1 (1)，Mask2和Mask2 (1)也进行了合批，说明stencilDepth相等的Mask符合合批规则也可以进行合批。

StencilMaterial.Add会将修改后的材质球缓存在m_List中，因此调用StencilMaterial.Add在相同参数情况下将获得同一个材质球。

真实感人物渲染（四）布料篇

在布料渲染领域，Charlie的高光公式常被用于实现较为出色的视觉效果，Unity HDRP管线的Fabric Shader是一种较为完整的实现方法。本文旨在基于HDRP管线，探讨棉布与丝绸材质的实现。

棉布材质特征为平纹或斜纹，这类材质几乎无镜面反射，粗糙度极高；相反，丝绸材质拥有显著的镜面反射能力，表面光滑，高光光泽明显，并且展现出各向异性特点。

实现过程中，需准备BRDF LUT贴图。棉布材质使用特定的Fabric Charlie LUT贴图，而丝绸材质则采用Disney GGX LUT贴图。为了增加布料细节，还需要添加Thread贴图（螺纹贴图）和Fuzz贴图（绒毛贴图）。

棉布渲染时，其直接光漫反射与光通量无关，仅与粗糙度相关。HDRP的高光项采用Charlie的法线分布与可见性项。Fabric Charlie LUT解码时需注意，直接光漫反射和镜面反射部分应除以π，与HDRP Fabric Shader源码中使用的版本保持一致。

丝绸渲染则遵循PBR篇章中的门禁管理delphi源码迪士尼漫反射公式。高光部分使用Smith Joint的各向异性GGX高光的D项与V项。丝绸材质使用Disney GGX LUT，LUT解码方式与棉布有所不同。在渲染丝绸时，进行除以π的操作，以确保布料整体效果不会过亮。各向异性渲染中，通常使用切线与副切线，若资产提供法线贴图，则需考虑法线贴图中的法线是否需要调整切线与副切线方向。HDRP的布料渲染流程中并未对切线与副切线进行调整，但有的博客提及了调整方法，无需使用三角函数，性能更为高效。各向异性间接光通过调整后的法线进行计算，调整anisotropy值以选择偏移强度，并结合anisDirection参数进行间接光照计算。解码LUT时，使用原始的NdotV。

在Filament引擎中，可手动设置Sheen Color颜色，以调整布料的高光光泽颜色。该引擎文档提供了详细的解释和代码，关于布料次表面散射的特性在文档中亦有提及，但本文未进行实现。

本系列文章旨在全面探索布料渲染技术，涵盖多种材质的实现与优化。在后续篇章中，将更深入地探讨不同技术细节与实际应用案例，旨在为读者提供全面且实用的布料渲染知识。如需进一步了解相关技术与实现细节，欢迎查阅本系列其他文章及官方文档资源。

游戏引擎随笔 0x：UE5.x Nanite 源码解析之可编程光栅化（下）

书接上回。

在展开正题之前，先做必要的铺垫，解释纳尼特(Nanite)技术方案中的Vertex Reuse Batch。纳尼特在软光栅路径实现机制中，将每个Cluster对应一组线程执行软光栅，每ThreadGroup有个线程。在光栅化三角形时访问三角形顶点数据，但顶点索引范围可能覆盖整个Cluster的个顶点，因此需要在光栅化前完成Cluster顶点变换。纳尼特将变换后的顶点存储于Local Shared Memory(LDS)中，进行组内线程同步，确保所有顶点变换完成，光栅化计算时直接访问LDS，实现软光栅高性能。

然而，在使用PDO(Masked)等像素可编程光栅化时，纳尼特遇到了性能问题。启用PDO或Mask时，可能需要读取Texture，根据读取的Texel决定像素光栅化深度或是否被Discard。读取纹理需计算uv坐标，而uv又需同时计算重心坐标，增加指令数量，降低寄存器使用效率，影响Active Warps数量，降低延迟隐藏能力，导致整体性能下降。复杂材质指令进一步加剧问题。

此外，当Cluster包含多种材质时，同一Cluster中的三角形被重复光栅化多次，尤其是材质仅覆盖少数三角形时，大量线程闲置，浪费GPU计算资源。

为解决这些问题，纳尼特引入基于GPU SIMT/SIMD的Vertex Reuse Batch技术。技术思路如下：将每个Material对应的三角形再次分为每个为一组的Batch，每Batch对应一组线程，每个ThreadGroup有个线程，正好对应一个GPU Warp。利用Wave指令共享所有线程中的变换后的顶点数据，无需LDS，减少寄存器数量，增加Warp占用率，提升整体性能。

Vertex Reuse Batch技术的启用条件由Shader中的NANITE_VERT_REUSE_BATCH宏控制。

预处理阶段，纳尼特在离线时构建Vertex Reuse Batch，核心逻辑在NaniteEncode.cpp中的BuildVertReuseBatches函数。通过遍历Material Range，统计唯一顶点数和三角形数，达到顶点去重和优化性能的目标。

最终，数据被写入FPackedCluster，根据材质数量选择直接或通过ClusterPageData存储Batch信息。Batch数据的Pack策略确保数据对齐和高效存储。

理解Vertex Reuse Batch后，再来回顾Rasterizer Binning的数据：RasterizerBinData和RasterizerBinHeaders。在启用Vertex Reuse Batch时，这两者包含的是Batch相关数据，Visible Index实际指的是Batch Index，而Triangle Range则对应Batch的三角形数量。

当Cluster不超过3个材质时，直接从FPackedCluster中的VertReuseBatchInfo成员读取每个材质对应的BatchCount。有了BatchCount，即可遍历所有Batch获取对应的三角形数量。在Binning阶段的ExportRasterizerBin函数中，根据启用Vertex Reuse Batch的条件调整BatchCount，表示一个Cluster对应一个Batch。

接下来，遍历所有Batch并将其对应的Cluster Index、Triangle Range依次写入到RasterizerBinData Buffer中。启用Vertex Reuse Batch时，通过DecodeVertReuseBatchInfo函数获取Batch对应的三角形数量。对于不超过3个材质的Cluster，DecodeVertReuseBatchInfo直接从Cluster的VertReuseBatchInfo中Unpack出Batch数据，否则从ClusterPageData中根据Batch Offset读取数据。

在Binning阶段的AllocateRasterizerBinCluster中，还会填充Indirect Argument Buffer，将当前Cluster的Batch Count累加，用于硬件光栅化Indirect Draw的Instance参数以及软件光栅化Indirect Dispatch的ThreadGroup参数。这标志着接下来的光栅化Pass中，每个Instance和ThreadGroup对应一个Batch，以Batch为光栅化基本单位。

终于来到了正题：光栅化。本文主要解析启用Vertex Reuse Batch时的软光栅源码，硬件光栅化与之差异不大，此处略过。此外，本文重点解析启用Vertex Reuse Batch时的光栅化源码，对于未启用部分，除可编程光栅化外，与原有固定光栅化版本差异不大，不再详细解释。

CPU端针对硬/软光栅路径的Pass，分别遍历所有Raster Bin进行Indirect Draw/Dispatch。由于Binning阶段GPU中已准备好Draw/Dispatch参数，因此在Indirect Draw/Dispatch时只需设置每个Raster Bin对应的Argument Offset即可。

由于可编程光栅化与材质耦合，导致每个Raster Bin对应的Shader不同，因此每个Raster Bin都需要设置各自的PSO。对于不使用可编程光栅化的Nanite Cluster，即固定光栅化，为不降低原有性能，在Shader中通过两个宏隔绝可编程和固定光栅化的执行路径。

此外，Shader中还包括NANITE_VERT_REUSE_BATCH宏，实现软/硬光栅路径、Compute Pipeline、Graphics Pipeline、Mesh Shader、Primitive Shader与材质结合生成对应的Permutation。这部分代码冗长繁琐，不再详细列出讲解，建议自行阅读源码。

GPU端软光栅入口函数依旧是MicropolyRasterize，线程组数量则根据是否启用Vertex Reuse Batch决定。

首先判断是否使用Rasterizer Binning渲染标记，启用时根据VisibleIndex从Binning阶段生成的RasterizerBinHeaders和RasterizerBinData Buffer中获取对应的Cluster Index和光栅化三角形的起始范围。当启用Vertex Reuse Batch，这个范围是Batch而非Cluster对应的范围。

在软光栅中，每线程计算任务分为三步。第一步利用Wave指令共享所有线程中的Vertex Attribute，线程数设置为Warp的Size，目前为，每个Lane变换一个顶点，最多变换个顶点。由于三角形往往共用顶点，直接根据LaneID访问顶点可能重复，为确保每个Warp中的每个Lane处理唯一的顶点，需要去重并返回当前Lane需要处理的唯一顶点索引，通过DeduplicateVertIndexes函数实现。同时返回当前Lane对应的三角形顶点索引，用于三角形设置和光栅化步骤。

获得唯一顶点索引后，进行三角形设置。这里代码与之前基本一致，只是写成模板函数，将Sub Pixel放大倍数SubpixelSamples和是否背面剔除bBackFaceCull作为模板参数，通过使用HLSL 语法实现。

最后是光栅化三角形写入像素。在Virtual Shadow Map等支持Nanite的场景下，定义模板结构TNaniteWritePixel来实现不同应用环境下Nanite光栅化Pipeline的细微差异。

在ENABLE_EARLY_Z_TEST宏定义时，调用EarlyDepthTest函数提前剔除像素，减少后续重心坐标计算开销。当启用NANITE_PIXEL_PROGRAMMABLE宏时，可以使用此机制提前剔除像素。

最后重点解析前面提到的DeduplicateVertIndexes函数。

DeduplicateVertIndexes函数给每个Lane返回唯一的顶点索引，同时给当前Lane分配三角形顶点索引以及去重后的顶点数量。

首先通过DecodeTriangleIndices获取Cluster Local的三角形顶点索引，启用Cluster约束时获取所有Lane中最小的顶点索引，即顶点基索引。将当前三角形顶点索引（Cluster Local）减去顶点基索引，得到相对顶点基索引的局部顶点索引。

接下来生成顶点标志位集合。遍历三角形三个顶点，将局部顶点索引按顺序设置到对应位，表示哪些顶点已被使用。每个标志位是顶点的索引，并在已使用的顶点位置处设置为1。使用uint2数据类型，最多表示个顶点位。

考虑Cluster最多有个顶点，为何使用位uint2来保存Vertex Mask而非位？这是由于Nanite在Build时启用了约束机制（宏NANITE_USE_CONSTRAINED_CLUSTERS），该机制保证了Cluster中的三角形顶点索引与当前最大值之差必然小于（宏CONSTRAINED_CLUSTER_CACHE_SIZE），因此，生成的Triangle Batch第一个索引与当前最大值之差将不小于，并且每个Batch最多有个唯一顶点，顶点索引差的最大值为，仅需2个位数据即可。约束机制确保使用更少数据和计算。

将所有Lane所标记三个顶点的Vertex Mask进行位合并，得到当前Wave所有顶点位掩码。通过FindNthSetBit函数找出当前Lane对应的Mask索引，加上顶点基索引得到当前Lane对应的Cluster Local顶点索引。

接下来获取当前Lane对应的三角形的Wave Local的三个顶点索引，用于后续通过Wave指令访问其他Lane中已经计算完成的顶点属性。通过MaskedBitCount函数根据Vertex Mask以及前面局部顶点索引通过前缀求和得到当前Lane对应的Vertex Wave Local Index。

最后统计Vertex Mask所有位，返回总计有效的顶点数量。

注意FindNthSetBit函数，实现Lane与顶点局部索引（减去顶点基索引）的映射，返回当前Lane对应的Vertex Mask中被设置为1的位索引。如果某位为0，则返回下一个位为1的索引。如果Mask中全部位都设置为1，则实际返回为Lane索引。通过二分法逐渐缩小寻找索引范围，不断更新所在位置，最后返回找到的位置索引。

最后，出于验证目的进行了Vertex Reuse Batch的性能测试。在材质包含WPO、PDO或Mask时关闭Vertex Reuse Batch功能，与开启功能做对比。测试场景为由每颗万个三角形的树木组成的森林，使用Nsight Graphics进行Profiling，得到GPU统计数据如下：

启用Vertex Reuse Batch后，软光栅总计耗时减少了1.毫秒。SM Warp总占用率有一定提升。SM内部工作量分布更加均匀，SM Launch的总Warp数量提升了一倍。长短板Stall略有增加，但由于完全消除了由于LDS同步导致的Barrier Stall，总体性能还是有很大幅度的提升。

至此，Nanite可编程光栅化源码解析讲解完毕。回顾整个解析过程，可以发现UE5团队并未使用什么高深的黑科技，而是依靠引擎开发者强悍的工程实现能力完成的，尤其是在充分利用GPU SIMT/SIMD机制榨干机能的同时，保证了功能与极限性能的实现。这种能力和精神，都很值得我们学习。

(五) Geometries

本文主要介绍以下内容：

专栏代码地址： github.com/ue/three....

本文代码地址： github.com/ue/three....

在three.js概念里，mesh是由几何体Geometry和材质Material组成的，在源码Mesh.js可以看到之间的关系：

Mesh = Geometry + Material

为什么会有Mesh三角网的概念呢？

首先我们要回顾下图形渲染管线了。

所以，从上图可以理解：

Geometry: 就是在准备顶点数据，对应Vertex处理过程； Mesh: 就是对应的Triangle三角面处理过程； Material：对应Fragment片元处理过程，对每个三角面片进行着色、贴图等等处理；

几何体，就是在准备一堆顶点数据，主要包括顶点数据、颜色数据、UV贴图数据、法向量数据等等；简单的说，几何体就是数据源，如果你对如何通过三角面片拼接成几何体非常了解，完全可以自己组织数据，不幸的是，这样操作不仅麻烦，而且也是非常困难的事情。所以，three.js内置常用的几何体，供大家直接使用，然后控制Position、Scale、Rotation、visible等空间属性，来操控物体。

Three.js一共有种内置的图元。

简单整个例子，了解下使用流程，其他几何体触类旁通，参考three.js官网即可。

参考代码：

执行命令：

运行后，场景中多一个Line。

运行后，多出一个三角锥：

为什么即存在Geometry，又存在BufferGeometry?

说白了，Geometry更适合于人来理解，自定义的地方比较多，但性能比较低一些；

BufferGeometry更适合计算机来理解，自定义的地方很少，适合对图形学非常了解的人使用，但是性能很高。

内置的几何体，都是一些非常基础的模型，可以使用这些基础模型组装成，搭积木的方式，组成非常复杂的场景。

目前国内，数字产业化搞得如火如荼，各个行业都要数字化，所以数据的来源也是非常复杂的，多种多样的，比如：BIM行业的Revit数据模型、CAD图纸，GIS行业的各种数据要素、倾斜摄影、tiles，可以参考CesiumLab的数据转换这张图。

最终都会将各行各业的数据进行转换，轻量化，瓦片化等等技术手段，传输给Three.js的BufferGeometry，进行渲染；