1.游戏引擎随笔 0x29:UE5 Lumen 源码解析(一)原理篇
2.URP管线PBR源码剖析(上)
3.Re:从零开始的材质材质UE渲染学习-4Shader与材质
4.UGUI源码阅读之Mask
5.真实感人物渲染(四)布料篇
6.游戏引擎随笔 0x36:UE5.x Nanite 源码解析之可编程光栅化(下)
游戏引擎随笔 0x29:UE5 Lumen 源码解析(一)原理篇
实时全局光照的追求一直是图形渲染界的焦点。随着GPU硬件光线追踪技术的源码兴起,Epic Games的分析Unreal Engine 5推出了Lumen,一个结合SDF、代码Voxel Lighting、材质材质Radiosity等技术的源码破解源码方法软件光线追踪系统。Lumen的分析实现极其复杂,涉及个Pass,代码近5.6万行C++代码和2万行Shader,材质材质与Nanite、源码Virtual Shadow Map等系统紧密集成,分析并支持混合使用硬件和软件光线追踪。代码
本系列将逐步解析Lumen,材质材质从原理入手。源码Lumen以简化间接光照(主要由漫反射构成)为核心,分析采用Monte Carlo积分方法估算,利用Ray Tracing获取Radiance,生成Irradiance,最终得到光照值。它的核心是Radiance的计算、缓存和查询,以及这些操作的高效整合。
数学原理上,Lumen依赖渲染方程,通过离散采样近似无限积分。它主要处理Diffuse部分,利用Lambert Diffuse和Ray Tracing获取Radiance。加速结构方面,Lumen利用SDF Ray Marching在无需硬件支持的情况下实现高效的SWRT。
Surface Cache是关键技术,通过预生成的低分辨率材质属性图集,高效获取Hit Point的Material Attribute,结合SDF Tracing,为Lumen提供了实时性能。Radiance Cache则是将Direct Lighting结果保存,便于后续的光照计算和全局光照的无限反弹。
Lumen构建了一个由DF和Surface Cache构成的低精度场景表示,即Lumen Scene,负责Mesh DF更新、Global DF合并和Surface Cache更新。通过Screen Space Probe的自适应放置,Lumen实现了高效的光照追踪和降噪处理。
总体流程包括Lumen Scene更新、Lighting计算和Final Gather,涉及众多数据流和过程,通过3D Texture和Spatial Filtering进行降噪和Light Scattering的处理。后续篇章将深入源码,以更详细的方式揭示Lumen的实现细节和优化策略。
URP管线PBR源码剖析(上)
URP管线与PBR算法的联系并不直接,但新版本的代码结构和算法有了显著变化。本文将深入剖析URP管线下的内置PBR着色器,对比旧版本,探讨主要区别。 此篇内容旨在学习和解答问题,期待大家的反馈和讨论。以下分析分为三步:梳理UniversalFragmentPBR函数的文华财经sar源码功能和代码结构
解析通用PBR算法
详解ClearCoatPBR算法
首先,UniversalFragmentPBR的主要工作分为数据准备和光照计算。数据准备包括初始化BRDF数据、ClearCoat BRDF数据、shadowMask、获取主光源信息和处理SSAO等。光照计算则涵盖了间接光和直接光的计算,如GI、主光、额外像素和顶点光照等。 通用PBR算法的关键部分包括BRDF数据初始化,其中金属和非金属材质的处理有所不同;间接光的计算涉及漫反射和镜面反射;主光光照计算使用了改良的Lambert和Cook-Torrance模型;额外光计算则根据光源类型进行相应调整。 URP版本与旧版的不同点在于支持ClearCoat材质、ShadowMask功能、SSAO效果的整合,以及额外光处理的简化。整体来看,新版本的PBR算法更加灵活且高效。Re:从零开始的UE渲染学习-4Shader与材质
通过前面的学习,我们知道在UE中渲染网格时需要指定一个shader。本文将深入讲解UE的Shader、材质系统以及它们之间的关联。所涉及的源码版本为UE5.3,所有配图已上传至Github,便于查看高清图。
顶点工厂的作用在于处理模型网格上的顶点信息,如位置、法线、UV等,UE通过顶点工厂使shader能够直接获取所需顶点数据,这简化了自定义网格信息的解释工作。
Shader是控制渲染物体在屏幕上的关键,通常需要指定VertexShader和PixelShader。在编写shader时,需要遵循特定的编程语言和标准,例如DirectX使用HLSL,OpenGL使用GLSL。UE通过一套规范来管理shader体系,最后将shader编译到支持的平台上。
Shader类是shader文件与实际渲染系统之间的桥梁。UE中有三种主要的shader类,分别针对材质编辑器的使用情况和顶点工厂类型。Shader实现主要依赖RDG提供的宏和函数,如声明宏、用于对着色器参数表达的宏等,以及为着色器类型声明必要的数据和函数的宏,实现将shader文件与shader类绑定。
材质系统是UE中用于定义物体属性的界面,包括质感、颜色、透明度等。shader提供材质属性的计算方式,而材质则通过指定shader来实现这些计算。UE的材质编辑器允许用户通过直观的操作设置材质属性,这些属性最终被转化为HLSL函数,由shader调用以计算光照效果。装修工长平台源码
在渲染过程中,材质、shader和顶点工厂紧密关联,形成渲染流程。UE会根据材质所使用的shader类型和顶点工厂类型编译出特定的组合结果,存储在材质的ShaderMap中。当使用BuildMeshDrawCommands()时,传入的shader是针对特定pass的完整shader。
材质类涉及游戏线程、代理和渲染线程相关的类,与材质蓝图的关联主要体现在UMaterialGraph上,它用于存储和管理材质节点和参数。UMaterialExpression管理节点的表达式,包括节点输入、名称和编译逻辑。拓展材质节点通常需要继承UMaterialExpression并实现相关函数,尤其是Compile()函数,直接决定节点如何被编译。
在进行材质编译时,UE首先翻译材质蓝图到HLSL代码,然后根据不同的组合进行编译,并存储到ShaderMap中。编译过程涉及环境设置,这影响宏的使用,进而影响shader效果。在将材质蓝图翻译到HLSL时,UE使用不同的翻译帮助函数,如FHLSLMaterialTranslator。
总的来说,Shader与材质是UE中不可或缺的部分,它们共同决定了物体如何在屏幕上呈现。本文介绍了UE中Shader和材质的基本概念、关联方式以及编译流程,同时也简要提及了自定义Shader和拓展材质节点的方法。
UGUI源码阅读之Mask
Mask主要基于模版测试来进行裁剪,因此先来了解一下unity中的模版测试。
Unity Shader中的模版测试配置代码大致如上
模版测试的伪代码大概如上
传统的渲染管线中,模版测试和深度测试一般发生在片元着色器(Fragment Shader)之后,但是现在又出现了Early Fragment Test,可以在片元着色器之前进行。
Mask直接继承了UIBehaviour类,同时继承了ICanvasRaycastFilter和IMaterialModifier接口。
Mask主要通过GetModifiedMaterial修改graphic的Material。大致流程:
1.获取当前Mask的层stencilDepth
2.StencilMaterial.Add修改baseMaterial的模板测试相关配置,并将其缓存
3.StencilMaterial.Add设置一个unmaskMaterial,用于最后将模板值还原
MaskableGraphic通过MaskUtilities.GetStencilDepth计算父节点的Mask层数,然后StencilMaterial.Add修改模板测试的配置。
通过Frame Debugger看看具体每个batch都做了什么。先看第一个,是Mask1的m_MaskMaterial,关注Stencil相关的数值,白色圆内的stencil buffer的值设置为1
这个是Mask2的m_MaskMaterial,根据stencil的计算公式,Ref & ReadMask=1,Comp=Equal,2048游戏源码java只有stencil buffer & ReadMask=1的像素可以通过模板测试,即第一个白色圆内的像素,然后Pass=Replace,会将通过的像素写入模板值(Ref & WriteMask=3),即两圆相交部分模板值为3
这个是RawImage的Material,只有模板值等于3的像素可以通过模板测试,所以只有两个圆相交的部分可以写入buffer,其他部分舍弃,通过或者失败都不改变模板值
这是Mask2的unmaskMaterial,将两个圆相交部分的模板值设置为1,也就是还原Mask2之前的stencil buffer
这是Mask1的unmaskMaterial,将第一个圆内的模板值设置为0,还有成最初的stencil buffer
可以看到Mask会产生比较严重的overdraw。
2.drawcall和合批
每添加一个mask,一般会增加2个drawcall(加上mask会阻断mask外和mask内的合批造成的额外drawcall),一个用于设置遮罩用的stencil buffer,一个用于还原stencil buffer。
如图,同一个Mask下放置两个使用相同的RawImage,通过Profiler可以看到两个RawImage可以进行合批
如图,两个RawImage使用相同的,它们处于不同的Mask之下,但是只要m_StencilValue相等,两个RawImage还是可以进行合批。同时可以看到Mask1和Mask1 (1),Mask2和Mask2 (1)也进行了合批,说明stencilDepth相等的Mask符合合批规则也可以进行合批。
StencilMaterial.Add会将修改后的材质球缓存在m_List中,因此调用StencilMaterial.Add在相同参数情况下将获得同一个材质球。
真实感人物渲染(四)布料篇
在布料渲染领域,Charlie的高光公式常被用于实现较为出色的视觉效果,Unity HDRP管线的Fabric Shader是一种较为完整的实现方法。本文旨在基于HDRP管线,探讨棉布与丝绸材质的实现。
棉布材质特征为平纹或斜纹,这类材质几乎无镜面反射,粗糙度极高;相反,丝绸材质拥有显著的镜面反射能力,表面光滑,高光光泽明显,并且展现出各向异性特点。
实现过程中,需准备BRDF LUT贴图。棉布材质使用特定的Fabric Charlie LUT贴图,而丝绸材质则采用Disney GGX LUT贴图。为了增加布料细节,还需要添加Thread贴图(螺纹贴图)和Fuzz贴图(绒毛贴图)。
棉布渲染时,其直接光漫反射与光通量无关,仅与粗糙度相关。HDRP的高光项采用Charlie的法线分布与可见性项。Fabric Charlie LUT解码时需注意,直接光漫反射和镜面反射部分应除以π,与HDRP Fabric Shader源码中使用的版本保持一致。
丝绸渲染则遵循PBR篇章中的获取视频站源码迪士尼漫反射公式。高光部分使用Smith Joint的各向异性GGX高光的D项与V项。丝绸材质使用Disney GGX LUT,LUT解码方式与棉布有所不同。在渲染丝绸时,进行除以π的操作,以确保布料整体效果不会过亮。各向异性渲染中,通常使用切线与副切线,若资产提供法线贴图,则需考虑法线贴图中的法线是否需要调整切线与副切线方向。HDRP的布料渲染流程中并未对切线与副切线进行调整,但有的博客提及了调整方法,无需使用三角函数,性能更为高效。各向异性间接光通过调整后的法线进行计算,调整anisotropy值以选择偏移强度,并结合anisDirection参数进行间接光照计算。解码LUT时,使用原始的NdotV。
在Filament引擎中,可手动设置Sheen Color颜色,以调整布料的高光光泽颜色。该引擎文档提供了详细的解释和代码,关于布料次表面散射的特性在文档中亦有提及,但本文未进行实现。
本系列文章旨在全面探索布料渲染技术,涵盖多种材质的实现与优化。在后续篇章中,将更深入地探讨不同技术细节与实际应用案例,旨在为读者提供全面且实用的布料渲染知识。如需进一步了解相关技术与实现细节,欢迎查阅本系列其他文章及官方文档资源。
游戏引擎随笔 0x:UE5.x Nanite 源码解析之可编程光栅化(下)
书接上回。
在展开正题之前,先做必要的铺垫,解释纳尼特(Nanite)技术方案中的Vertex Reuse Batch。纳尼特在软光栅路径实现机制中,将每个Cluster对应一组线程执行软光栅,每ThreadGroup有个线程。在光栅化三角形时访问三角形顶点数据,但顶点索引范围可能覆盖整个Cluster的个顶点,因此需要在光栅化前完成Cluster顶点变换。纳尼特将变换后的顶点存储于Local Shared Memory(LDS)中,进行组内线程同步,确保所有顶点变换完成,光栅化计算时直接访问LDS,实现软光栅高性能。
然而,在使用PDO(Masked)等像素可编程光栅化时,纳尼特遇到了性能问题。启用PDO或Mask时,可能需要读取Texture,根据读取的Texel决定像素光栅化深度或是否被Discard。读取纹理需计算uv坐标,而uv又需同时计算重心坐标,增加指令数量,降低寄存器使用效率,影响Active Warps数量,降低延迟隐藏能力,导致整体性能下降。复杂材质指令进一步加剧问题。
此外,当Cluster包含多种材质时,同一Cluster中的三角形被重复光栅化多次,尤其是材质仅覆盖少数三角形时,大量线程闲置,浪费GPU计算资源。
为解决这些问题,纳尼特引入基于GPU SIMT/SIMD的Vertex Reuse Batch技术。技术思路如下:将每个Material对应的三角形再次分为每个为一组的Batch,每Batch对应一组线程,每个ThreadGroup有个线程,正好对应一个GPU Warp。利用Wave指令共享所有线程中的变换后的顶点数据,无需LDS,减少寄存器数量,增加Warp占用率,提升整体性能。
Vertex Reuse Batch技术的启用条件由Shader中的NANITE_VERT_REUSE_BATCH宏控制。
预处理阶段,纳尼特在离线时构建Vertex Reuse Batch,核心逻辑在NaniteEncode.cpp中的BuildVertReuseBatches函数。通过遍历Material Range,统计唯一顶点数和三角形数,达到顶点去重和优化性能的目标。
最终,数据被写入FPackedCluster,根据材质数量选择直接或通过ClusterPageData存储Batch信息。Batch数据的Pack策略确保数据对齐和高效存储。
理解Vertex Reuse Batch后,再来回顾Rasterizer Binning的数据:RasterizerBinData和RasterizerBinHeaders。在启用Vertex Reuse Batch时,这两者包含的是Batch相关数据,Visible Index实际指的是Batch Index,而Triangle Range则对应Batch的三角形数量。
当Cluster不超过3个材质时,直接从FPackedCluster中的VertReuseBatchInfo成员读取每个材质对应的BatchCount。有了BatchCount,即可遍历所有Batch获取对应的三角形数量。在Binning阶段的ExportRasterizerBin函数中,根据启用Vertex Reuse Batch的条件调整BatchCount,表示一个Cluster对应一个Batch。
接下来,遍历所有Batch并将其对应的Cluster Index、Triangle Range依次写入到RasterizerBinData Buffer中。启用Vertex Reuse Batch时,通过DecodeVertReuseBatchInfo函数获取Batch对应的三角形数量。对于不超过3个材质的Cluster,DecodeVertReuseBatchInfo直接从Cluster的VertReuseBatchInfo中Unpack出Batch数据,否则从ClusterPageData中根据Batch Offset读取数据。
在Binning阶段的AllocateRasterizerBinCluster中,还会填充Indirect Argument Buffer,将当前Cluster的Batch Count累加,用于硬件光栅化Indirect Draw的Instance参数以及软件光栅化Indirect Dispatch的ThreadGroup参数。这标志着接下来的光栅化Pass中,每个Instance和ThreadGroup对应一个Batch,以Batch为光栅化基本单位。
终于来到了正题:光栅化。本文主要解析启用Vertex Reuse Batch时的软光栅源码,硬件光栅化与之差异不大,此处略过。此外,本文重点解析启用Vertex Reuse Batch时的光栅化源码,对于未启用部分,除可编程光栅化外,与原有固定光栅化版本差异不大,不再详细解释。
CPU端针对硬/软光栅路径的Pass,分别遍历所有Raster Bin进行Indirect Draw/Dispatch。由于Binning阶段GPU中已准备好Draw/Dispatch参数,因此在Indirect Draw/Dispatch时只需设置每个Raster Bin对应的Argument Offset即可。
由于可编程光栅化与材质耦合,导致每个Raster Bin对应的Shader不同,因此每个Raster Bin都需要设置各自的PSO。对于不使用可编程光栅化的Nanite Cluster,即固定光栅化,为不降低原有性能,在Shader中通过两个宏隔绝可编程和固定光栅化的执行路径。
此外,Shader中还包括NANITE_VERT_REUSE_BATCH宏,实现软/硬光栅路径、Compute Pipeline、Graphics Pipeline、Mesh Shader、Primitive Shader与材质结合生成对应的Permutation。这部分代码冗长繁琐,不再详细列出讲解,建议自行阅读源码。
GPU端软光栅入口函数依旧是MicropolyRasterize,线程组数量则根据是否启用Vertex Reuse Batch决定。
首先判断是否使用Rasterizer Binning渲染标记,启用时根据VisibleIndex从Binning阶段生成的RasterizerBinHeaders和RasterizerBinData Buffer中获取对应的Cluster Index和光栅化三角形的起始范围。当启用Vertex Reuse Batch,这个范围是Batch而非Cluster对应的范围。
在软光栅中,每线程计算任务分为三步。第一步利用Wave指令共享所有线程中的Vertex Attribute,线程数设置为Warp的Size,目前为,每个Lane变换一个顶点,最多变换个顶点。由于三角形往往共用顶点,直接根据LaneID访问顶点可能重复,为确保每个Warp中的每个Lane处理唯一的顶点,需要去重并返回当前Lane需要处理的唯一顶点索引,通过DeduplicateVertIndexes函数实现。同时返回当前Lane对应的三角形顶点索引,用于三角形设置和光栅化步骤。
获得唯一顶点索引后,进行三角形设置。这里代码与之前基本一致,只是写成模板函数,将Sub Pixel放大倍数SubpixelSamples和是否背面剔除bBackFaceCull作为模板参数,通过使用HLSL 语法实现。
最后是光栅化三角形写入像素。在Virtual Shadow Map等支持Nanite的场景下,定义模板结构TNaniteWritePixel来实现不同应用环境下Nanite光栅化Pipeline的细微差异。
在ENABLE_EARLY_Z_TEST宏定义时,调用EarlyDepthTest函数提前剔除像素,减少后续重心坐标计算开销。当启用NANITE_PIXEL_PROGRAMMABLE宏时,可以使用此机制提前剔除像素。
最后重点解析前面提到的DeduplicateVertIndexes函数。
DeduplicateVertIndexes函数给每个Lane返回唯一的顶点索引,同时给当前Lane分配三角形顶点索引以及去重后的顶点数量。
首先通过DecodeTriangleIndices获取Cluster Local的三角形顶点索引,启用Cluster约束时获取所有Lane中最小的顶点索引,即顶点基索引。将当前三角形顶点索引(Cluster Local)减去顶点基索引,得到相对顶点基索引的局部顶点索引。
接下来生成顶点标志位集合。遍历三角形三个顶点,将局部顶点索引按顺序设置到对应位,表示哪些顶点已被使用。每个标志位是顶点的索引,并在已使用的顶点位置处设置为1。使用uint2数据类型,最多表示个顶点位。
考虑Cluster最多有个顶点,为何使用位uint2来保存Vertex Mask而非位?这是由于Nanite在Build时启用了约束机制(宏NANITE_USE_CONSTRAINED_CLUSTERS),该机制保证了Cluster中的三角形顶点索引与当前最大值之差必然小于(宏CONSTRAINED_CLUSTER_CACHE_SIZE),因此,生成的Triangle Batch第一个索引与当前最大值之差将不小于,并且每个Batch最多有个唯一顶点,顶点索引差的最大值为,仅需2个位数据即可。约束机制确保使用更少数据和计算。
将所有Lane所标记三个顶点的Vertex Mask进行位合并,得到当前Wave所有顶点位掩码。通过FindNthSetBit函数找出当前Lane对应的Mask索引,加上顶点基索引得到当前Lane对应的Cluster Local顶点索引。
接下来获取当前Lane对应的三角形的Wave Local的三个顶点索引,用于后续通过Wave指令访问其他Lane中已经计算完成的顶点属性。通过MaskedBitCount函数根据Vertex Mask以及前面局部顶点索引通过前缀求和得到当前Lane对应的Vertex Wave Local Index。
最后统计Vertex Mask所有位,返回总计有效的顶点数量。
注意FindNthSetBit函数,实现Lane与顶点局部索引(减去顶点基索引)的映射,返回当前Lane对应的Vertex Mask中被设置为1的位索引。如果某位为0,则返回下一个位为1的索引。如果Mask中全部位都设置为1,则实际返回为Lane索引。通过二分法逐渐缩小寻找索引范围,不断更新所在位置,最后返回找到的位置索引。
最后,出于验证目的进行了Vertex Reuse Batch的性能测试。在材质包含WPO、PDO或Mask时关闭Vertex Reuse Batch功能,与开启功能做对比。测试场景为由每颗万个三角形的树木组成的森林,使用Nsight Graphics进行Profiling,得到GPU统计数据如下:
启用Vertex Reuse Batch后,软光栅总计耗时减少了1.毫秒。SM Warp总占用率有一定提升。SM内部工作量分布更加均匀,SM Launch的总Warp数量提升了一倍。长短板Stall略有增加,但由于完全消除了由于LDS同步导致的Barrier Stall,总体性能还是有很大幅度的提升。
至此,Nanite可编程光栅化源码解析讲解完毕。回顾整个解析过程,可以发现UE5团队并未使用什么高深的黑科技,而是依靠引擎开发者强悍的工程实现能力完成的,尤其是在充分利用GPU SIMT/SIMD机制榨干机能的同时,保证了功能与极限性能的实现。这种能力和精神,都很值得我们学习。
(五) Geometries
本文主要介绍以下内容:
专栏代码地址: github.com/ue/three....
本文代码地址: github.com/ue/three....
在three.js概念里,mesh是由几何体Geometry和材质Material组成的,在源码Mesh.js可以看到之间的关系:
Mesh = Geometry + Material
为什么会有Mesh三角网的概念呢?
首先我们要回顾下图形渲染管线了。
所以,从上图可以理解:
Geometry: 就是在准备顶点数据,对应Vertex处理过程; Mesh: 就是对应的Triangle三角面处理过程; Material:对应Fragment片元处理过程,对每个三角面片进行着色、贴图等等处理;
几何体,就是在准备一堆顶点数据,主要包括顶点数据、颜色数据、UV贴图数据、法向量数据等等;简单的说,几何体就是数据源,如果你对如何通过三角面片拼接成几何体非常了解,完全可以自己组织数据,不幸的是,这样操作不仅麻烦,而且也是非常困难的事情。所以,three.js内置常用的几何体,供大家直接使用,然后控制Position、Scale、Rotation、visible等空间属性,来操控物体。
Three.js一共有 种内置的图元。
简单整个例子,了解下使用流程,其他几何体触类旁通,参考three.js官网即可。
参考代码:
执行命令:
运行后,场景中多一个Line。
运行后,多出一个三角锥:
为什么即存在Geometry,又存在BufferGeometry?
说白了,Geometry更适合于人来理解,自定义的地方比较多,但性能比较低一些;
BufferGeometry更适合计算机来理解,自定义的地方很少,适合对图形学非常了解的人使用,但是性能很高。
内置的几何体,都是一些非常基础的模型,可以使用这些基础模型组装成,搭积木的方式,组成非常复杂的场景。
目前国内,数字产业化搞得如火如荼,各个行业都要数字化,所以数据的来源也是非常复杂的,多种多样的,比如:BIM行业的Revit数据模型、CAD图纸,GIS行业的各种数据要素、倾斜摄影、tiles,可以参考CesiumLab的数据转换这张图。
最终都会将各行各业的数据进行转换,轻量化,瓦片化等等技术手段,传输给Three.js的BufferGeometry,进行渲染;
或者将数据通过Datasmith的插件,转换数据转换成Unreal Engine的资产进行渲染。
后期会针对熟悉的行业数据进行一一分析,探讨应用场景。
图形学分为三大部分,几何、渲染、动画。