从零理解高斯泼溅
入门 · 7 模块 · 约 2.5 小时
概念、流程、与 NeRF 的关系、首个端到端实践。
进入路径 →学习路径 / Learn
四条结构化学习路径已经成形,从「零基础理解」到「空间叙事实验」。下方配套延伸笔记与术语图谱,让路线、概念和工具互相对齐。
首批学习路径
延伸笔记
由历史外链整理并重写,便于站内阅读与检索。
说明摄影测量类管线为何依赖稳定光照、清晰成像与足够重叠;给出拍摄前自检要点,并与 COLMAP 等公开文档对齐。
阅读 →用小空间练手时,先判断画面信息是否足够,再用三层高度与回字形动线覆盖体积,并避开微距与过近工作距离。
阅读 →用标准广角以稳定速度环绕物体多圈,控制总时长与高度分层;上传前可按平台能力做背景分离与素材整理。
阅读 →固定机位与焦段,用 RAW 采集并在导出前统一白平衡与曝光;转盘步进拍摄相邻帧保持高重叠,并补拍底面连续性。
阅读 →利用广角与较高帧率一次采集冗余视角;统一 SDR 与白平衡,暗光优先静态照片;避免镜头垂直对地/顶,窄门过渡处增加斜向环绕。
阅读 →先筛图、校正倒置素材并统一白平衡,再导入 RC 做自动注册;对位失败时优先回到拍摄侧补重叠,而非依赖手动打锚点救场。
阅读 →按张数或按时长计费、区分普通版与专业版容量;与海外订阅型平台对比时,应核对导出格式、排队规则与单价是否包含降噪等增值项。
阅读 →区分 PlayCanvas 开源 SuperSplat 编辑器与 superspl.at 在线组合工具的职责边界,并列出官方仓库与编辑器 URL。
阅读 →说明 sog 在体积与首包加载上的优势,以及有损压缩带来的细节损失与不可逆性;交付与归档仍建议保留 PLY 或 splat 等可互转主文件。
阅读 →基于 Radiance Fields 教程重写,梳理 Scaniverse、Polycam、Luma AI、KIRI Engine 与 Postshot 的入口门槛、云端依赖、导出能力和本地训练取舍。
阅读 →基于 Volinga 团队文章重写,说明 NeRF 如何补足传统虚拟制片环境制作里的时间、预算和镜头自由度问题,以及 Unreal Engine 集成仍需解决的实时渲染边界。
阅读 →延伸阅读 · 研究里程碑
想读源头?这里是当代高斯泼溅工程范式的几篇关键论文与开源工具。
高斯泼溅技术的开山之作,首次打破了高质量视图合成与实时渲染之间的性能壁垒。
查看 →用正则化让高斯体紧贴物体表面,弥合了点云高斯与传统多边形网格管线之间的鸿沟。
查看 →完全在浏览器中运行的高性能 3DGS 查阅与编辑工具,大幅降低了空间数据清理的硬件门槛。
查看 →通过引入二维低通滤波器机制,彻底解决了改变视角距离时产生的强烈高频锯齿与膨胀伪影。
查看 →将体积高斯压成与表面对齐的二维盘,配合透视正确泼溅与深度法线正则,显著改善几何重建。
查看 →以 4D 神经体素与可学习形变在单套规范高斯上建模动态场景,兼顾实时帧率与训练存储效率。
查看 →通过掩码剪枝、网格化颜色场与几何码本量化,在保持画质的同时大幅压缩高斯数量与属性存储。
查看 →在规范空间用三维高斯加形变场建模单目动态场景,并以退火平滑抑制位姿噪声带来的时序抖动。
查看 →以三维高斯为可微载体结合 SDS,并辅以网格提取与 UV 精修,显著缩短单样本三维生成时间。
查看 →用可驱动三维高斯显式建模人体,并学习姿态相关外观与运动联合优化,提升单目视频化身真实感与效率。
查看 →以三维高斯为统一地图表示,在单目序列上联合跟踪与建图,实现实时增量重建与新视角合成。
查看 →在单目短序列上联合学习静态场景与可动画人体高斯,通过优化蒙皮权重抑制关节动画伪影并实现高帧率渲染。
查看 →以高斯为载体存储蒸馏后的语言特征并用泼溅渲染,相较基于 NeRF 的体积积分显著加速开放词汇三维定位。
查看 →以锚点网格组织局部神经高斯并按视点预测属性,抑制冗余高斯并提升复杂场景泛化。
查看 →术语库 / Glossary
52 条核心概念、技术、格式与工具,分层服务小白爱好者、从业者与研究者——同一条术语,看你需要哪一层。
共 54 条
又称:Gaussian Splatting / 3DGS
一种革命性的三维场景表达与实时渲染技术。它放弃了传统网格和神经辐射场,转而使用数以百万计的带有协方差、不透明度和球谐函数的各向异性三维高斯椭球来显式表达物理空间,通过可微光栅化实现超高帧率的逼真视图合成。
主要用于真实世界的高保真重建与实时渲染环节,是当前空间计算的核心基石。
相关术语
延伸阅读
又称:Gaussian / Splatting Primitive
构成 3DGS 场景的基本三维基元。你可以将其视为悬浮在三维空间中的一滴有颜色的「半透明颜料」,它的形状呈现为具有不同拉伸方向的椭球体,其色彩和透明度随着观察视角的变化而动态呈现不同的光影效果。
创作者和算法在优化阶段需要不断增加、删除或调整这些基元,以逼近真实场景。
相关术语
又称:SfM
一种从多张二维图像序列中自动提取并估算相机位姿和稀疏三维点云的计算机视觉技术。在 3DGS 工作流中,SfM 提供了至关重要的初始相机参数和基础结构,是后续致密化和高斯初始化的起点。
部署在数据捕获后的预处理阶段,通常由 COLMAP 等开源库自动完成计算。
相关术语
延伸阅读
又称:MVS
接续在 SfM 之后运行的三维重建算法,通过分析已知相机参数的图片集合,利用立体匹配技术生成极为稠密的三维点云。传统流程依赖 MVS 提取网格,但 3DGS 直接绕过了这一昂贵步骤,基于稀疏点云即可开始训练。
传统网格建模流的核心步骤,但在标准的高斯工作流中通常被省略或仅作参照对照。
相关术语
延伸阅读
又称:NeRF
一种使用多层感知机(MLP)隐式表达连续三维场景的技术。给定视线方向和空间坐标,神经网络会输出该点的颜色与体积密度。NeRF 是新视角合成领域的破局者,也是 3DGS 试图超越的直接前置技术。
研究界常将其作为基准对比对象,由于渲染速度慢,在实时交互场景中正被 3DGS 逐步替代。
相关术语
延伸阅读
又称:Points
三维空间中离散数据点的集合,通常包含坐标位置信息以及颜色、反射率等附加属性。在 3DGS 中,通过 SfM 生成的稀疏点云被用作高斯椭球的初始生成位置,是空间重建的物理骨架。
存在于整个空间计算管线的初始阶段,也是多种激光雷达和扫描设备的直接输出格式。
相关术语
延伸阅读
又称:Mesh / 网格
传统 3D 引擎中最主流的模型表达方式,由顶点、边缘和多边形面(通常是三角形)拼接形成物体的表面壳体。与 3DGS 的「体积感」和「散落分布」不同,网格要求严密的表面拓扑连续性,难以完美重构毛发或半透明材质。
主流游戏引擎和建模软件(如 Blender、Unreal)的原生语言,是目前高斯技术急需打通互转的传统媒介。
相关术语
又称:Covariance / Σ
控制单个高斯基元空间形态的数学表达。在 3DGS 语境下,它通过描述分布的方差,直接决定了高斯体在 X、Y、Z 三个维度上的拉伸程度与旋转姿态,使其能够拟合从细微尘埃到平坦墙面的任何形状。
存在于模型训练的底层梯度计算中,确保椭球在变形时保持数学上的合法性(半正定)。
相关术语
又称:Alpha / 透明度
定义高斯基元物理穿透性的标量值,范围从 0(完全透明)到 1(完全不透明)。在渲染光栅化时,多层高斯体的颜色会根据其不透明度进行混合计算;在优化过程中,透明度过低的无用高斯体会被算法作为「噪声」自动清除。
决定空间场景的通透感,也是算法自适应控制基元数量、修剪冗余体积的核心判断依据。
相关术语
又称:SH
一组定义在球面上的正交基函数,用于高保真地逼近与视角相关的颜色变化。在 3DGS 中,每个高斯体不只有一个固定颜色,而是携带了一组 SH 系数,使其能根据用户观察角度的不同,呈现出真实的高光和镜面反射效果。
负责高保真的光影与反射渲染,通常分为多阶,阶数越高色彩细节越丰富,但也越消耗显存。
相关术语
延伸阅读
又称:克隆与分裂 / Cloning and Splitting
自适应密度控制策略的「增长」阶段。当模型在训练时发现某处细节不足或高斯体过大(方差过高)时,致密化机制会自动克隆新的高斯体以填补空白,或将一个大的高斯体分裂成两个较小的,从而动态提升场景的几何细节分辨率。
发生在核心训练周期内,是赋予 3DGS 极高画面解析力的关键自动繁衍机制。
相关术语
又称:3DGS as MCMC / Gaussian Splatting MCMC
一句话理解把原版 3DGS 的优化看成在离散高斯集合上做随机搜索:用 MCMC 提议接受机制调节增删与参数更新,并显式引入噪声学习率、尺度与不透明度正则等旋钮;官方实现基于 Inria 参考代码扩展,适合要复现论文训练配方的人。
详细说明UBC 视觉组在 NeurIPS 2024 Spotlight 论文中提出:将三维高斯泼溅训练表述为马尔可夫链蒙特卡洛过程,以缓解传统自适应密度控制在某些场景下的不稳定或伪影。公开仓库在 README 中写明基于原始 3D Gaussian Splatting 代码扩展,训练入口与原版相近,但需额外指定 cap_max(高斯数量上限)、scale_reg、opacity_reg、noise_lr、init_type 等参数;许可证沿用捆绑的 Inria 非商业研究条款,商业用途须另行取得许可方授权。README 亦说明主要在 Ubuntu 20.04 上测试。
首次提出
2024 · Shakiba Kheradmand et al. (UBC Vision)
"3D Gaussian Splatting as Markov Chain Monte Carlo"[src]
↓ 前置术语
↑ 进阶延伸
相关术语
又称:裁剪 / Culling
自适应密度控制策略的「淘汰」阶段。为了防止高斯基元数量无限膨胀拖垮显存,算法会在训练过程中定期检查,强制删除那些不透明度极低(近乎隐形)或体积过大的无效高斯体,保持模型的轻量与干练。
与致密化相辅相成,贯穿训练始终,是控制最终文件体积和渲染帧率的保底手段。
相关术语
又称:ADC
统揽致密化与修剪行为的宏观调控算法。它通过计算位置梯度的平均幅度,实时诊断三维空间中哪些区域呈现出欠重建(需增加密度)或过重建(需剔除噪声),智能调配高斯体的空间分布,无需人工干预即可让画面逐渐清晰。
3DGS 训练引擎的大脑,直接决定了从稀疏点云到完美场景的进化速度与质量。
相关术语
又称:Tile-based Rasterizer
3DGS 高速渲染的秘密武器。它将屏幕划分为 16×16 的小图块(Tile),对视野内的高斯体进行快速排序和可见性剔除。因为该过程是数学「可微」的,这意味着画面上的每一像素误差都可以顺畅地反向传播给底层高斯属性,指导它们修正形态。
连接正向渲染视觉输出与反向梯度优化的桥梁,用传统图形学的工程巧思解决了 AI 算力瓶颈。
相关术语
延伸阅读
又称:Anisotropic
物理量在不同方向上呈现不同数值的属性。在 3DGS 中,高斯体不是完美的正球体,而是允许在 X、Y、Z 轴拥有截然不同缩放比例的椭球。这种属性使其能被极度压扁,贴合建筑表面,以极少的数据量模拟复杂的连续结构。
是 3DGS 相比传统体素或各向同性点云在表达效率上的巨大跃升点。
相关术语
又称:Neural Anchor
在 Scaffold-GS 等进阶模型中引入的特征挂载点。系统不再让海量高斯体各自为战,而是利用体素网格生成稀疏锚点,每个锚点通过神经网络控制周围附着的局部高斯体。这种层级结构极大增强了模型的抗噪能力与视角稳定性。
针对复杂室内外场景的进阶网络架构,解决了基础 3DGS 在视角突变时容易产生伪影的缺陷。
相关术语
延伸阅读
又称:Dynamic GS / 4DGS
将时间轴(T)作为第四维度融入三维高斯的技术分支。它通常引入形变场(Deformation Field)神经网络来捕捉高斯体随时间的运动轨迹、形变或消亡,从而实现极高帧率的真实世界动态场景(如人脸表情、火焰燃烧)重建与渲染。
空间视频、全息演艺和动作捕捉领域的下一代技术方案,目前在工业界正处于火热攻坚期。
相关术语
延伸阅读
又称:Mip-Splat
为解决 3DGS 在摄像机拉远(变焦)或移动时产生的高频闪烁与伪影而提出的改进算法。它在二维和三维层面引入了低通滤波器,有效约束了高斯体的频率采样率,使得重建结果在任何尺度观察下都保持平滑和无锯齿。
极大提升了模型在 Web 端自由漫游时的观看体验,是实现商业级应用落地的关键优化。
相关术语
一种采用结构化层级设计的改进型高斯模型。它摒弃了完全自由生长的高斯群,利用 SfM 点云建立体素网格生成「神经锚点」,由锚点动态预测局部的高斯属性。这种脚手架结构降低了对特定视角的过拟合,并大幅压缩了存储体积。
常被极客与开发者用于大规模室外场景重建或对存储敏感的移动端展示项目。
相关术语
延伸阅读
又称:压缩高斯
针对基础 3DGS 模型文件动辄数百兆的缺陷而演化出的系列压缩算法(如 C3DGS)。通常结合向量量化(Vector Quantization)、灵敏度感知裁剪和熵编码等机制,在肉眼画质几乎无损的前提下,将高斯模型文件体积压缩 10 至 30 倍。
决定内容能否在网页端顺畅分发的核心链路,是进入印刻万物等社区推荐的硬指标。
相关术语
由 PlayCanvas 团队开发的开源 Web 端 3DGS 编辑与处理工具。它提供基于浏览器的直观交互界面,允许创作者导入 ply 文件并进行选择、修剪、合并以及重新着色等后处理工作,填补了高斯管线中编辑环节的空白。
无代码背景的创作者和三维艺术家修饰原生泼溅模型、剔除杂散飞点(Floaters)的首选工具。
相关术语
又称:Splat Web Viewer / Viewer
用于在终端设备(通常是 Web 浏览器)中解析、加载并实时光栅化渲染高斯 .ply 或压缩格式的应用程序。优秀的查看器会高度利用 GPU 加速,并封装镜头漫游、抗锯齿、以及基础的光影互动功能。
终端用户接触高斯体验的直接视窗,其生态的繁荣度决定了 3DGS 内容的传播广度。
相关术语
又称:RTR
计算机图形学中以足够快的速度(通常 >30 FPS)生成图像,使得视觉上没有延迟感的处理过程。3DGS 之所以在产业界引发轰动,正是因为它在保持与 NeRF 同等离线渲染级画质的同时,实现了 1080P 甚至 4K 分辨率下的极高实时渲染帧率。
区别于需要耗时数小时渲染的影视级网格光追,是 VR/AR 互动和游戏开发的基础要求。
相关术语
又称:Web API
允许网页浏览器直接调用底层显卡硬件加速的图形 API。WebGL 历史悠久、兼容性广;而新一代 WebGPU 提供了更低级的控制和强大的 Compute Shader 计算能力,使得将数百万高斯体的海量排序计算搬至纯 Web 端成为可能。
免插件在线画廊、H5 互动展示等轻量化高斯空间分发应用不可或缺的底层基础设施。
相关术语
延伸阅读
又称:SLAM
机器人在未知环境中移动时,同时估算自身位置并构建周围环境地图的技术。近期的研究如 SplaTAM 或 MonoGS 将 3DGS 与 SLAM 结合,使得手机或无人机能在实时移动中边扫描边生成照片级逼真的高斯三维地图,极大地提升了捕获效率。
极大简化了传统「拍照→离线 SfM→训练」的漫长流水线,推动高斯向移动端实时测绘迈进。
相关术语
延伸阅读
又称:Reconstruction / 逆向工程
通过多视角的照片、视频或深度传感器数据,逆推并重现真实世界物理对象的三维形态和表面属性的过程。3DGS 作为当代最强大的重建范式之一,凭借出色的反射材质还原和超快速度,正在快速刷新该领域的精度天花板。
广泛服务于文博数字化扫描、医美面部测绘、数字人创建以及具身智能的空间认知。
相关术语
又称:Immersive Video / Volumetric Video
一种支持六自由度(6DoF)观看的媒介格式。观看者不仅能看到动态影像,还能在播放过程中轻微移动头部从不同角度观察物体侧面。基于 4DGS 压缩而成的空间视频,被视为下一代 Apple Vision Pro 等头显设备的首选原生内容形态。
从传统二维影像跨越到立体叙事的终极形式,目前仍面临海量数据存储与流媒体传输的挑战。
相关术语
又称:数字镜像
将现实世界中的物理实体(如建筑、工厂甚至画廊空间)在数字世界中进行一对一的高保真映射。3DGS 由于能极其真实地复刻光影和材质,被认为是构建下一代具象数字孪生(相比纯数据仪表盘)的最具成本效益的视觉底座技术。
常结合物联网(IoT)数据流共同运作,是智慧城市、虚拟展厅和工业仿真的终极业务容器。
相关术语
又称:Voxel Grid
将连续的三维空间或模型转化为离散的微小三维网格(体素,即三维像素)的过程。虽然 3DGS 本身是连续散乱的基元,但许多空间裁剪工具或底层碰撞检测机制会将高斯场临时「体素化」,以方便使用传统引擎的包围盒算法进行计算。
在处理高斯模型编辑、场景物理切割及与传统碰撞物理引擎融合时的常见过渡中间态。
相关术语
又称:评测标准 / Metrics
用于量化对比 3DGS 与其他算法生成图像质量的科学标尺。PSNR(峰值信噪比)侧重于像素级色彩失真度计算;SSIM(结构相似性)关注图像边缘特征的完整度;而 LPIPS 则是通过神经网络提取深层特征,更贴合人类肉眼的实际感官认知。
学术论文中验证模型优越性的唯一硬通货,开发者在超参调优时必须紧盯的实验图表。
相关术语
延伸阅读
一句话理解想象你攒了一叠同一栋楼的游客照——摄影测量就像用这些从不同角度拍下的平面照片,让电脑算出墙有多长、角在哪,最后捏出一个可以量尺寸、能转着看的立体模型;这是比高斯泼溅早得多的老办法。
详细说明摄影测量把多张影像里的像素对应关系、相机内外参数和地面控制信息一起丢进平差(bundle adjustment)里,迭代最小化重投影误差,从而得到稀疏或稠密点云、数字表面模型等产品。它和 COLMAP 那类 SfM/MVS 管线是同一棵家族树上的方法:先可靠地估计几何,再谈用什么基元(网格、点云或高斯)去表达外观。对从业者而言,关键是它强调可度量、可复现的摄影几何,而不是某一种特定的神经或泼溅表示。
↓ 前置术语
↑ 进阶延伸
又称:stray Gaussians
一句话理解训练好的 3D 高斯场景里,有时会冒出一些不该悬在半空的小团颜色——业内口语叫 floaters,像花粉飘在画面里;多在运动模糊、遮挡不够或动态物体上冒出来,常用 SuperSplat 这类编辑器选中删掉。
详细说明Floaters 不是某篇 SIGGRAPH 论文的正式标题术语,而是社区里对离群高斯的昵称:优化为了填洞或解释噪声,会在没有真实表面的位置留下小团高斯,看起来像漂浮杂质。处理手段包括手工选取删除、阈值裁剪、或在训练/后处理里加正则(相关论文常称 floating artifacts)。记录本条时应区分:它是现象描述,不是单独算法名。
↓ 前置术语
↑ 进阶延伸
相关工具
又称:path tracing
一句话理解把路径追踪想成「让光线在房间里乱弹几次再回相机」:每次只认真走一条随机路线,多试几万次取平均,画面就越来越像真照片;它跟实时里常用的光栅化不是一条路——后者像流水线贴三角形,前者像用物理骰子慢慢摇出全局光照。
详细说明路径追踪以渲染方程为对象,用蒙特卡洛积分估计沿随机路径到达相机的辐射;单路径不随意在镜面处无限分叉(与经典 Whitted 射线树不同),因此与双向路径、光子映射等变体相比更朴素但通用。与光栅化相比:光栅化把几何投影到屏幕并靠着色器近似光照,适合实时;路径追踪追求物理上更一致的全局光照,代价是噪声与采样成本——去噪与硬件 RT 让它慢慢进入实时产品。3D Gaussian Splat 本身常走可微光栅化,但若把 splat 放进 Omniverse、OctaneRender 2026 等路径追踪框架,就能与网格一起参与阴影、反射、折射和全局光照。
首次提出
1986-08 · James T. Kajiya
"We present an integral equation which generalizes a variety of known rendering algorithms."[src]
↓ 前置术语
↑ 进阶延伸
相关引擎
又称:SPZ / Scaniverse PLY zipped
一句话理解把 SPZ 想成给 3D 高斯数据穿的「真空压缩袋」:同样是那一团高斯点,塞进 .spz 往往比傻大粗的 PLY 省掉九成左右体积(产品页说法),带出去和网页里塞模型都轻松些;开源实现和 Scaniverse 工作流里常见它。
详细说明SPZ 在工程上把高斯属性按属性分块、量化(含球谐系数比特数等),再经 gzip 流封装;nianticlabs/spz 的 README 说明典型体积约为等价 PLY 的十分之一且视觉差异很小。Scaniverse / Niantic Capture 产品线将其作为标准导出之一,并与自家重建、定位管线衔接。PlayCanvas SplatTransform 手册将 .spz 列为可输入格式之一,便于与训练端 PLY 及网页工具链衔接。从业者要注意坐标系:库要求调用方声明保存/加载时的右手坐标约定,否则与 PLY、GLB 等格式混用时会踩坑。
↓ 前置术语
↑ 进阶延伸
相关工具
又称:SuGaR / Surface-Aligned Gaussian Splatting
一句话理解SuGaR 像给一碗散落的弹珠(训练好的高斯)涂上一层隐形胶水,把它们往真实物体表面轻轻推,让它们排得贴面;贴稳之后就能较快「倒」出一块可编辑的三角网格,而不是永远对着几百万颗乱跑的高斯发呆。
详细说明Guédon 与 Lepetit 在 SuGaR 中先加正则项,鼓励高斯在优化过程中沿场景表面对齐;随后从可见区域的密度水平集上高效采样点,用 Poisson 重建得到三角网格,避免直接在极度稀疏的密度场上跑 Marching Cubes。可选第二步把高斯绑定到网格并联合优化,使渲染仍走 Gaussian splatting,但编辑抓手回到传统网格工具链。它是「3DGS → 网格」路线的代表之一,与纯神经 SDF 提取相比强调速度与可扩展性。
首次提出
2023-11 · Antoine Guédon, Vincent Lepetit
"We propose a method to allow precise and extremely fast mesh extraction from 3D Gaussian Splatting."[src]
↓ 前置术语
又称:view synthesis
一句话理解想象你只在婚礼相册里见过新娘的正面和侧面——新视角合成就像让摄影师「再按一次快门」,但这次快门是电脑假装的:给你一张从没真正拍过的角度的照片,而且看起来还像真的。
详细说明新视角合成从一组已拍图像与对应相机参数出发,预测任意新相机姿态下的图像。传统 IBMR、光场与 NeRF/3DGS 等路线都落在这条任务名下:差别只在场景表示(网格、隐式场、显式高斯)和渲染器。评估时常与 PSNR/SSIM/LPIPS 及真实新视角采集对比。
↓ 前置术语
↑ 进阶延伸
相关引擎
一句话理解把辐射场想成「空间里每个点、每个朝外方向上一束光的亮度说明书」——不是一张贴图,而是一张五维(位置+方向)的亮度函数;NeRF 那种用神经网络去近似它,3D 高斯则是用无数颗小椭球去拼出近似效果。
详细说明在物理渲染里,辐射(radiance)描述沿某方向穿过某点的光强;「场」表示它随位置与方向变化。神经辐射场用 MLP 或网格特征去拟合该函数;3D 高斯泼溅用显式基元与可微光栅化去拟合同一目标。讨论时要说清:经典图形学中的辐射量与深度学习里的「NeRF=辐射场」口语并不完全同义。
首次提出
2020-08 · Ben Mildenhall, Pratul P. Srinivasan, Matthew Tancik, Jonathan T. Barron, Ravi Ramamoorthi, Ren Ng
"Our algorithm represents a scene using a fully-connected (non-convolutional) deep network, whose input is a single continuous 5D coordinate (spatial location (x,y,z) and viewing direction (theta,phi)) and whose output is the volume density and view-dependent emitted radiance at that spatial location."[src]
↓ 前置术语
↑ 进阶延伸
相关引擎
一句话理解空间计算就像不再把人塞进小屏幕里点鼠标,而是让电脑「看懂」你客厅有多深、手在哪、头往哪转——眼镜、耳机、手机摄像头一起上场,把界面铺在现实世界周围,而不是画在玻璃后面。
详细说明该词涵盖 XR、自然交互、上下文计算等相邻领域,标签使用并不严谨。对 3DGS 从业者而言,空间计算设备提供采集与展示通道:手机/头显扫描场景、WebXR 或原生引擎再把 splat 资产放进混合现实会话。技术栈上常与 SLAM、深度相机、OpenXR/WebXR 并列出现。
↓ 前置术语
↑ 进阶延伸
又称:rasterisation
一句话理解光栅化就像把剪纸窗花按到方格本上描格子:三角形、高斯点这些几何先被「压平」成屏幕上的像素格子,再决定每个格子涂什么颜色;游戏实时渲染多半走这条路,而不是慢慢追光线。
详细说明光栅化把几何图元映射到离散像素,并调用着色器决定片元颜色;与路径追踪相比,它不天然给出全局光照,但可通过阴影贴图、屏幕空间技巧等堆效果。3D 高斯泼溅的可微光栅化在 GPU 上排序、混合椭球,本质仍属光栅化管线上的特化实现。
↓ 前置术语
↑ 进阶延伸
一句话理解梯度下降像蒙眼下山:你每一步只摸脚底哪边最陡,然后往反方向跨一小步,重复很多次就能走到谷底;训练 3D 高斯时,损失函数就是那个「高度」,高斯参数就是你在山上站的位置。
详细说明对可微渲染管线,梯度从屏幕误差回传到各高斯参数;随机梯度下降、学习率调度与自适应控制(克隆/分裂/剪枝)共同决定优化动态。与纯网格优化不同,3DGS 常在迭代中改变基元数量,因此优化问题本身也在演化。
↓ 前置术语
↑ 进阶延伸
相关引擎
一句话理解COLMAP 像照片侦探事务所:你扔进去一叠无序旅游照,它先找共同点算相机在哪,再拼稠密点云——很多 NeRF/3DGS 训练前都用它当「相机位姿 + 稀疏点」的免费包工头。
详细说明项目集成特征匹配、增量式或全局式 SfM、MVS 与网格纹理化等模块,可通过 GUI 或命令行批处理。引用官方论文时需分别致谢 SfM、MVS、检索等子算法作者。Python 绑定 PyCOLMAP 便于与深度学习训练脚本对接。3.12 版本加入原生 sensor rig、经纬度到 UTM 转换和新姿态文件,对全景、多相机阵列和无人机重建更友好。
↓ 前置术语
↑ 进阶延伸
又称:nerfstudio gsplat
一句话理解gsplat 像给官方高斯渲染器换上一台改装引擎:还是把椭球泼到屏幕上,但用 CUDA 写得更省显存、更快,还带 Python 把手——适合接在 PyTorch 训练脚本里反复前向/反向。
详细说明仓库自述受 SIGGRAPH 3DGS 论文启发,提供与官方实现可比指标的评测脚本,并扩展批处理、3DGUT 等实验特性。安装可通过 PyPI 或源码构建 CUDA 扩展。与「仅数据格式工具」不同,它覆盖训练/渲染核心算子。注:本术语对应工程上的 gsplat 代码库(Nerfstudio 团队),与 Hugging Face 生态里的 gsplat.js 不同。
↓ 前置术语
↑ 进阶延伸
一句话理解训练损失就像裁判给「渲染图 vs 实拍图」打分:分越高说明越不像,优化器就根据这个分数往回拽每个高斯的位置和颜色;3DGS 里最常用的配方是 L1 加上一块结构相似项(D-SSIM),再按固定比例搅在一起。
详细说明原论文将损失写为 L = (1-λ)·L1 + λ·L_D-SSIM,并在实验中取 λ=0.2。额外正则(如 SuGaR 的表面对齐项)属于扩展工作。监控损失曲线时,应同时查看 PSNR/SSIM/LPIPS,以免单一标量掩盖几何伪影。
↓ 前置术语
↑ 进阶延伸
相关引擎
又称:surface extraction
一句话理解网格提取就像把一团橡皮泥(点云或高斯堆)翻模成硬壳手办:算法从数据里「抠」出三角面片,得到可在 Blender、游戏引擎里布尔、加骨骼的网格;3DGS 里常用 Poisson、SuGaR 等路线。
详细说明SuGaR 等工作通过正则让高斯贴面,再用 Poisson 提取网格;经典多视几何则从匹配点与法线估计表面。提取质量与训练噪声、浮游高斯、采样密度强相关,通常与 splat 渲染质量分别评估。Radiance Fields 的概念页也把 2DGS、RaDe-GS、Gaussian Frosting、Texture-GS 归入从高斯或辐射场提取可编辑表面的活跃路线。
↓ 前置术语
↑ 进阶延伸
相关引擎
又称:PLY / Polygon File Format / Stanford Triangle Format
一句话理解PLY 像带表头的配料清单:先写「有多少顶点、每个顶点有哪些字段」,再往下逐行列数字;3D 高斯训练导出也常用它,因为可以给每个点挂上位置、颜色、球谐系数等自定义属性。
详细说明斯坦福大学 90 年代为扫描数据设计,支持多边形与扩展属性。3DGS 社区在标准属性名(如 f_dc_*、scale_*)上形成事实标准,但不同工具仍可能扩展字段。ASCII 便于人类检查,二进制更省体积。PlayCanvas 手册将 PLY 写成 3D Gaussian Splat 数据的常用互换容器,并说明与典型网格 PLY 在属性集与体量上的差异;未压缩文件可达数十 MB 至数 GB,多作为离线交换而非直接网页交付。
首次提出
1994 · Greg Turk; Stanford University
"PLY is a computer file format known as the Polygon File Format or the Stanford Triangle Format."[src]
↓ 前置术语
↑ 进阶延伸
相关引擎
又称:splat file
一句话理解.splat 像把 PLY 那张大表压成快递盒:同样是高斯参数,但按引擎约定的二进制布局排好,网页端拖文件时加载更快;不同实现(官方训练导出、PlayCanvas 生态)细节可能不完全互通,换工具前要核对。
详细说明社区在 Inria 参考实现与 Web 查看器之间形成了事实上的 .splat 交换格式,通常包含位置、协方差、球谐、透明度等字段的紧凑编码。与 PLY 相比更利于流式加载,但人类不可读。PlayCanvas / SuperSplat 工具链常与此格式协同。OctaneRender 2026 对 PLY 与 SPZ 的支持,以及 2027 路线图中的 CG 场景转高斯计划,说明高斯格式正从网页查看器扩展到离线渲染与 DCC 管线。
↓ 前置术语
↑ 进阶延伸
相关引擎
又称:KSPLAT / .ksplat
一句话理解.ksplat 像是 GaussianSplats3D 项目私藏的压缩行李箱:从 .ply 或 .splat 再压一层,换更小的文件、更快的网页加载;规格没像 PLY 那样写成国际标准,换工具前最好试转试读。
详细说明README 说明可与 INRIA .ply、标准 .splat 互转,并强调转成 .ksplat 后加载最快。压缩级别、缓存排序等细节随版本迭代;PlayCanvas SplatTransform 等工具链亦提供相关转换能力。
↓ 前置术语
↑ 进阶延伸
相关引擎
又称:OpenUSD ParticleField
一句话理解在 USD 里,ParticleField 像给渲染器的一份「粒子场说明书」:写明每个粒子在哪、用什么核函数、长什么样;其中专门有 3D Gaussian Splat 的派生模式,好让 Omniverse 这类 RTX 渲染器把高斯当一等公民接进 USD 场景。
详细说明OpenUSD 文档将 ParticleField 定义为具体实现的基类,并要求派生模式提供位置、核、辐射亮度等属性。NVIDIA Omniverse 文档进一步说明如何把 .ply 高斯经脚本转成 USD,以便 RTX 路径追踪与网格互动。跨 DCC 传输时需核对属性绑定与色彩空间。
↓ 前置术语
↑ 进阶延伸
相关引擎
又称:PSNR
一句话理解PSNR 像用分贝表量「原图和生成图差了多少噪声」:数值越高通常表示越接近,但它只管像素层面的平均误差,遇到模糊或结构错位时可能和人眼感受不一致。
详细说明定义上由 MSE 与像素动态范围导出;3DGS/NeRF 论文常在 Mip-NeRF360 等基准上报告 PSNR 与 SSIM、LPIPS 并列。对比不同方法时应保持数据集划分与色调映射一致。
↓ 前置术语
↑ 进阶延伸
相关工具
又称:SSIM / structural similarity index
一句话理解SSIM 像比较两幅画时不仅看「像素差多少」,还看亮块、对比和结构是不是还像同一物体;比单纯 MSE 更贴近人眼对「糊成一团」的反感,但仍不是万能裁判。
详细说明全参考指标,在滑动窗口上聚合。3DGS 论文将 D-SSIM 项与 L1 组合成训练损失。报告数值时应说明窗口大小与通道权重,跨论文比较需谨慎。
↓ 前置术语
↑ 进阶延伸
相关工具
又称:LPIPS / perceptual metric LPIPS
一句话理解LPIPS 像请一位看过海量照片的卷积网络当裁判:它不逐像素抠差,而是比较中间层特征,离得越远分数越高;做 3DGS 论文表格时常和 PSNR/SSIM 一起报,用来补「人眼观感」这块短板。
详细说明Zhang et al. 提供 pip install lpips 实现,默认 Alex/VGG 骨干。作为训练损失时需注意梯度行为与归一化区间。引用论文应写明 backbone 与版本号。
↓ 前置术语
↑ 进阶延伸
相关工具
又称:FPS / frame rate
一句话理解FPS 就像数动画片一秒翻过多少张胶片:在 3DGS 里既可以是「显卡一秒画多少帧交互画面」,也可以是论文表格里「训练好后射线追踪/光栅化跑多快」——数字越高越流畅,但记得分清测的是训练还是推理。
详细说明维基将帧率与刷新率、GPU 生成速率区分开。评估 splat 查看器时,应在目标分辨率与相机运动下记录 1% low 与平均 FPS,并披露硬件与浏览器。论文中的 FPS 常指训练后高斯模型的实时渲染速度。
↓ 前置术语
↑ 进阶延伸
相关引擎
又称:number of Gaussians
一句话理解Splat 数量就像场景里塞了多少颗半透明椭球:训练过程中会克隆、分裂、删掉多余的高斯——最后留下来的总数,既影响显存占用,也影响文件体积和加载时间。
详细说明3DGS 论文在自适应控制段落描述根据梯度阈值增删高斯;评测表格常报告收敛后的高斯数量与 FPS、内存。对比不同 pipeline 时应固定随机种子与 densify 规则。Infinite Realities 报道中 30 秒动态片段对应约 1800 个训练 PLY 与 30 万张输入图像,说明动态 4D 捕捉还需要把单帧高斯数放进时间序列和存储预算中一起评估。
↓ 前置术语
↑ 进阶延伸
相关工具
相关引擎