上一篇
RF-DETR是什么?一文让你看懂RF-DETR的技术原理、主要功能、应用场景Bolt3D是什么?一文让你看懂Bolt3D的技术原理、主要功能、应用场景
Bolt3D概述简介
Bolt3D 是谷歌研究院、牛津大学 VGG 团队和谷歌 DeepMind 联合推出的新型 3D 场景生成技术,是潜在扩散模型,能在单个 GPU 上,仅需不到七秒的时间,直接从一张或多张图像中采样出 3D 场景表示。在英伟达 H100 图形处理单元上,Bolt3D 仅需 6.25 秒能将照片处理成完整的三维场景。
Bolt3D的功能特色
快速生成 3D 场景:Bolt3D 是一种前馈式生成方法,能直接从一张或多张输入图像中采样出 3D 场景表示,生成速度极快,在单个 GPU 上仅需 6.25 秒即可完成。
多视角输入与泛化能力:支持不同数量的输入图像,从单视图到多视图均可处理,能生成未被观测区域的内容,具备良好的泛化能力。
高保真 3D 场景表示:基于高斯溅射(Gaussian Splatting)技术来存储数据,通过布置在二维网格中的三维高斯函数来构建三维场景,每个函数都记录着位置、颜色、透明度和空间信息,生成的 3D 场景质量高。
实时交互与应用:用户可以在浏览器中实时查看和渲染生成的 3D 场景,具有广泛的应用前景,如游戏开发、虚拟现实、增强现实、建筑设计、影视制作等领域。
Bolt3D的技术原理
几何多视角潜在扩散模型:训练了多视图潜在扩散模型,用于联合建模图像和 3D 点图。模型将一张或多张图像及其相机位姿作为输入,学习捕捉目标图像、目标点图和源视图点图的联合分布。
几何 VAE:训练了几何 VAE,将一个视图的点图和相机射线图联合编码为一个几何潜在特征。模型通过最小化标准 VAE 目标和特定几何损失的组合进行优化,能以高精度压缩点图。
高斯头部模型:给定相机以及生成的图像和点图,训练多视图前馈高斯头部模型,输出存储在散点图像中的 3D 高斯的细化颜色、不透明度和协方差矩阵。
大规模多视图一致数据集:为了训练 Bolt3D,创建了大规模的多视图一致的 3D 几何和外观数据集,通过对现有的多视图图像数据集应用最先进的密集重建技术来生成。
三阶段训练过程:采用三阶段训练过程,首先训练几何变分自编码器(Geometry VAE),然后训练高斯头部模型,最后训练潜在扩散模型。
Bolt3D项目介绍
项目官网:https://szymanowiczs.github.io/bolt3d
arXiv技术论文:https://arxiv.org/pdf/2503.14445
Bolt3D能做什么?
游戏开发:快速生成游戏中的 3D 场景,减少开发时间和成本。
虚拟现实与增强现实:为 VR 和 AR 应用提供实时的 3D 场景生成,提升用户体验。
建筑设计:快速生成建筑的 3D 模型,便于设计和展示。
影视制作:用于电影和电视剧中的特效制作,快速生成复杂的 3D 场景。
-
CHANGER是什么?一文让你看懂CHANGER的技术原理、主要功能、应用场景2025-04-05
-
Kiroku是什么?一文让你看懂Kiroku的技术原理、主要功能、应用场景2025-04-05
-
Vision Search Assistant是什么?一文让你看懂Vision Search Assistant的技术原理、主要功能、应用场景2025-04-05
-
MVDrag3D是什么?一文让你看懂MVDrag3D的技术原理、主要功能、应用场景2025-04-05
-
Chonkie是什么?一文让你看懂Chonkie的技术原理、主要功能、应用场景2025-04-05
-
MSQA是什么?一文让你看懂MSQA的技术原理、主要功能、应用场景2025-04-05

AI爱好者的一站式人工智能AI工具箱,累计收录全球10,000⁺好用的AI工具软件和网站,方便您更便捷的探索前沿的AI技术。本站持续更新好的AI应用,力争做全球排名前三的AI网址导航网站,欢迎您成为我们的一员。







