谷歌发布AI生成3D模型的新方法
Google Research 最近推出的一个名为 DreamFusion 方法,是一种从文本提示生成 3D 模型的新方法。
这种方法将文本到 2D 图像扩散的模型与神经辐射场(NeRF)相结合,生成质量适合于 AR 项目或作为雕刻的基础网格的带纹理 3D 模型。
至关重要的是,它不需要一组真实的 3D 模型来用作培训数据,为开发实用的、基于大众市场 AI 的文本到 3D 工具铺平了道路。
1. 可将文字描述转为带纹理的3D模型
DreamFusion 由 Google Research 和 UC Berkeley 的一个团队开发,它通过文本描述生成 3D模型,例如“一个非常精细的松鼠金属雕塑,穿着金色衣服,正在吹萨克斯”。然后就直接出来模型了!这要是放在十几年前,估计有人会说瞎编骗人的,但现在真实现了?
除了 3D 模型的几何形状,文本还可定义它的材质和纹理,可以在在线演示中尝试将“金属雕塑”换成“木雕”或“DSLR照片”。
2. 结合神经辐射场和2D扩散
为了生成模型 DreamFusion 结合了两种主要方法:神经辐射场和 2D 扩散。 它逐步改进初始的随机 3D 模型,以匹配从不同角度显示目标对象的 2D 参考图像,比如Nvidia 的 Instant NeRF 等目前都在使用这种方法。
而 DreamFusion 与 Instant NeRF 不同,它参考的不是现实物体的照片,而是由 OpenAI 的 DALL-E 2 和 Stability.ai 的 Stable Diffusion 使用的那种类型的 2D 文本到图像模型生成的合成图像。在这种情况下,2D 扩散模型是 Google 自己的 Imagen,但总体结果是相同的:生成的 3D 模型与原始文本描述生成的 2D 参考图像相匹配。
3. 仍然只是一个研究演示
看到这里可能大家想问去哪里下载这个工具,想试试手了对吧?但是目前 DreamFusion 功能十分有限。项目的 GitHub 页面只可以让用户从一系列预设文本提示中进行选择,然后显示生成的3D模型,但不允许输入自己的文本描述。
还有就是生成的资产分辨率也相当低。DreamFusion 的在线图库显示了一系列 .glb 格式的模型,只适合在 AR 项目中使用,或者作为基础网格然后导入其他 DCC 软件中进行精雕刻细化。
4. 为新一代商业文本到3D工具铺平道路?
然而,像 DreamFusion 这样的研究项目的真正意义并不在于它们目前能做什么,而是它们如何为开发更实用的工具开辟道路。
虽然像 DALL-E 2 这样的 2D 扩散模型是根据从互联网上抓取的 2D 图像训练的,但要对 3D 做同样的事情要困难得多。
正如 DreamFusion 的摘要所言:“将这种方法应用于 3D 合成需要标记 3D 资产的大规模数据集和高效的 3D 数据去噪方法,这两种方法目前都不存在。”
通过消除对此类大规模 3D 数据集的需求,DreamFusion 提出了新一波生成AI艺术工具的可能性,仅仅对于 3D 模型,而不是 2D 图像。
考虑到像 DALL-E 这样的 2D AI 艺术工具从最初的发布到大规模公开使用只花了不到两年的时间,所以推测这个 DreamFusion 未来的发展可能比你想象的要快得多。所以,很快你就会用上 AI 自动生成的模型了,到那时候,你只需根据自己的需求在此基础上进行细致雕刻,更或者只稍作调整就可以应用到项目中了,何乐而不为之?