TRELLIS.2 – 微软开源的40亿参数3D生成模型

软件 来源:AI工具集 2025-12-22 13:11:58

TRELLIS.2是什么

TRELLIS.2是微软开源的40亿参数3D生成模型,专为从单张图片高效生成高保真3D资产设计。核心创新在于采用O-Voxel稀疏体素架构,能处理复杂拓扑结构(如开放表面、非流形几何),支持完整PBR材质建模。在NVIDIA H100上生成512³分辨率模型仅需3秒,最高支持1536³超高清渲染。相比传统方法,通过16倍空间下采样显著提升效率,同时提供GLB格式导出功能,适用于游戏、影视和工业设计等领域。

TRELLIS.2的主要功能

  • 图像到3D生成:能根据输入的图像快速生成高质量的3D模型,适用于从2D图像创建3D资产的场景。
  • 文本到3D生成:支持基于文本描述生成3D模型,用户可以通过文字指令生成所需的3D对象。
  • 复杂拓扑处理:可以处理复杂的3D结构,包括开放表面、非流形几何和内部封闭结构,生成具有复杂形状的3D模型。
  • 材质与纹理生成:生成的3D模型支持多种材质属性(如基础颜色、粗糙度、金属度、不透明度等),并支持透明度和逼真渲染。
  • 多分辨率支持:支持从512³到1536³等多种分辨率的3D模型生成,用户可以根据需求选择合适的分辨率。
  • 快速渲染与导出:生成的3D模型可以直接用于渲染,并支持导出为GLB等标准3D文件格式,便于在其他软件中使用。
  • 模型编辑与变体生成:用户可以对生成的3D模型进行编辑,生成同一对象的不同变体,满足多样化的设计需求。

TRELLIS.2的技术原理

  • O-Voxel表示:采用“O-Voxel”稀疏体素结构,这是一种创新的3D表示方法,能高效处理复杂拓扑和锐利特征,突破传统等值面场的限制,支持开放表面、非流形几何和内部封闭结构。
  • 稀疏3D VAE编码:通过稀疏3D变分自编码器(VAE)将3D资产编码到紧凑的潜在空间中,实现高效的压缩和生成,支持16倍的空间下采样,显著提升处理效率。
  • 全纹理建模:不仅处理基础颜色,还能模拟粗糙度、金属度和不透明度等PBR材质属性,支持透明度和逼真渲染,生成的3D模型具有丰富的纹理细节。
  • 极简数据处理流程:数据处理无需复杂的渲染或优化步骤,可在短时间内完成纹理网格与O-Voxel之间的转换,大大简化了处理流程,提升了生成速度。
  • 高效渲染与后处理:结合CUDA加速的网格处理工具(如CuMesh)和高效的渲染技术,快速生成高质量的3D模型,并支持实时渲染和后处理操作。
  • 大规模预训练:在大规模数据集上进行预训练,模型学习了丰富的3D形状和纹理特征,能根据输入的图像或文本生成多样化的3D资产。

TRELLIS.2的项目地址

  • 项目官网:https://microsoft.github.io/TRELLIS.2/

  • Github仓库:https://github.com/microsoft/TRELLIS.2

  • HuggingFace模型库:https://huggingface.co/microsoft/TRELLIS.2-4B

  • arXiv技术论文:https://arxiv.org/pdf/2512.14692

  • 在线体验Demo:https://huggingface.co/spaces/microsoft/TRELLIS.2

TRELLIS.2的应用场景

  • 游戏开发:快速生成高质量的3D游戏资产,如角色、道具、场景等,提升开发效率,降低制作成本。
  • 影视制作:用于创建逼真的3D特效和虚拟场景,支持复杂的材质和纹理,满足影视行业对视觉效果的高要求。
  • 虚拟现实(VR)和增强现实(AR):生成沉浸式的3D环境和物体,增强用户体验,适用于VR/AR应用开发。
  • 建筑设计与可视化:快速生成建筑模型和室内设计的3D可视化,帮助设计师和客户更好地理解和评估设计方案。
  • 工业设计与产品开发:创建产品原型的3D模型,加速设计迭代过程,便于进行虚拟展示和功能测试。
  • 教育与培训:作为教学工具,帮助学生和受训者更好地理解和掌握3D建模、渲染和设计的相关知识和技能。
延伸阅读
  • SAM Audio – Meta开源的音频分割模型

    SAM Audio是什么SAM Audio是Meta开源的音频分割模型,能通过文本、视觉和时间片段等多模态提示,从复杂的音频混合中分离出特定的声音。核心技术是Perception Encoder Au

  • Molmo 2 – Ai2开源的AI视频分析模型

    Molmo 2是什么Molmo 2 是艾伦人工智能研究所(Ai2)推出的开源视频分析模型,专注于视频理解、指向和追踪。模型基于 Qwen 3 和 Olmo 架构,具备强大的视频分析能力,能在视频中精准

  • LongCat-Video-Avatar – 美团开源的数字人视频生成模型

    LongCat-Video-Avatar是什么LongCat-Video-Avatar 是美团 LongCat 团队推出的音频驱动角色动画模型。模型能生成超逼真、口型同步的长视频,保持人物身份一致性和

关注公众号:拾黑(shiheibook)了解更多

赞助链接:

关注数据与安全,洞悉企业级服务市场:https://www.ijiandao.com/
四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/

公众号 关注网络尖刀微信公众号
随时掌握互联网精彩
赞助链接