不久前,NVIDIA(英伟达)发布了一个面向3D建模的生成式AI服务,引起了业内的广泛瞩目。如果说之前的生成式AI更多是在生成文字、图片、视频等二维世界的内容。那么,这次NVIDIA正在通过生成式AI去帮助企业构建3D资产,加速数字孪生和仿真产业的发展,同时也加速AI在物理世界的应用落地。
01
“CUDA原生”瞄准了工业
春江水暖鸭先知。作为全球加速计算的领导者,NVIDIA的动作正在透露出一些新的风向。
NVIDIA创始人兼CEO黄仁勋,在2024年SIGGRAPH上的两场围炉谈话中,将其对AI的最新洞察,放在了生成式AI和加速计算,如何通过可视化,来改变制造业等行业上。NVIDIA也在会议期间推出了一套全新的NIM微服务。
SIGGRAPH大会是讨论计算机图形学最新创新的场所。NVIDIA发布了适用于OpenUSD、几何体、物理学、材质等的生成式AI模型与NIM微服务。OpenUSD是三维场景内部数据交换的开源软件,已逐渐成为三维视觉、建筑、设计、制造等众多行业的标准。
借助这些模型和服务,开发者能加速制造业、汽车、机器人等行业应用的开发。
在两场围炉谈话中,黄仁勋探讨了构建数字孪生、虚拟世界的重要性。他说,行业通过构建城市规模的大规模数字孪生,来提高效率并降低成本。“比如,在部署到下一代人形机器人之前,AI可以在这种虚拟世界中进行训练。”
为什么黄仁勋会重点讨论工业可视化、虚拟世界或数字孪生?NVIDIA又为何在此时在CUDA生态中,推出全新的NIM微服务?
就如NVIDIA Omniverse与仿真技术副总裁Rev Lebaredian所表示的——重工业的生成式AI潮已经到来。数智前线也获悉,生成式AI正在从一些简单场景,走入复杂的生产环节。而上述技术生态,可加速这一进程。
“直到最近,数字世界的主要用户还是创意行业;而现在,借助NVIDIA NIM微服务为OpenUSD带来的增强功能和可访问性,各个行业都可以创建基于物理学的虚拟世界和数字孪生,为这次新一轮AI技术热潮做好准备。”Rev Lebaredian说。
在汽车行业,国内车企都在“卷”数字孪生。“最近特斯拉即将发布FSD12.5版本,也在积极推动FSD在中国的落地。”一家中国大型车企人工智能人士告诉数智前线,“特斯拉把仿真作为战略级目标,我们也在做元宇宙,解决自动驾驶数据闭环问题。”此前,车企采集“鬼探头”数据难度大、成本高。现在,车企可以在元宇宙仿真环境中,解决长尾场景的训练。
在机器人行业,一家电力巡检机器人公司正在通过仿真环境训练AI,让机器人能实时感知到电厂内复杂的环境和物理空间,规划移动路线,并可以查看沿路数千个在不同设备上的表计。
建筑设计是一项复杂耗时的工作,建筑设计中的3D模型是个必不可少的交付件。而对于一些复杂几何形状和异形结构,3D模型的重建工作难度较大。现在,一些设计企业与AI企业一起,尝试只需要一些图片、草图和文字,就可以生成模型。还可以赋予建筑设计不同的材质,来完善设计。
在钢铁行业,金相分析是通过显微镜查看材料切片内部的缺陷和结构等的一种方法,来了解基础材料的整体性能。传统人工的效率较低,还要严重依赖人的经验。现在,不少钢铁企业的一个共同的诉求是,期望利用以往的知识库,通过训练专业的AI,来对材料进行全方位的解析。
而NVIDIA通过全新的NIM微服务,让应用企业不用从零开始,直接去调用服务,再结合自己的数据,快速实现一个应用。因此,一些企业将此形容为“CUDA原生”。
伴随生成式AI从一些边缘场景到更深层次场景的落地,黄仁勋称,“每个人都将拥有AI助手”。同时,AI与图像技术等的融合正在深化,“几乎每个行业都将受到这项技术的影响,无论是科学计算以更少的能源更好地预测天气,还是与创作者合作生成图像,或为工业可视化创建虚拟场景,”黄仁勋表示,“生成式AI还将彻底改变机器人自动驾驶汽车领域。”
02
新NIM微服务,带来哪些想象
上述这些行业应用背后,都依赖3D建模和仿真技术的应用。
而3D内容和场景的构建在过去一直是令人头疼的事情,它涉及的链条和流程很复杂,比如建模、着色、动画、照明、渲染等。
在过去数十年,动画、视觉特效和游戏工作室一直在努力提升流程中各种工具之间的互操作性,但收效甚微。将数据从一个位置迁移到另一个位置非常棘手,因此工作室构建了复杂的工作流程来管理数据互操作性。
而且,除了系统和工具的割裂,传统的3D制作流程是线性协作,涉及多部门多人员的格式转换和修改,费时费力。
OpenUSD是一个开源的通用3D数据交换框架,它在2023年由NVIDIA、皮克斯、苹果等厂商牵头成立,可通过软件工具与数据类型之间的互通构建虚拟世界,具有极高的互操作性和兼容性,解决创建三维场景时工作流和复杂性方面的多项挑战。
OpenUSD也是NVIDIA Omniverse平台的基础。在与《连线》杂志资深撰稿人的对谈中,黄仁勋曾如此表示:OpenUSD是第一种几乎将所有工具的多模态表达融合在一起的格式。理想情况下,随着时间的推移,人们可以将几乎任何格式引入其中,让每个人都能进行协作并使内容永远留存。而生成式AI,一定能够助力Omniverse产生更好的仿真效果。
而NVIDIA这次推出的针对OpenUSD开发的NIM微服务,也是全球首个用于OpenUSD开发的生成式AI模型。它将生成式AI的能力以NIM微服务的形式,整合进USD工作流中,大幅降低了用户运用OpenUSD的门槛。同时,NVIDIA也发布了多款适用于机器人数据格式和Apple Vision Pro流式传输的全新USD连接器。
目前,已经发布的NIM微服务有三项:一是USD Code NIM微服务,可以回答常识性OpenUSD问题,并基于文本提示自动生成Python代码。
二是USD Search NIM微服务,使开发者能够使用自然语言或图像输入,在海量OpenUSD、3D和图像数据库中进行搜索,大大提高企业流程化检索并处理材料的速度。
三是USD Validate NIM微服务,可以检查上传文件与OpenUSD发布版本的兼容性,并生成完全由NVIDIA Omniverse Cloud API驱动的RTX渲染路径追踪图像。
除了NVIDIA提供的原生NIM微服务,生态伙伴也正在基于这些微服务,创建了多个热门的AI模型,提供给用户进行推理优化。
全球知名的创意内容平台Shutterstock基于NVIDIA最新版本的Edify视觉生成模型,推出了文本转3D的全新服务,包括制作3D原型或填充虚拟环境等。
比如为虚拟场景创建能够准确反射的照明是一项复杂的任务。以前,创作者需要操作昂贵的360度摄像机装备,亲身到拍摄现场从头开始创建背景,或者在庞大的资料库中搜索近似的内容。
但现在,通过3D生成服务,用户只需用文字或图片描述他们所需要的具体环境,就能得到最大分辨率为16K的高动态范围全景图像 (360 HDRi)。而且,这些场景和组件可以快速切换,比如让跑车出现在沙漠、热带海滩或者蜿蜒的山路上。
除了创建照明,创作者也可以快速添加各种渲染材质,如混凝土、木材或皮革等,从而构建自己的3D资产。而且,在AI帮助下生成的3D资产也可以随时进行编辑并以各种流行的文件格式提供。
而NVIDIA的Edify AI模型,也在帮助Getty Images让艺术家实现任意控制图像的构图和风格。比如在一张完美的珊瑚礁照片上漂浮一个红色沙滩球。而且,创作者也可以用企业的数据,在基础模型上进行微调,生成符合特定品牌创意风格的图像。
这些模型微服务和工具正在极大地加速品牌方在3D资产上的创建,将使数字孪生的开发变得更加普及和便捷。
03
先发企业已开始尝试
正是随着3D内容和资产创建变得更加便捷和准确,工业、自动驾驶、工程、机器人等行业正在享受到生成式AI带来的技术红利。尤其在制造业和广告创意行业,一批先发企业正在积极通过NVIDIA Omniverse平台加速数字孪生和仿真的落地应用。
可口可乐是首个将Omniverse和NIM微服务所提供的生成式AI用于营销场景的品牌。在其演示的一段视频中,只需要在系统中用自然语言输入“给我建一张桌子,上面放着塔可和莎莎酱,沐浴在晨光中”。
很快,USD Search NIM微服务能在庞大的3D资产库中搜索出对应的3D资产,通过API的方式快速调用,而USD Code NIM则可以将这些模型组合成场景,开发人员输入提示就可以获得用于创造新颖3D世界的Python代码,大大增强了他们的创作能力。可口可乐通过生成式AI,可以在全球100多个市场定制个性化的形象,实现本地化营销。
而作为可口可乐背后的广告服务商,WPP专门推出了智能营销操作系统。该系统利用了Omniverse开发平台和OpenUSD,能够非常精简且自动化地实现多语言文本、图像和视频的创建,简化了广告主和营销人员的内容创建过程。通过生成式AI服务于客户,WPP将一个个疯狂的创意搬到了现实。
正如WPP首席技术官所言,“这些创新的美妙之处在于它与我们的工作方式高度兼容,并充分利用了开放标准。这不仅加速了未来的工作,而且使我们能够继续巩固和扩展我们之前在OpenUSD等标准上的所有投资。通过使用NVIDIA NIM微服务与NVIDIA Omniverse,我们能够以前所未有的速度与可口可乐公司等企业联合推出创新的新生产工具。”
作为全球最大的消费电子代工企业,富士康专门为墨西哥的一家新工厂构建了虚拟的数字孪生工厂,工程师可以在虚拟环境中定义流程和训练机器人,从而提高工厂的自动化水平和生产效率,节约时间、成本和能源。
富士康在背后也用到了Omniverse平台来构建其数字孪生,将所有3D CAD元素整合到同一个虚拟工厂中,并在那里使用Omniverse和OpenUSD上开发的可扩展机器人仿真平台NVIDIA Isaac Sim对机器人进行训练,为其数字孪生带来物理级精确和逼真的视觉呈现。
除了富士康,包括台达电子、联发科、和硕等电子制造企业,都在使用NVIDIA AI和Omniverse构建工厂数字孪生。
而小鹏汽车MPV车型小鹏X9在设计过程中则使用Omniverse平台,通过将车型开发工作流引入虚拟世界,让小鹏汽车在新车设计时规避传统工作流存在的瓶颈。
比如,Omniverse平台一方面拥有强大的互操作性,使得用于工业建模、渲染和3D特效的文件和数据不再需要繁复的转换,加速了小鹏汽车设计团队之间的沟通协作;另一方面,小鹏汽车借助Omniverse的实时渲染与光线追踪等功能,实现了汽车颜色和内饰变化的即时可视化,让虚拟效果更加真实,帮助承接用户需求,进而改进产品体验。
过去两年,生成式AI的爆火让外界的目光更多在一些ToC和协同办公领域的应用上,但现在,物理世界也将迎来一波新的爆发和机遇。
注:文/周路平、赵艳秋,文章来源:数智前线,本文为作者独立观点,不代表亿邦动力立场。
文章来源:数智前线