分享:

虚拟世界造物主:英伟达用AI自动生成3D对象

2022-09-26 11:58 中国航空新闻网 航空工业虚拟现实产业联盟

创造一个虚拟世界需要AI(人工智能)。英伟达首席执行官黄仁勋本周在GTC22在线活动的问答环节中表示,AI将自动填充虚拟世界的3D图像。

他认为,AI将率先创建填充广阔虚拟世界中的3D对象——然后人类创造者将接管并根据自己的喜好对其进行改进,就像造物主对人类世界做的那样。虽然AI未来的发展还有一个非常长期的过程,但英伟达一直支持研究。

NvidiaResearch今天早上宣布,一种新的AI模型可以帮助为越来越多的公司创建的庞大虚拟世界做出贡献,并且创作者可以更容易地填充各种3D建筑、车辆、角色等。

这种平凡的图像代表着大量繁琐的工作。英伟达表示,现实世界充满了多样性:街道两旁都是独特的建筑,不同的车辆呼啸而过,不同的人群穿行。手动建模反映这一点的3D虚拟世界非常耗时,因此很难搭建详细和真实的数字环境。

英伟达希望通过其Omniverse工具和云服务来简化此类任务。它希望在创建元宇宙应用程序时让开发人员的生活更轻松。自动生成艺术——正如我们今年在DALL-E和其他AI模型中所看到的那样——是减轻构建虚拟世界世界的负担的一种方式,例如《雪崩》或《ReadyPlayerOne》。

英伟达首席执行官黄仁勋在GTC22主题演讲中发言。

本周早些时候,在一次媒体问答中黄仁勋谈起什么可以让虚拟世界变得更快。他提到了英伟达的研究工作,尽管该公司直到今天才透露了一点信息。

“首先,如您所知,元宇宙是由用户创建的。它要么是我们手工创造的,要么是我们在人工智能的帮助下创造的,”黄说。“在未来,我们很可能会描述房屋的某些特征或城市的特征或类似的东西。它就像这座城市,或者像多伦多,或者像纽约市,它为我们创造了一个新的城市。也许我们不喜欢它。我们可以给它额外的提示。或者我们可以一直点击“enter”,直到它自动生成我们想要开始的一个。然后在那个世界,我们将可以随时修改它。因此,我认为在我们说话的时候,用于创建虚拟世界的AI正在实现。”

NvidiaGET3D仅使用2D图像进行训练,可生成具有高保真纹理和复杂几何细节的3D形状。这些3D对象以流行的图形软件应用程序使用的相同格式创建,允许用户立即将其形状导入3D渲染器和游戏引擎以进行进一步编辑。

生成的对象可用于建筑物、室外空间或整个城市的3D表示,专为游戏、机器人、建筑和社交媒体等行业而设计。

GET3D可以根据其训练的数据生成几乎无限数量的3D形状。就像艺术家将一块粘土变成详细的雕塑一样,该模型将数字转换为复杂的3D形状。

“其核心正是我刚才谈到的称为大型语言模型的技术,”他说。“能够从人类的所有创造中学习,并能够想象一个3D世界。因此,从文字中,通过一个大型语言模型,就可以生成三角形、几何、纹理和材料。然后,我们将对其进行修改。而且,因为没有一个是预烘焙的,也没有一个是预渲染的,所以所有这些物理模拟和所有光模拟都必须实时完成。这就是为什么我们正在创建的与RTX神经渲染相关的最新技术如此重要的原因。因为我们不能用蛮力来做。我们需要人工智能的帮助才能做到这一点。”

例如,使用2D汽车图像的训练数据集,它可以创建轿车、卡车、赛车和货车的集合。当对动物图像进行训练时,它会出现狐狸、犀牛、马和熊等生物。给定椅子,该模型生成各种转椅、餐椅和舒适的躺椅。

英伟达人工智能研究副总裁、多伦多人工智能实验室负责人Sanja Fidler表示:“GET3D让我们离人工智能驱动的3D内容创作自由又近了一步。”“它即时生成带纹理的3D形状的能力可能会改变开发人员的游戏规则,帮助他们用各种有趣的对象快速填充虚拟世界。”

英伟达表示,虽然比手动方法更快,但之前的3D生成AI模型在它们可以产生的详细程度方面受到限制。即使是最近的逆向渲染方法也只能基于从各个角度拍摄的2D图像生成3D对象,需要开发人员一次构建一个3D形状。

在单个Nvidia图形处理单元(GPU)上运行推理时,GET3D可以每秒生成大约20个形状——就像2D图像的生成对抗网络一样工作,同时生成3D对象。它所学习的训练数据集越大、越多样化,输出的多样性和详细程度就越高。

英伟达的研究人员在合成数据上训练GET3D,这些数据由从不同摄像机角度捕获的3D形状的2D图像组成。该团队仅用了两天时间就使用NvidiaA100TensorCoreGPU在大约一百万张图像上训练了模型。

GET3D因其生成显式纹理3D网格的能力而得名——这意味着它创建的形状是三角形网格的形式,如纸浆模型,覆盖有纹理材料。这让用户可以轻松地将对象导入游戏引擎、3D建模器和电影渲染器——并对其进行编辑。

一旦创建者将GET3D生成的形状导出到图形应用程序,他们就可以在对象在场景中移动或旋转时应用逼真的照明效果。通过整合NVIDIAResearch的另一个AI工具StyleGAN-NADA,开发人员可以使用文本提示为图像添加特定样式,例如将渲染的汽车修改为烧毁的汽车或出租车,或者将普通的房子变成鬼屋等等。

研究人员指出,未来版本的GET3D可以使用相机姿态估计技术,允许开发人员在真实数据而不是合成数据集上训练模型。它还可以改进以支持通用生成——这意味着开发人员可以一次在各种3D形状上训练GET3D,而不需要一次在一个对象类别上训练它。

因此,人工智能将创造世界,黄说。这些世界将是模拟,而不仅仅是动画。为了实现这一切,黄预见到需要在世界范围内创建一个“新型数据中心”。它被称为GDN,而不是CDN。这是一个图形交付网络,通过英伟达的GeForce Now云游戏服务进行了实战测试。英伟达采用了该服务并使用它创建了Omniverse云,这是一套可用于随时随地创建Omniverse应用程序的工具。GDN将托管云游戏以及Omniverse云的元宇宙工具。

这种类型的网络可以提供虚拟世界所需的实时计算。

“本质上来说这是一种即时交互”黄说。

有游戏开发者要求这样做吗?大逃杀游戏《PlayerUnknown'sProductions》的开发人Brendan Greene今年在游戏发布时宣布会使用这种技术,然后又公布了所谓的“Artemis项目”,试图创建一个地球大小的虚拟世界。他说它只能结合游戏设计、用户生成的内容和人工智能来构建。

责任编辑:intern