上海交通大学研究生(上海交通大学研究生招生网)




上海交通大学研究生,上海交通大学研究生招生网

文 / 杨小康

1 元宇宙生成式人工智能的思考

机器学习是人工智能非常重要的基础,主要有判别式和生成式两类模型。其中,判别式模型主要是给定一个数据,估计一个条件概率进行分类、判决;生成式模型则是直接估计一个分布,然后生成新数据。与之对应,可以将人工智能系统分为判别式人工智能和生成式人工智能。判别式人工智能,在之前10年的人工智能浪潮中起到了非常重要的作用,其技术相对成熟的。我们对图1所示黄仁勋的照片进行分析和识别就是典型的判别式人工智能;从这张照片中重建三维人脸,并合成三维场景,最后进入元宇宙,这是典型的生成式人工智能。生成式人工智能相对来讲有很多内容要发展,它可能会带来人工智能的下一个10年。


图1 生成式人工智能

生成式人工智能Gartner有一个报告,它把Generative AI定义为未来的战略技术,通过机器学习方法从数据中学习特征,进而生成全新的、原创的数据,这些数据与训练数据保持相似,而不是复制。同时预计到2025年,生成式人工智能产生的数据将占据人类全部数据的10%。当生成式数据超过80%时,人类是否可以全面进入元宇宙?

生成式人工智能将会带来深刻的变革。首先它将推动内容开发、视觉艺术创作、数字孪生、自动编程等;其次,科学研究带来人工智能的直觉,比如为数学产生新的猜想、验证新的猜想,以及加速药物的合成、新物质的合成等。

生成式人工智能也会极大地推动元宇宙的发展。元宇宙里技术非常多样,特别是沉浸感非常重要。内容是构建元宇宙非常重要的基础。这里有两个比较核心的问题,一个是人的虚拟化;一个是物的虚拟化。生成式人工智能可以加速内容虚拟化,实现虚实融合,提升效率、体验、精神。所以,生成式人工智能是元宇宙内容生成器、虚实连接器、效率加速器。

物的虚拟化,世界模型为元宇宙提供可交互的物理引擎;人的虚拟化,也就是虚拟数字人,是元宇宙的原住民、生产力。

简要地讲,生成式人工智能的原理是,学习一个概率分布p(x),对其进行采样,呈现 F(•) ,得到新的样本。以人脸为例,机器算法对于数据——图像、语言、文本进行大量学习后,结合人脸模型的约束、五官的约束,以及生物力学的物理规律等经验,学习一个关于人脸的子空间;然后对子空间进行采样和渲染。这是典型的人脸生成式人工智能的示例。

生成式人工智能有很多的挑战,最主要的有三个。

挑战1 解空间巨大。怎样从解空间中,针对一个特定任务,生成一个特定的子空间,并对子空间进行采样。比如人脸、人体的样本往往聚集于特定的子空间。如何有效寻找并生成子空间?

挑战2 宏观一致性。以视频生成为例,视频很长,且视频有人在运动时,如果用卷积神经网络去做,它的视野很受限,视野受限的情况下面结构会被破坏,宏观的一致性不能保障。如何预测目标及结构的长期运动变化?

挑战3 微观清晰度。如有些短视频分辨率很差,主要的问题是求解问题时容易产生可行解的平均化,导致模糊效应。如何有效逼近多模分布,避免产生blurry prediction效果?

生成式人工智能现有的技术——学习概率分布p(x),主要有下面三种解法。

(1)显示求解。典型的PixelCNN可以产生简单的图片。

(2)近似求解。如VAE,问题是过于平滑或过于模糊。

(3)隐式求解。典型的是生成对抗网络(GAN),优点是通常具有一定的创造性,缺点是收敛性比较差。

最近有一个diffusion无需判别器,某种程度可以克服上述方法的局限性,但计算速度非常慢。这个问题大家都在解决,然而怎样真正用起来还需要很多研究。

以GAN为例,它可以产生逼真的2D图片,但是难以保持3D结构的一致性。

有了这些数据后怎么去呈现?现在有一种方法叫做NeRF(神经辐射场),主要是光场重建,其对于传统方法是一个很难的问题。它采用的是MLP(隐式函数)多重神经网络去表示某个场景,从结果可以看到,对一些物体效果非常好。这是机器学习的视角。

现有另外一条路径是传统的计算机图形学。还是以黄仁勋为例进行形象的采集,用相机阵列,然后进行建模、纹理贴图、动作捕捉,最后形成一段视频。此方法可做到形象逼真,但是效率低、花费高、限制多。

未来的技术趋势是,物理世界的模拟更逼真——从表观模拟到物理世界内部机理推断,以直觉驱动物理世界理解;数字人更丰富、更立体——立体视觉渲染、多模态驱动、动态模拟;数字人与世界模型交互——在世界模型上训练智能体,可反哺真实世界中的决策过程。

2 生成式世界模型

世界模型是Yann LeCun等提出的。最近Yann又提出了一个AI新结构(自主智能架构),主要目的是要让AI像人类(直觉+自监督)一样,对物理世界进行学习和推理。在这个架构中,最主要的是世界模型,它的定义是对现实世界进行模拟,包括世界的未来自然演变,以及参与者行动的影响。框架里还包括感知模块,配置模块和成本模块。从大的机器学习视角来看,这就是强化学习(还包括了memory等),主要强调直觉和自监督。

我们的工作是看其能否提供直觉和自监督,工作定位在视觉直觉的世界模型。世界模型本质是对时间、空间进行建模,而时间、空间某种程度上是本质的,但是怎样去感知时间、空间也非常重要。视觉直觉非常重要,占信息量感知的80%;而声音采集的距离受限。视觉可以看,大概10公里;听觉大概1公里;嗅觉只有几米,大概可以算出它们的信息量,所以,把视觉、直觉,以及对时间、空间的感知建模好非常重要。

这里主要有三个大问题,一是怎样从视觉理解物理的本质;二是使用什么样的范式来训练世界模型;三是世界模型使用什么样的架构?如何用于决策?这三个问题非常大,好是好在是“一花一世界”,我们可以从小世界入手。最近我们针对这三个问题,分别从神经流体、机器人视觉、自动驾驶三个典型的小世界进行了非常初步的探索(见图2),希望有所启发。这三个工作分别发表在ICML2022、CVPR2022、NeurIPS2022,相应的算法都已经开源,下面作简要介绍。


图2 基于视觉直觉的世界模型的初步探索

2.1 物理现象的视觉仿真与推理——神经流体

流体力学是一个古老的学科,有100多年的历史,但是在有些问题上还是解决不好,比如湍流。湍流的求解我们能否通过视觉表观反推动力学系统一些本真属性,这样就可以为计算流体力学提供途径,甚至解决一些其解决不了的传统问题。

这里有两个基本假设,一是采用流体的拉格朗日描述,通过学习一组有限粒子的运动状态,刻画流体内部的运动规律。拉格朗日描述具有易于建模动力学特性,且易于描述流体几何外观的优势(仿真:规律→图像)。二是流体的内部运动规律,可由立体视觉连续图像序列部分可见(推理:图像→规律)。

传统方法有一些局限性,需要良好的动力学先验。

传统非机器学习的计算物理方法,如SPH(光滑粒子动力学)等,通常采用数值方法求解NavierStokes方程,要求物理规律可被形式已知的方程刻画;场景描述困难,求解困难,泛化性较差;关于湍流的N-S方程依然没有很好解决。

机器学习方法,如GNS (DeepMind, 2020),以流体粒子的后续状态为监督,训练深度预测网络,要求严格采集的粒子数据,即粒子标号前后时刻需对应,难以拓展到真实场景;真数据本身基于SPH等传统方法,学到的物理动态规律无法超越专家知识。所以,现在的数据就是从流体方程进行采样,构建一个数据库,机器学习能否把原来的现象推理出来,希望我们能超越流体力学。

NeuroFluid仅从视觉观测中学习物理规律,通过图像重建,优化拉格朗日粒子的状态转移网络。其优势一,无需粒子标记数据,可拓展到真实场景;优势二,不依赖专家先验,在湍流等难问题上有潜力超越现有计算物理方法。

我们的方法主要有两个模块,一个是物理驱动的NeRF,也就是新视角下的图像合成;另一个是物体转移,能够根据观测或者预测进行推理。这两个模块形成端到端的优化,计算推断精度、合成精度、预测精度,形成迭代。

我们仿真出来的图像与拍照出来的图像有点误差,为了缩小误差,可利用 NeRF,重建这张图。

模块一 物理粒子驱动的可微渲染器PhysNeRF。PhysNeRF除图像外,还把流体微元的位置、速度等属性体现在NeRF中。

模块二 粒子状态转移网络DLF (Deep Lagrangian Fluids)。它能够通过一个神经网络预测下一时刻流体的粒子位置和加速度。这种技术就是机器学习,是一个卷积,可以比较好地泛化到复杂场景。

流体粒子动态反演+未来状态预测,DLF在大规模粒子状态数据上进行有监督训练;DLF†表示在测试场景的粒子状态上进行模型微调。从图3所示的实验效果可以看出,我们的方法要比其他方法好。NeuroFluid反演结果的粒子运动更加自然,更贴近真实情况,能更好地匹配真实流体动态。从其效果图可见,这只传统图形学的兔子变成了一个流体,这种熔化流动感很真实。此外还能较好地预测未来。

图3 时间域内的粒子推断(GT表示生成对应观测图像序列时所使用的 “真实”流体粒子位置)

2.2 世界模型的持续预测学习——机器人视觉学习

这里用的是机器人视觉学习的例子,是一个持续学习或者终生学习的问题。实际中,机器人的作业任务是在不停的变化。其中的难题是“灾难性遗忘”,也就是机器学习容易“喜新厌旧”,学了新任务忘了旧任务,从机器学习的本质来看会进行漂移。现在做的比较多的如图像分类的持续学习,主要有输入数据分布的漂移。预测任务中本质是一个视频预测问题,因而还涉及到输出漂移,以及时间空间动态漂移的问题。

图4所示是我们的方法——混合世界模型(M),其用变分推断+混合高斯,在各任务上学习独立的隐变量先验,缓解时空动态分布漂移;预测式经验回放,固定上一任务学习好混合世界模型参数(M,预测网络),用于在后续任务上回放旧任务上的图像序列,回放结果与当前任务的真实数据混合,重新训练混合世界模型,缓解输入和输出分布漂移。

从实验结果可以看出,本文所提模型在持续预测学习中的任意阶段,都能很好地保持已学习的时空动态信息,生成结果运动明确、物体清晰。


图4 混合世界模型

2.3 世界模型表征解耦——自动驾驶

我们把自动驾驶抽象成世界模型表征解耦的问题。实际中,驾驶员可以控制路面有些物体,但是除了车辆的相互规避控制不了其他车辆。我们的初衷是希望把受控和非受控解耦,解耦后能够做提前规划和控制。这样的问题很多,尤其在自动驾驶中非常典型。

这里主要采用了三路神经网络 , 分别从图像中提取“参与者状态”(Action-conditioned )、“自然状态”(Action-free) 和静态背景信息。通过优化 “参与者状态”支路上的“逆动力学”目标函数,实现解耦。

在CARLA数据集上,通过状态解耦进行控制后,可以基于对自然状态的独立推演,生成更具有“危险 预判能力”的驾驶策略。实操中能够在相关游戏画面中玩的非常好、非常流畅、非常迅捷。DeepMind Control Suite(DMC)上通过状态解耦,可以规避动态背景噪声对视觉控制策略的影响,令强化学习更加鲁棒、抗干扰。

3 生成式虚拟数字人

生成式模型和计算机图形学方法都有各自优缺点,我们希望通过NeRF作为一座桥梁,将各自的优缺点组合起来,实现数据驱动、流程简单、精细控制、可解释的一种生成式数字。这里主要汇报我们两方面的工作,一是可泛化的三维数字人重建;二是三维数字人的跨模态驱动。

3.1 可泛化的三维数字人重建

为使数字人逼真,我们做了高拟真的模型来适应不同场景;然后可以驱动,通过文本、声音进行跨模态的驱动数字人,从而大规模、高效地产生可泛化、可驱动的虚拟数字人。

可泛化的第一个工作就是怎样利用单帧图像精度进行三维人脸重建。其意义在于,无需光场设备和动捕设备,低成本实现动态人体重建。主要挑战是数据域差异,即不同片段之间的动作种类、背景、相机、光照、遮挡等差异,以及不同场景之间的数据。主要参用的方法是鲁棒纹理补全的生成对抗网络,使用生成模型去除遮挡,生成人脸3DMM模型;基于物理的隐式可微渲染函数,以无监督的方式,学习精细的几何形态、渲染要素分离。如能对一些渲染的要素解耦,也能精心重建。其架构主要是把GAN和NeRF比较好的结合在一起。但从效果图可以看出一些缺陷,如角度比较大时,有些地方不够好。怎样克服这些不好的地方,是后面需要做的工作。

可泛化的第二个工作就是单个视频的三维人体运动重建(Bilevel Online Adaptation for Out-ofDomain Human Mesh Reconstruction, CVPR2021)。希望在没有光场设备和动捕设备,低成本实现动态人体重建。主要的挑战在于数据域的差异和深度的歧异。采用的方法是在线更新网络的方式,比较好地消除两种差异与歧异。从效果图可见,在大的溜冰场里,不可能建现场,也不大可能让一个运动员戴设备,这是很危险的。我们的方法实现了比较好的重建,然而精度还是不够。但是做一些内容是可以,比如做一些溜冰的动作等,至少从视觉的角度来讲是可以的。

3.2 三维数字人的跨模态驱动

跨模块驱动第一个工作就是高拟真表情可驱动的数字人。通过将面部表情分解与神经辐射场结合,在保证渲染质量的同时实现细腻自然的表情驱动。从效果图可见,假人很逼真,可以被智能操控,包括头发、眼睛、嘴巴、脖子,而通常脖子容易出问题,因为用了两个模型,所以视觉效果不错。

跨模块驱动第二个工作是语音驱动个性化数字人。低成本的数字人语音、文本驱动,比较好的克服纯-音同步等方面的难题。

第三个工作是CageNeRF可泛化的形变与驱动(CageNeRF: Cage-based Neural Radiance Field forGeneralized 3D Deformation and Animation, NeurIPS 2022)。我们希望无需骨骼绑定即可驱动,低成本实现通用的物体驱动。面临的挑战是难以对隐式场施加通用的结构约束,形变场的泛化性难以保证,形变后的细节真实感难以保证。我们基于Cage的形变表示,以低维包络框作为物体三维结构化约束,可泛化到任意物体形变;基于显式控制的隐式渲染,同时保证了渲染的真实性与编辑的可控性与便捷性。

从其效果可见,我们的方法能够比较好地实现编辑和风格转移。

4 结束语

生成式人工智能是可以为基于视觉物理世界模型,以及虚拟数字人提供可行的途径,我们所做的这些初步工作,证明了是可行的。

展望未来,希望通过数学、物理、信息的认知,以及计算机增学科交叉,进一步夯实生成式人工智能的基础理论。本文中提到的方法都是组合式,拼接式还是过于自组织,能不能形成更有系统的基础理论,需要我们再努力。另外,从应用角度来讲,“物理 +数据”联合驱动,“虚拟+现实”深度融合, 生成式的AI直觉有望加速科学发现、物质合成、元宇宙构建。

Feynman曾说:“凡是我不能创造的,我都不能理解”。在元宇宙时代即将来临之际,我们的生成式人工智能说:“凡是我能够理解的,我都能创造”。

(参考文献略)

选自《中国人工智能学会通讯》

2023年第13卷第1期

上海交通大学研究生(上海交通大学研究生招生网)

2023考研秘籍

跟我一起考研吗?马上关注我分享独家资料您