上海交通大学研究生(上海交通大学研究生招生网)

上海交通大学研究生，上海交通大学研究生招生网

文 / 杨小康

1 元宇宙生成式人工智能的思考

机器学习是人工智能非常重要的基础，主要有判别式和生成式两类模型。其中，判别式模型主要是给定一个数据，估计一个条件概率进行分类、判决；生成式模型则是直接估计一个分布，然后生成新数据。与之对应，可以将人工智能系统分为判别式人工智能和生成式人工智能。判别式人工智能，在之前10年的人工智能浪潮中起到了非常重要的作用，其技术相对成熟的。我们对图1所示黄仁勋的照片进行分析和识别就是典型的判别式人工智能；从这张照片中重建三维人脸，并合成三维场景，最后进入元宇宙，这是典型的生成式人工智能。生成式人工智能相对来讲有很多内容要发展，它可能会带来人工智能的下一个10年。

图1 生成式人工智能

生成式人工智能Gartner有一个报告，它把Generative AI定义为未来的战略技术，通过机器学习方法从数据中学习特征，进而生成全新的、原创的数据，这些数据与训练数据保持相似，而不是复制。同时预计到2025年，生成式人工智能产生的数据将占据人类全部数据的10%。当生成式数据超过80%时，人类是否可以全面进入元宇宙？

生成式人工智能将会带来深刻的变革。首先它将推动内容开发、视觉艺术创作、数字孪生、自动编程等；其次，科学研究带来人工智能的直觉，比如为数学产生新的猜想、验证新的猜想，以及加速药物的合成、新物质的合成等。

生成式人工智能也会极大地推动元宇宙的发展。元宇宙里技术非常多样，特别是沉浸感非常重要。内容是构建元宇宙非常重要的基础。这里有两个比较核心的问题，一个是人的虚拟化；一个是物的虚拟化。生成式人工智能可以加速内容虚拟化，实现虚实融合，提升效率、体验、精神。所以，生成式人工智能是元宇宙内容生成器、虚实连接器、效率加速器。

物的虚拟化，世界模型为元宇宙提供可交互的物理引擎；人的虚拟化，也就是虚拟数字人，是元宇宙的原住民、生产力。

简要地讲，生成式人工智能的原理是，学习一个概率分布p(x)，对其进行采样，呈现 F(•) ，得到新的样本。以人脸为例，机器算法对于数据——图像、语言、文本进行大量学习后，结合人脸模型的约束、五官的约束，以及生物力学的物理规律等经验，学习一个关于人脸的子空间；然后对子空间进行采样和渲染。这是典型的人脸生成式人工智能的示例。

生成式人工智能有很多的挑战，最主要的有三个。

挑战1 解空间巨大。怎样从解空间中，针对一个特定任务，生成一个特定的子空间，并对子空间进行采样。比如人脸、人体的样本往往聚集于特定的子空间。如何有效寻找并生成子空间？

挑战2 宏观一致性。以视频生成为例，视频很长，且视频有人在运动时，如果用卷积神经网络去做，它的视野很受限，视野受限的情况下面结构会被破坏，宏观的一致性不能保障。如何预测目标及结构的长期运动变化？

挑战3 微观清晰度。如有些短视频分辨率很差，主要的问题是求解问题时容易产生可行解的平均化，导致模糊效应。如何有效逼近多模分布，避免产生blurry prediction效果？

生成式人工智能现有的技术——学习概率分布p(x)，主要有下面三种解法。

（1）显示求解。典型的PixelCNN可以产生简单的图片。

（2）近似求解。如VAE，问题是过于平滑或过于模糊。

（3）隐式求解。典型的是生成对抗网络（GAN），优点是通常具有一定的创造性，缺点是收敛性比较差。

最近有一个diffusion无需判别器，某种程度可以克服上述方法的局限性，但计算速度非常慢。这个问题大家都在解决，然而怎样真正用起来还需要很多研究。

以GAN为例，它可以产生逼真的2D图片，但是难以保持3D结构的一致性。

有了这些数据后怎么去呈现？现在有一种方法叫做NeRF（神经辐射场），主要是光场重建，其对于传统方法是一个很难的问题。它采用的是MLP（隐式函数）多重神经网络去表示某个场景，从结果可以看到，对一些物体效果非常好。这是机器学习的视角。

现有另外一条路径是传统的计算机图形学。还是以黄仁勋为例进行形象的采集，用相机阵列，然后进行建模、纹理贴图、动作捕捉，最后形成一段视频。此方法可做到形象逼真，但是效率低、花费高、限制多。

未来的技术趋势是，物理世界的模拟更逼真——从表观模拟到物理世界内部机理推断，以直觉驱动物理世界理解；数字人更丰富、更立体——立体视觉渲染、多模态驱动、动态模拟；数字人与世界模型交互——在世界模型上训练智能体，可反哺真实世界中的决策过程。

2 生成式世界模型

世界模型是Yann LeCun等提出的。最近Yann又提出了一个AI新结构（自主智能架构），主要目的是要让AI像人类（直觉+自监督）一样，对物理世界进行学习和推理。在这个架构中，最主要的是世界模型，它的定义是对现实世界进行模拟，包括世界的未来自然演变，以及参与者行动的影响。框架里还包括感知模块，配置模块和成本模块。从大的机器学习视角来看，这就是强化学习（还包括了memory等），主要强调直觉和自监督。

我们的工作是看其能否提供直觉和自监督，工作定位在视觉直觉的世界模型。世界模型本质是对时间、空间进行建模，而时间、空间某种程度上是本质的，但是怎样去感知时间、空间也非常重要。视觉直觉非常重要，占信息量感知的80%；而声音采集的距离受限。视觉可以看，大概10公里；听觉大概1公里；嗅觉只有几米，大概可以算出它们的信息量，所以，把视觉、直觉，以及对时间、空间的感知建模好非常重要。

这里主要有三个大问题，一是怎样从视觉理解物理的本质；二是使用什么样的范式来训练世界模型；三是世界模型使用什么样的架构？如何用于决策？这三个问题非常大，好是好在是“一花一世界”，我们可以从小世界入手。最近我们针对这三个问题，分别从神经流体、机器人视觉、自动驾驶三个典型的小世界进行了非常初步的探索（见图2），希望有所启发。这三个工作分别发表在ICML2022、CVPR2022、NeurIPS2022，相应的算法都已经开源，下面作简要介绍。

图2 基于视觉直觉的世界模型的初步探索

2.1 物理现象的视觉仿真与推理——神经流体

流体力学是一个古老的学科，有100多年的历史，但是在有些问题上还是解决不好，比如湍流。湍流的求解我们能否通过视觉表观反推动力学系统一些本真属性，这样就可以为计算流体力学提供途径，甚至解决一些其解决不了的传统问题。

这里有两个基本假设，一是采用流体的拉格朗日描述，通过学习一组有限粒子的运动状态，刻画流体内部的运动规律。拉格朗日描述具有易于建模动力学特性，且易于描述流体几何外观的优势（仿真：规律→图像）。二是流体的内部运动规律，可由立体视觉连续图像序列部分可见（推理：图像→规律）。

传统方法有一些局限性，需要良好的动力学先验。

传统非机器学习的计算物理方法，如SPH（光滑粒子动力学）等，通常采用数值方法求解NavierStokes方程，要求物理规律可被形式已知的方程刻画；场景描述困难，求解困难，泛化性较差；关于湍流的N-S方程依然没有很好解决。

机器学习方法，如GNS (DeepMind, 2020)，以流体粒子的后续状态为监督，训练深度预测网络，要求严格采集的粒子数据，即粒子标号前后时刻需对应，难以拓展到真实场景；真数据本身基于SPH等传统方法，学到的物理动态规律无法超越专家知识。所以，现在的数据就是从流体方程进行采样，构建一个数据库，机器学习能否把原来的现象推理出来，希望我们能超越流体力学。

NeuroFluid仅从视觉观测中学习物理规律，通过图像重建，优化拉格朗日粒子的状态转移网络。其优势一，无需粒子标记数据，可拓展到真实场景；优势二，不依赖专家先验，在湍流等难问题上有潜力超越现有计算物理方法。

我们的方法主要有两个模块，一个是物理驱动的NeRF，也就是新视角下的图像合成；另一个是物体转移，能够根据观测或者预测进行推理。这两个模块形成端到端的优化，计算推断精度、合成精度、预测精度，形成迭代。

我们仿真出来的图像与拍照出来的图像有点误差，为了缩小误差，可利用 NeRF，重建这张图。

模块一 物理粒子驱动的可微渲染器PhysNeRF。PhysNeRF除图像外，还把流体微元的位置、速度等属性体现在NeRF中。

模块二 粒子状态转移网络DLF (Deep Lagrangian Fluids）。它能够通过一个神经网络预测下一时刻流体的粒子位置和加速度。这种技术就是机器学习，是一个卷积，可以比较好地泛化到复杂场景。

流体粒子动态反演+未来状态预测，DLF在大规模粒子状态数据上进行有监督训练；DLF†表示在测试场景的粒子状态上进行模型微调。从图3所示的实验效果可以看出，我们的方法要比其他方法好。NeuroFluid反演结果的粒子运动更加自然，更贴近真实情况，能更好地匹配真实流体动态。从其效果图可见，这只传统图形学的兔子变成了一个流体，这种熔化流动感很真实。此外还能较好地预测未来。

图3 时间域内的粒子推断（GT表示生成对应观测图像序列时所使用的 “真实”流体粒子位置）

2.2 世界模型的持续预测学习——机器人视觉学习

这里用的是机器人视觉学习的例子，是一个持续学习或者终生学习的问题。实际中，机器人的作业任务是在不停的变化。其中的难题是“灾难性遗忘”，也就是机器学习容易“喜新厌旧”，学了新任务忘了旧任务，从机器学习的本质来看会进行漂移。现在做的比较多的如图像分类的持续学习，主要有输入数据分布的漂移。预测任务中本质是一个视频预测问题，因而还涉及到输出漂移，以及时间空间动态漂移的问题。

图4所示是我们的方法——混合世界模型（M），其用变分推断+混合高斯，在各任务上学习独立的隐变量先验，缓解时空动态分布漂移；预测式经验回放，固定上一任务学习好混合世界模型参数（M，预测网络），用于在后续任务上回放旧任务上的图像序列，回放结果与当前任务的真实数据混合，重新训练混合世界模型，缓解输入和输出分布漂移。

从实验结果可以看出，本文所提模型在持续预测学习中的任意阶段，都能很好地保持已学习的时空动态信息，生成结果运动明确、物体清晰。

图4 混合世界模型

2.3 世界模型表征解耦——自动驾驶

我们把自动驾驶抽象成世界模型表征解耦的问题。实际中，驾驶员可以控制路面有些物体，但是除了车辆的相互规避控制不了其他车辆。我们的初衷是希望把受控和非受控解耦，解耦后能够做提前规划和控制。这样的问题很多，尤其在自动驾驶中非常典型。

这里主要采用了三路神经网络 , 分别从图像中提取“参与者状态”(Action-conditioned )、“自然状态”(Action-free) 和静态背景信息。通过优化 “参与者状态”支路上的“逆动力学”目标函数，实现解耦。

在CARLA数据集上，通过状态解耦进行控制后，可以基于对自然状态的独立推演，生成更具有“危险预判能力”的驾驶策略。实操中能够在相关游戏画面中玩的非常好、非常流畅、非常迅捷。DeepMind Control Suite（DMC）上通过状态解耦，可以规避动态背景噪声对视觉控制策略的影响，令强化学习更加鲁棒、抗干扰。

3 生成式虚拟数字人

生成式模型和计算机图形学方法都有各自优缺点，我们希望通过NeRF作为一座桥梁，将各自的优缺点组合起来，实现数据驱动、流程简单、精细控制、可解释的一种生成式数字。这里主要汇报我们两方面的工作，一是可泛化的三维数字人重建；二是三维数字人的跨模态驱动。

3.1 可泛化的三维数字人重建

为使数字人逼真，我们做了高拟真的模型来适应不同场景；然后可以驱动，通过文本、声音进行跨模态的驱动数字人，从而大规模、高效地产生可泛化、可驱动的虚拟数字人。

可泛化的第一个工作就是怎样利用单帧图像精度进行三维人脸重建。其意义在于，无需光场设备和动捕设备，低成本实现动态人体重建。主要挑战是数据域差异，即不同片段之间的动作种类、背景、相机、光照、遮挡等差异，以及不同场景之间的数据。主要参用的方法是鲁棒纹理补全的生成对抗网络，使用生成模型去除遮挡，生成人脸3DMM模型；基于物理的隐式可微渲染函数，以无监督的方式，学习精细的几何形态、渲染要素分离。如能对一些渲染的要素解耦，也能精心重建。其架构主要是把GAN和NeRF比较好的结合在一起。但从效果图可以看出一些缺陷，如角度比较大时，有些地方不够好。怎样克服这些不好的地方，是后面需要做的工作。

可泛化的第二个工作就是单个视频的三维人体运动重建（Bilevel Online Adaptation for Out-ofDomain Human Mesh Reconstruction, CVPR2021）。希望在没有光场设备和动捕设备，低成本实现动态人体重建。主要的挑战在于数据域的差异和深度的歧异。采用的方法是在线更新网络的方式，比较好地消除两种差异与歧异。从效果图可见，在大的溜冰场里，不可能建现场，也不大可能让一个运动员戴设备，这是很危险的。我们的方法实现了比较好的重建，然而精度还是不够。但是做一些内容是可以，比如做一些溜冰的动作等，至少从视觉的角度来讲是可以的。

3.2 三维数字人的跨模态驱动

跨模块驱动第一个工作就是高拟真表情可驱动的数字人。通过将面部表情分解与神经辐射场结合，在保证渲染质量的同时实现细腻自然的表情驱动。从效果图可见，假人很逼真，可以被智能操控，包括头发、眼睛、嘴巴、脖子，而通常脖子容易出问题，因为用了两个模型，所以视觉效果不错。

跨模块驱动第二个工作是语音驱动个性化数字人。低成本的数字人语音、文本驱动，比较好的克服纯-音同步等方面的难题。

第三个工作是CageNeRF可泛化的形变与驱动（CageNeRF: Cage-based Neural Radiance Field forGeneralized 3D Deformation and Animation, NeurIPS 2022）。我们希望无需骨骼绑定即可驱动，低成本实现通用的物体驱动。面临的挑战是难以对隐式场施加通用的结构约束，形变场的泛化性难以保证，形变后的细节真实感难以保证。我们基于Cage的形变表示，以低维包络框作为物体三维结构化约束，可泛化到任意物体形变；基于显式控制的隐式渲染，同时保证了渲染的真实性与编辑的可控性与便捷性。

从其效果可见，我们的方法能够比较好地实现编辑和风格转移。

4 结束语

生成式人工智能是可以为基于视觉物理世界模型，以及虚拟数字人提供可行的途径，我们所做的这些初步工作，证明了是可行的。

展望未来，希望通过数学、物理、信息的认知，以及计算机增学科交叉，进一步夯实生成式人工智能的基础理论。本文中提到的方法都是组合式，拼接式还是过于自组织，能不能形成更有系统的基础理论，需要我们再努力。另外，从应用角度来讲，“物理 +数据”联合驱动，“虚拟+现实”深度融合，生成式的AI直觉有望加速科学发现、物质合成、元宇宙构建。

Feynman曾说：“凡是我不能创造的，我都不能理解”。在元宇宙时代即将来临之际，我们的生成式人工智能说：“凡是我能够理解的，我都能创造”。

（参考文献略）

选自《中国人工智能学会通讯》

2023年第13卷第1期

上海交通大学研究生(上海交通大学研究生招生网)

1 元宇宙生成式人工智能的思考

2 生成式世界模型

3 生成式虚拟数字人

4 结束语

2023考研秘籍

跟我一起考研吗？马上关注我分享独家资料您