好看的皮囊+有趣的灵魂,虚拟数字人还有多远?

红星新闻 2023-10-24 17:15


“未来像盛夏的大雨,在我们还来不及撑开伞时,就已扑面而来。”科幻作家刘慈欣如此形容科技的发展给生活带来的巨变,而这种进程还在飞快地加速。

10月22日,杭州第4届亚洲残疾人运动会正式拉开帷幕,最后一棒火炬手用通过大脑操控的智能仿生手高擎“桂冠”向全场观众致意,与吉祥物“飞飞”一起点燃主火炬。

半个月前,在杭州第19届亚洲运动会闭幕式上,凝聚全球目光的数字火炬手以“弄潮儿”之名踏浪而来。在主火炬熄灭之后,火炬手几步一回头,在欢呼声中依依惜别,最后跃至空中,幻化为漫天星辰。作为亚运史上首个“数实融合”的点火仪式,火炬手的动作敏捷、丝滑、顺畅,仿佛下一秒就能“突破次元壁”与现场的观众进行对话。

图片

▲杭州第19届亚运会主火炬点燃 图据杭州发布


这一场场科技与体育盛会的奇妙融合,点燃了社会大众对未来的想象。而另一场关于“未来想象”的大会日前也在成都举行——10月18日-22日,2023成都世界科幻大会在成都举办,全世界的重磅嘉宾和幻迷在此相聚,“科技+科幻”更是成为了大会的热门词组。

科技,将会如何影响人们的生活?近日,红星新闻记者走进蚂蚁集团亚运办公室,探索数字火炬手、虚拟数字人如何乘科技之风踏浪而来。

可达两万亿种形象的数字火炬手

2009年《阿凡达1》的正式上映,为观众打造了一个宛若世外桃源般的潘多拉星球,电影中的虚拟数字人纳美族在技术的加持下,具有了更为丰富和真实的表现力,被众多幻迷称为元宇宙的“优质影视版本”。

虚拟数字人正在迅速走进我们的生活,今年,是它重新“蒙眼狂奔”的一年。这一趋势,在杭州亚运会的数字火炬手爆火出圈中可见一斑。

支付宝亚运办公室数字服务专班负责人、蚂蚁集团支付宝亚运数字服务产品总监孟琰告诉记者,在亚运会开幕之前,支付宝通过线上火炬系列活动召集用户加入数字世界的线上火炬传递,每位数字火炬手都可以拥有代表各自的3D数字人形象,并在开幕式点火仪式后获得一张专属证书,永久存储在区块链上。“这些数字人在开幕式上,化身一个个粒子,打破了时空的壁垒,汇聚成具象的‘数字粒子人’,跑进场馆内的185米立体网幕。”

22981697943430_.pic_hd.jpg

▲支付宝工程师们针对300多台不同年代、不同型号的手机,进行了超10万次测试

在过往大型赛事中,由于时间和空间的限制,参与火炬传递的火炬数量非常有限,“少则几百人,多则几千人,人们往往只能记住最后一棒火炬手的名字,大家无法深度参与其中。通过线上传递火炬这一方式,让更多的人打破时空壁垒,通过成为数字火炬手、线上传递火炬、数字点火,深度的参与到亚运会之中,并获得专属荣誉留作记忆。”

此外,在采访中,孟琰还反复提到一个词,“身份认同”。这也是使得团队最终选择呈现出“千人千面”数字火炬手形象的驱动力之一。

“我们根据业务场景将虚拟数字人分为两类。一种是服务型数字人,其核心功能是代替真人进行服务,它可以解答问题、与用户进行语言互动,目前已经在现实生活中广泛应用。另一种是身份型虚拟数字人,是真人形象在虚拟世界的具象表达,其能在数字世界娱乐、社交。”孟琰告诉记者,未来无论在数字世界中我们构建什么,数字人一定是开启的“钥匙”,因此用户在体验数字世界时一定会非常注重建立代表自己的独特身份的数字形象。“亚运会这一国之大事上,我们发现大家都非常希望表达自己对国家的热爱和自豪感,希望能更多的参与和了解亚运会,希望有一个能代表‘我’的身份和形象去践行对亚运会的支持,所以‘更贴近我自己的形象’十分重要,这让我们摈弃了原本只设计一个统一火炬手形象以及设计其他抽象形象的想法。”

22951697943420_.pic_hd.jpg

▲蚂蚁集团交互智能实验室

参与人数众多,如何能做到“千人千面”?从嘴唇厚薄、眼睛大小、鼻梁高矮,甚至阳光照射下鼻梁投影的角度,自称“非专业影视公司出生”的支付宝亚运技术团队开发了58个捏脸控制器,最终可让用户选择的形象达到两万亿种,在细节上能做到极尽逼真,在场景的构建更是实现了影视级的效果。

虚拟数字人的灵魂——动作捕捉技术

什么是“虚拟数字人”?在《虚拟数字人行业深度研究:元宇宙的主角破圈而来》这一报告中,对它下了这样一个定义:虚拟人、数字人、虚拟数字人的目标是通过计算机图形学技术(Computer Graphic,CG) 创造出与人类形象接近的数字化形象,并赋予其特定的人物身份设定,在视觉上拉近和人的心理距离,为人类带来更加真实的情感互动。

这个定义也同样提出了一个技术壁垒:如何创造出与人类形象接近的数字化形象?“其中,动作捕捉技术可以说是打造数字人的‘灵魂’。”孟琰表示。

“目前市面上的虚拟数字人在创作的时候会采集一部分动态模型,并配合通过算法进行拓展延伸。亚运会数字火炬手的打造基于人体的所有真实动作来进行还原,比如跑和跳,打乒乓球、羽毛球的时候,头发是不是会飘起来?衣服在进行何种动作时会产生褶皱?这些细节都会考虑其中。”孟琰介绍,为此,支付宝采用了惯性动作捕捉技术,基于惯性传感器的动作捕捉系统持续不断地采集人体各个部位的实时运动信息,记录下演员的动作资产,再与人的骨骼进行绑定,就可以驱动虚拟数字人进行运动。

23021697943507_.pic.jpg

▲工作人员穿着动捕传感器

当记者走进支付宝搭建的交互智能实验室,两个硕大的装备——圆柱形相机矩阵和球形相机矩阵,猛然出现在眼前,相比之下工作人员的工位却显得十分简单,这就是数字火炬手动作来源的捕捉地。

走路、跳跃、挥手,支付宝技术部数字人服务端研发工程师馥云穿着动捕传感器,在二十平方米左右的圆柱形相机矩阵里不断重复数字火炬手所需要的各种动作,墙壁上64台4K高清相机,辅助传感器采集训练数据。

“从头部、腰部、手臂到大腿等每个关键部位都会配有传感器,来定位人体的骨骼点。借此我们可以通过计算两个传感器之间的距离,来确定每一个动作相应的关节在三维空间中的绝对位置,通过计算向量之间的旋转,就可以得到动作在空间中的运动方向。”馥云介绍。

而能做出各种动作的数字火炬手,正是在这样上万次的动作捕捉中诞生的。

一个问题是,除了能让虚拟数字人的细节更接近真人以外,动作捕捉技术还有什么用?事实上,动捕技术带来了虚拟数字人产业的变革。原来传统的数字人制作方式,是由设计师拿着骨骼模型一帧一帧地去绘制,这也导致了数字人的生产周期非常长。“而动捕技术的应用,将传统的数字人制作周期从‘月’压缩到‘天’,几乎形成了10倍产能的差距。”支付宝体验技术部高级前端技术专家、杭州亚运会数字火炬手前端技术负责人方凯解释道。

22961697943423_.pic_hd.jpg

▲方凯

值得注意的是,为了保障数字火炬手能在不同的手机上运行,支付宝工程师们针对300多台不同年代、不同型号的手机,进行了超10万次测试。“当我们做好了每一个场景、人体模型、动作之后,我们都需要在上百台机器上挨个点击、试看。”方凯介绍,最终,基于自研的Galacean引擎、区块链、AI算法、Oceanbase数据库、小程序云等复合技术的能力,上亿用户可以流畅地在智能亚运一站通支付宝小程序上完成线上火炬传递。

亚组委官方数据显示,截至9月15日,“亚运数字火炬手”参与总人数已突破1亿人。并在开幕式点火的瞬间定格在105791208这个数字上。

距离好看的皮囊+有趣的灵魂

虚拟数字人还有多远?

随着元宇宙等数字技术的发展,越来越多的虚拟数字人早已进入我们的视野中,从柳夜熙、洛天依到跑进杭亚大莲花的数字火炬手,基于数字人技术,虚拟数字人在生活中已经得到多样呈现。那么,距离好看的皮囊+有趣的灵魂,虚拟数字人还有多远?方凯给出了四个词:智能建模、动作生成、智能交互和实时渲染。

在智能建模方面,最关键的是要能实现“低成本、高精度”。记者注意到,除了圆柱形相机矩阵,交互智能实验室里还有另外一个球形相机矩阵。“依托球形相机矩阵的32台4K相机,我们可以快速、低成本、高精度地进行百万面的建模,创造出一个写实风格的虚拟数字人3D模型。”方凯坐在球形相机矩阵中,只需几秒,一个以他为基准的模型已然成型。

22941697943419_.pic_hd.jpg

▲蚂蚁技术研究院

在动作生成方面,动捕技术是关键,大量的动作资产能使得虚拟数字人模型顺利、流畅地行动起来。“在此基础上,嵌入智能交互技术后,我们只要输入一段语音脚本,就可以让这个与真实人物别无二致的数字人说起话来,甚至跳起舞来。最后,经过引擎的实时渲染,就能够在手机和电脑上直接播放。”方凯向记者演示了一段视频,视频中,一位男士正站在虚拟场景中进行演讲,动作流利、表情自然,这正是团队打造出来的以真实形象为模板的虚拟数字人。

一个问题是,如果只需几秒钟就能建造一个虚拟数字人模型,并且能够实时生成以他为主角的高清视频,未来的世界是否不再可信?“这就涉及到‘安全’的问题。如果智能虚拟数字人得到应用,信息安全、伦理等方面的问题一定要得到解决,比如一定需要得到本人的授权,这也正是我们正在努力推进的。”方凯告诉记者。

会说话,会眨眼,会动作,数字人有了无限接近于人类的“外皮”,但没有思想的数字人只是一个笨拙的“提线木偶”,如何让它进一步拥有“人类的灵魂”?

“现在很多企业都会提到一个词,就是‘数智人’,也就是数字化+智能化,这也代表了一个趋势,也就是虚拟数字人的未来一定是和智能化深度结合的。”其中一个重点环节就是在虚拟数字人中嵌入AI大模型的技术,“当一个数字人真正拥有AI大脑的时候,它会思考、回答甚至有相应的手势动作,这时,一个完整的智能虚拟数字人才算成型。”

人机交互的时代正在到来

2007年,乔布斯在苹果新品发布会上掏出iPhone的一刻,数字时代2.0——Mobile 时代正式到来,这一刻,也迎来了数字化时代的全面爆发。

“数字时代的3.0我们可以称之为 Meta Vision 时代,也就是我们称呼的‘元宇宙时代’。在元宇宙里,数字人成为了类似‘鼠标’一样的存在,成为人机交互的载体,带来了人机交互的新变革。”通俗来讲,我们可以依托“数字人”的身份,在元宇宙的世界尽情遨游,方凯举了一个例子,“这有点像科幻电影《头号玩家》,电影里描述了一片绿洲,我们只要戴上头盔,就能瞬间进入到虚拟数字人的角色里,在绿洲世界里社交、娱乐。”

23041697943552_.pic_hd.jpg

▲工作人员穿着动捕传感器

那么,数字时代的3.0何时才会到来?在方凯看来,如今,我们再次站在历史的转折点上。

“此次亚运会数字火炬手的惊艳亮相,不亚于比尔盖茨第一次看到鼠标和图形操作系统的震撼感。但虚拟数字人目前仍处在一个非常早期的阶段,因此,Meta Vision 时代仍需时间酝酿,也需要更强的硬件和操作系统支撑,可能在几年之后才能全面爆发。”

方凯还提到一个词——脑机接口。所谓脑机接口技术,是通过传感器采集脑电波信号,经过识别后将脑电波信号变成控制外围设备的信号,如控制轮椅、机械臂等,使其按照人的意图进行工作。

对此,他展开了大胆的想象。“Meta Vision 时代仍需要人去驱动,发展到数字时代4.0时,或许在人类大脑中植入芯片就成为常规操作,动一动脑子,我们就可以与芯片做直接交互。”

10月22日,2023成都世界科幻大会在成都科幻馆圆满落幕,这是世界科幻大会第一次走进中国,成都成为亚洲第二个、中国首个举办世界最高规格科幻盛会的城市。

“我相信对于所有科幻作家、科幻迷们而言,当他们看到虚拟数字人或者元宇宙真正呈现在面前的时候,他们一定会想,自己想象中的世界离现实更进一步了,这也是一种激励,构成了科技、科幻产业的良性的正向循环。”孟琰笑着表示。

红星新闻记者 叶燕 吕佳羽 摄影报道

编辑 成序