风海网 > 社会 > 正文

​虚拟人艰难落地

2023-08-09 18:24 来源:风海网 点击:

虚拟人艰难落地

撰文|史圣园

编辑|翟文婷

刚刚过去的七月全球人工智能大会,虚拟人的声量和关注度远远不及大模型,但它并没有缺席。

大众对于虚拟人的印象,还停留在一个个越来越漂亮、越来越接近于真人的 3D 人物模型。企业却开始琢磨,怎么用虚拟人帮自己省钱了。

「去年大家的关注点在于,供应商能否帮他们『造一个人』,今年的诉求明显更现实,都在关心虚拟人能不能应用到企业运营,真正降本增效。」一家虚拟人科技公司产品经理 David 告诉新莓 daybreak。

需求跑在了技术前面。如同自动化流水线逐步取代车间操作工一样,企业采用虚拟人,是想要更加廉价、高效、稳定、触手可及的人力。

过去几年,虚拟人的形象呈现质感不断提升。超写实虚拟人,皮肤和毛孔的质感甚至可以媲美真人。就仿佛大模型具像化的「肉身」,虚拟人能与真人产生语言之外的更多交互。

大模型的相继发布、能力的突飞猛进,也让大家对虚拟人产生了更多期待。艾媒咨询的数据显示,2022 年我国虚拟人核心市场规模达 120.8 亿元,这个数字有望三年后翻四倍,达到 480.6 亿元。

虚拟人最大的症结之初是,制作成本居高不下,能够真正落地的性价比之选,怎么看都还是略显粗糙。

好消息是,随着 AI 技术的进步,虚拟人几乎可以 100% 通过 AIGC 的方法自动生成动作、表情、语言,所需制作时间和成本大幅降低。

生产端持续降本增效,应用端的交互雏形初现,树上已经长出青涩的果子。

遗憾之处则是,现阶段人类还不能像电影《头号玩家》中那样,在虚拟空间和现实空间无缝切换。

技术从诞生到成熟之间,总有一段无法快进的尴尬期。

还是实用价值赢了

如果站在人类中心的角度,按需求分类,那么虚拟人可以分为功能型和身份型两种。

功能型的虚拟人,提供的是实用价值:帮人类具体执行,比如智能客服、文案撰写、虚拟人主播等等。

身份型的虚拟人,提供的是情绪价值。它可以是虚拟女友、虚拟伙伴,给予你平凡的陪伴;也可以是历史名人、娱乐明星的数字分身,或者诞生于二次元的虚拟 IP,让你获得近距离追星的快感。

情感需求是客观存在的,人需要被鼓舞、被理解。在社会日益原子化的今天,这个需求还在不断增长。

有人在小红书这样描述自己与 AI 聊天的感受:「哪怕心知肚明那只是一段代码,但还是会因为那些文字心动。AI 可能是虚妄的,但看到那些对话而惊喜的心情是真真切切的。」

AI 伴侣聊天机器人 Character.ai 的增速也是最好的证明。

在这款软件中,用户可以与马斯克、乔布斯、马里奥等著名人物交谈,也可以定制自己的专属 AI 陪聊。

Character.ai 由两名前谷歌员工创立,还不满一年。今年三月,这家公司完成了 1.5 亿美元融资,由美国著名风投公司 a16z(Andreessen Horowitz)领投,估值已经达 10 亿美元,绝对的一匹黑马。

ChatGPT 增长趋于停滞的当下,Character.ai 的访问量却持续攀升。Semrush 的数据显示,后者 4 月访问量环比增长近 90%,5 月环比增长 47%。

真人与 AI 文本交互的顺畅体验,依赖的是大语言模型的成熟。但虚拟人,不仅包含文本,还包括动作、表情、声音。想要达到全方位自然相处的境地,还有一段漫长的技术跋涉。

今年湖南卫视跨年晚会现场,虚拟人带来了名为《制造浪漫》的歌舞表演。有网友表示,童言无忌,自己家 3 岁孩子的第一反应是「好假好丑」。

需求虽然存在,但技术实现并不尽如人意,这让面向 toC 市场的身份型虚拟人,很难卖个好价格。

这点实用型虚拟人更占优势。以同时兼具两种功能的小冰 AI 克隆人为例,提供的实用价值比情绪价值贵 5 倍。

「情感模式」定价是 72 元 / 年,可实现语音通话、朋友圈互动等功能。而「超级模式」的定价是 360 元 / 年,主要服务于办公场景,辅助会议纪要、文案撰写等工作。

最重要的是,小冰 AI 售卖的只是交互界面,没有具体的虚拟形象。

David 对此毫不意外,「从我自己的感受来说,企业客户首先关注的是 ROI 能不能打正,是不是比真人员工成本低。其次,热点技术也带有营销属性,比如企业可以购买个虚拟人,说自己接入了 AIGC,并大力宣传这样一个拥抱创新的品牌形象。」

他还补充道,虚拟人技术供方首先要满足企业的现实需求,因为无论是从实际功能,还是营销功能,企业都比个人的付费意愿更强烈。

生产端,降本增效

一个值得行业欣慰的好消息是,AI 的技术进步驱动了虚拟人生产成本的降低。不论对功能型还是身份型虚拟人,都是利好。

打造一个虚拟人,主要包括建模、驱动、渲染三个环节。AI 大大降低了建模和驱动环节的成本。

建模,就是通过手绘、CG 建模或者 AI 的方法,制作出虚拟人的形象。传统方法,需要设计师在 3D 软件中「捏」出一些形象。

以往,产品经理和美术设计只能通过文字、网络图片参考,沟通形象需求,难免存在信息失真。假如对制作效果不满意,只能多次返工。

现在不然,Midjourney、Stable Diffusion 等软件已经实现低成本的 2D 图像生成。

AI 基于已有素材和指令,智能生成一个形象,让每一个需求都有了更具体的对照。也就是说,AI 大大降低了制作虚拟人形象的沟通和试错成本。

3D 建模虽然无法完全由 AI 完成,但 MetaHuman 等工具则可以通过输入照片或视频建立高保真的虚拟人,并直接在 Unreal Engine 中应用。

驱动,是让虚拟人活动起来的过程。它可以由「中之人」驱动,也可以由 AI 驱动。中之人是指,在虚拟人的外衣下,提供声音、动作的真人演员。

前者依靠对真人的深度采集完成,包括动作捕捉、面部表情捕捉、音视频合成等等,再绑定到虚拟人上。后者则是通过深度学习、小样本学习、自然语言处理、神经网络渲染等技术手段,比如输入演讲稿或者语音,AI 模型就能自动输出肢体动作、面部表情、声音。

David 解释,他们公司具备动作、表情和声音模型。「声音是比较简单的,TTS(Text to Speech)技术很成熟了。肢体和口唇动作就是一些 STA 模型,我们采集了非常多的动捕数据,再基于此去生成训练模型。」

例如,若想在产品解说的视频中应用虚拟人,系统会基于 NLP 识别用户输入的脚本,其中的文字作为输入给到模型,可以触发一些关键的动作。

如果你对这些概念没有强烈体感,可以通过金钱投入量级更直观地感受。

「如果是动捕技术,成本是一秒钟 1000 块,这意味着时长一分钟的视频,大概需要六万块。而通过 AI 的方式去生成,1 分钟只需要 30 块钱。」David 介绍,两种方式的成本相差千倍。

广发证券指出,AI 技术对虚拟人产业的影响不仅仅是在成本侧,同时还带来了「拟人化」和「专业化」的可能。大语言模型,以及在基础模型上用特定的数据集进行微调,可以赋予虚拟人个性,也可以适配更多专业化的场景。

虚拟人直播带来的启示

更直观的功能型虚拟人应用,是在直播场景。

5 月份,抖音率先确定虚拟人的「合法」身份,允许使用 AI 辅助创作、不会限制虚拟人直播。近几个月,抖音新注册的公会账号,使用虚拟人直播不再按照录播对待。

快手虽然没有官方表态,但没少给「快手虚拟演播助手(KuaishouVirtual Studio,KVS)」做推广。KVS 是一款面向内容生产者的工具,支持使用虚拟人助播,也支持主播自己化身虚拟形象,进入虚拟场景。

不论站在哪一方,虚拟人都是刚需。

品牌方,有动力替换部分真人主播。一名成熟的主播,培养周期至少在三个月左右。而这一行业的人员流动性很高,品牌方需要持续寻找、培训、磨合新的主播。

如果不考虑饭碗被替代,主播也想培训虚拟人帮自己打工。毕竟,带货是个体力活儿,日复一夜每天连播 4-6 小时,昼夜颠倒、深夜下播是行业常态,很多人吃不消。

此外,「带货过品」的套路成熟,商品的讲解流程标准化,虚拟人似乎完全可以胜任。

然而,现实却没有那么美好。

虚拟人主播很难让观众产生真正的信任,尤其是涉及到产品测评,美妆、服饰等常见商品的展示,虚拟人显得有点力不从心。

此前,群众基础还不错的虚拟偶像翎 Ling,就因为口红测评文案中的「滋润不干」被网友无情吐槽。当呈现效果完全是虚拟的,又如何给到消费者真实客观的参考呢。

服装则更是如此。不仅呈现效果缺乏可信性,还要对展示的服装进行提前建模,运营成本不见得比真人主播低。然而,网友们的评价却是「这能看出来啥」,「好像就是弄了一个虚拟人形象出来念稿子」。

目前,虚拟主播的功能,更多是基础性的产品介绍,或者给真人主播做「花瓶」,引起观众的好奇。

抖音虽然默许了虚拟人的直播,但同时也表示,流量的分发取决于「内容的质量」,不是随时大开绿灯。这也意味着在高峰时段,「只会念稿」的虚拟人直播,根本不是真人带货主播的对手。

从直播这一场景的「虚拟人」打工状态管中窥豹,作为用户,我们不难感受到宣传中的科幻感与技术落地的现实之间的差距。

但技术的进步永远是这样,可用性的提升并非一日之功。

AI 技术的发展,帮助虚拟人行业克服了批量化生产的巨大难题,能够帮助用户快速、低成本地生成虚拟人,高频次地生产内容,以及摆脱对于真人的依赖。

而对于从业者和企业客户来说,虚拟人与真人的自然交互,近一寸有一寸的欢喜。已经有不少商家在深夜时段,采用了虚拟人主播,让自己的直播间 24 小时不间断。

毕竟,能持续向观众发送商品介绍的简单念白,也聊胜于无。