文|脳極体
你在看数字人吗?
这个问题在今天似乎颇难回答。如果从宏观趋势上看,数字人的利好要素似乎已经达到了一个空前的高度。比如有市场分析机构预测,到2026年中国AI数字人的市场规模将突破100亿人民币,整体市场呈现高速增长态势。又比如今年7月,北京发布了《北京市促进数字人产业创新发展行动计划(2022-2025年)》(以下简称《行动计划》),这意味着数字人产业迎来了中国首个专项支持政策。《行动计划》中甚至提到,到2025年北京市数字人产业规模突破500亿元。但如果我们从微观上看,又会发现数字人的发展与应用并不是一帆风顺的。今年双11,大量商家开始放弃使用数字人;很多企业、机构的数字人员工、虚拟偶像,在发布之后就杳无音讯;数字人解决方案报价太高、维护太贵的声音不绝于耳;很多投入了大量宣发资源,被寄予厚望的数字人项目,极短时间内就丧失了流量。如果说,数字人在2020年末到2021年,高速完成了从技术孵化到教育市场的创生期,那么在目前阶段,数字人则恰好处在从产业链搭建到大规模应用转化的过渡期。这个阶段,虽然整体市场依旧被看好。但从产业链到应用场景、接受情况中的一系列问题也暴露了出来。数字人市场,开始不能用简单的“好”与“不好”来评判。速死,被极限牵着鼻子走的数字人,让我想起了一本书——莫言的《生死疲劳》。
不用说,人活着就是累。 今天,我们可以说,不仅是人,数字的人也想活,非常累。
生于直播要讨论数字人的现状,首先必须达成什么是数字人的共识。
一般来说,数字人是指具有拟人或者真人外貌、行为和特点的虚拟人物。 这里的重点在于,今天很多人已经默认数字人是具有TTS语音合成、多轮对话、语义理解技术特征,由AI驱动的虚拟形象。但在整个产业发展的实际脉络来看,数字人长期以来都跟AI技术关系不大,或者只使用了比较初级的AI技术,比如语音合成。最初的数字人基本上是以虚拟偶像等形式出现的。 像初音未来和洛天依等一样,基本上是通过动画设计的语音合成来实现的。 这个时候的数字人大多作为展示,缺乏互动性,而且门槛很高,很难普及。
接着,随着直播行业的发展,越来越多的数字人开始出现将真人配音、TTS语音合成、唇形预测相结合实现。 虽然此时的“数字人”仍是虚拟主播,但越来越多的“新戏”却无法在生产力上代替主播。
当NLP、知识图谱技术不断成熟,数字人具备了多轮对话能力。同时机器视觉带来的唇形捕捉、面部捕捉技术愈发完善,由AI技术驱动的AI数字人开始出现。这时的数字人发生了最为深刻的一个变化:数字人可以独立完成人物,人工配音和真人扮演不再成为必备。这让数字人对齐了一个巨大的商业空间:在那些只需要简单对话、交互的工作中,由AI替代人类。这样的工作有很多,比如AI数字人最早出现在企业园区中的导航、导览工作中。接下来,柜台服务、智能客服等领域开始出现数字人。尤其在金融、保险等领域,由于顾客的需求相对固定,且数字人不易出现人为错误。在这些行业薪资水平相对较高的前提下,数字人客服展现出了一定优势。但与客服场景相比,真正让数字人火起来的,依旧是直播。从虚拟偶像到虚拟主播,直播始终都是数字人的天然温床,是数字人“生”的动力和希望。随着直播带货成为主流的电商消费形式,主播逐渐成了稀缺资源。很多厂商与品牌方,在近两年选择了全天候、多线路的高强度直播模式。而这就导致主播的需求压力激增。加上疫情导致主播工作不确定性增加、主播坑位费与雇佣费等成本增大等因素,让企业和MCN机构开始探索主播的替代方案。加上在目前的直播经济中,很多品牌方的直播需求仅仅是不间断宣讲信息、推出产品,工作门槛并不高,用AI代替人类主播就成为可能。2021年双11,各电商平台、直播平台、MCN机构的宣传重点从直播带入能力,转变为虚拟主播、数字人直播带入能力,以及综合成本优势
而具有答疑能力,AI驱动的数字人性化主播能够激发用户的猎奇感、新鲜感,直播市场普遍呈现正向反馈。 这些反馈支持了当今关于数字人的许多政策支持和市场预判。
但是,在直播中出生,要成为直播的数字人,前提条件是数字人的应用成本必须低于人类播音员。
这是因为,作为替代品出现的数字人,毕竟其问答能力、应变能力、才艺能力都不如人类播音员。 数字广播的盛行,是基于很多企业和商品都在等待广播,但没有播音员使用的特殊需求,低成本开发、模板更换的数字人正在迅速进入职场。
随着主播需求开始调整,真人主播成本下降,企业直播需求逐渐放缓。 数字人的市场利益也将逐渐失效。 从另一个维度看,数字人自身的开发成本、制作成本在上升,与真人主播相比的成本优势开始松动。
这是因为数字人已经面临着就业以来最大的挑战。 是同质化。
死于同质至少在目前阶段我们必须承认,由AI驱动的数字人依旧处在交互能力有限、表达单一的阶段。在对话比较尴尬的情况下,数字人更多作用还是播放已经录制好的内容,或者切换成人类配音+语音合成+唇形识别的“木偶人”模式。当然,AI对于数字人的价值是多样的,并不限于多轮对话和知识图谱,还包括视觉、语音方面的内容。但无论怎么说,数字人应用很快进入了一个基本困境:由于数字人背后的AI模型来源只有那么几个,导致每个数字人即使在外貌上进行了差异设计,其交互能力和所具备功能却大多是一样的。漂亮的皮囊万里挑一,但无聊的灵魂千篇一律。 随着数字人带来的最初新奇体验逐渐趋于平淡,接下来如何让数字人脱颖而出成为巨大的挑战。
于是我们看到,很多数字人刚出道没多久就销声匿迹。“数字人之死”,远比预想中来得更快一些。某服装品牌的数字人,仅仅在直播和短视频平台活跃了几个月就杳无音讯;某大型活动的数字人推广大使,因为建模过于粗糙遭到网友吐槽;大量新出道的虚拟偶像,都缺乏能让人记住的特点;很多直播间在尝试了一段时间数字人后,又把人类主播召唤了回来。大部分蜂拥而至的数码人,没有激起任何水花,反而被形象、功能、相互作用的高度同质化所淹没,一眨眼就消失了。
一方面看好数字人长期发展,另一方面同质化又在侵蚀数字人的应用空间。想要逃离这个怪圈,行业似乎就只好“卷”起来。数字人摆脱同质竞争,需要卷设计、卷声优、卷渲染,更重要的是需要卷AI技术。数字人的核心技术包括图形计算、AI动作捕捉、NLP、语音合成、知识突破等等。这些技术能力都有升级空间,但所需代价是最大的。一旦卷走,试图摆脱同质化,数字人的成本又会直线上升,以人类主播为目标的低成本优势也会消失。 这种困境的囚徒困境,在数字人产业大显身手之前,就已经进入了疲劳期。
数字人,也疲劳想生存,就要卷,这是科技行业永恒的命题。而对于今天的数字人来说,企业快速弄一个换皮、套壳的数字人主播确实是代价很小,甚至可以忽略不计。然而一旦企业对这样的数字人产品有了不满,希望能够做出有创意、足够智能的数字人,那么代价会猛然增加。这种成本压力,给企业带来了数字上的、非人的、甚至更低的疲劳感。
具体来看,这种疲劳的产生源是多方面的。 前期的供应链成本、后期的运营维护成本、让最终用户高兴的成本都增加了数字用户长期APP化的难度。 这些压力可以概括为数字人的三种疲劳状态:
1.产业链疲劳。
数字人拥有着非常漫长且非常复杂的供应链。它既然需要AI模型作为底层支撑,同时也需要开发工具、平台环境、存算网资源的支持。在技术能力之外,数字人还在设计、动画、专业人才等方面产生成本支出。一家企业如果想要获得完善且优质的数字人方案,要么自身具备统合多方面供应链与技术开发、艺术设计的能力,要么直接购买定制化的数字人解决方案。显然,后一种方式对于绝大部分企业来说更加现实。但定制化和高要求意味着数字人的前期成本直线飙升。能否在后续应用中收回这些成本,或者能否有效降低这些成本,对于企业来说都是未知数。这也是为什么,很多企业宁可直接抛弃数字人,也不愿意升级数字人。或者依旧让初级的数字人解决方案苦苦支撑。另一方面,对于数字人供应链企业来说,大量数字人都涌向直播,确实带火了业务。但过分聚焦的业务,让接下来的升级遭遇了困境。从产业链来看,数字人可能涉及显示硬件、光学器件、芯片、AI模型、AI开发工具、建模软件等等技术领域,还必须包括应用层的行业开发者与软件供应商。如此多复杂的产业链,最终都仅仅为直播服务。单一的应用场景很难消纳产业链的创新成本。这导致数字人的底层技术很难快速升级,或者将成本摊薄。太长、太复杂,拉动全身的数字人产业链,数字人很难以低成本、高效地做出改变。 害怕产业链适用窗口过窄,产业链升级过高,最终让数字人出现了局面的美好焦灼感和焦虑感。
2.运维疲劳。
当前数字人产业的另一个问题,是很多企业发现数字人买得起,用不起。这是因为数字人的定制化服务整体成本过高,很多供应商担心市场情况。于是采取了降低一次性解决方案成本,但要捆绑运维支持的商业模式。而由于数字人的商业供需非常单一,这种模式大多需要落在依赖虚拟主播的电商来为之买单。这种先尝后买的模式,非常容易带来后期运维层面的焦虑感。随着用户的习惯甚至厌倦,数字人直播带来的直接价值降低,其因为成本的压力就会突显出来。对于企业用户来说,会越发将数字人连续不断的运维费用作为负担,并且产生不愿升级、不愿续费的想法。而对于服务商来说,则更多希望降低数字人的真实运营成本,拓展自身的实际利润。这就导致很多数字人画风越来越崩坏,体验愈发不智能。这就是因为服务商降低了数字人的AI模型或者图像渲染成本。更有甚者,一些服务商甚至在不告知甲方的情况下,直接派真人配音来代替数字人当中的AI技术,以期降低运营压力。AI假装真人还未成功,真人已经开始扮演AI,这也是让人想不到的情况。3.审美疲劳。
无论是前期投入还是后期成本,数字人产业的疲态都来自成本压力。而所有成本压力的来源,在于最终用户对数字人+直播/短视频的模式已经产生了审美疲劳。毕竟AI的交互能力与理解能力都有限,很难实现源源不断的新价值输出。但用户对于主播的期待是无限的,单调、重复,已经成为很多用户对数字人主播的刻板印象。口味越来越严的用户审美,最终推动数字人产业链洗牌。 低成本、高重复的模式很难维持维序。 数字人能否真正进入大规模应用阶段,还要看能否摆脱这个疲劳的怪圈。
配音为数字人1.0,唇部为数字人2.0,AI驱动为数字人3.0。 那么,走向4.0时代的数字人,需要摆脱千篇一律的功能,走向直播以外更广阔的产业空间。 智能和差异是治愈数字人疲劳感的关键。
现在,解决这个问题的想法逐渐成型。 例如,当用大模型提高数字人的“脑容量”时,ChatGPT的出现迅速让很多产业兴奋起来。 其中也包括数字人。 用更多的预训练大模式提高数字人智能水平的方案将是下一步这一领域升级的重点。
再比如通过硬件升级,来实现数字人更广泛的商业价值。新一代VR硬件这股风在欧美已经十分劲爆,并且开始向中国传导。在VR场景下,数字人可以以更多方式与用户交互,从而带来新的需求,解决一部分手机直播中的审美疲劳,这也是数字人摆脱直播依赖的一个方法。此外,不断缩短数字人供应链,降低数字人的上游成本也是解决方案之一。 许多云计算厂商开始面向企业和软件开发人员推出一站式的打包数字人构建方案,更多地改变了数字人从解决方案中购买、自主开发、自主定制的低成本方案
解决这些问题的构想的最终结果还需要在未来得到验证。 至少在今天,似乎没有理由认为数字人迎来了春天。 在繁荣的市场预期和政策预期下,应该对数字人提出几个问题:
1 .直播中数字人的价值到底是什么? 他们的不可替代性和成本优势能维持多久?
2 .曾经的头部播音员也很生气。 用户厌烦数字人需要多长时间?
3 .除了广播,真的有支撑这么复杂的数字人产业链的商业价值吗?
数字人真的很想出去。 需要某种新技术带来大规模、充分持续的新应用市场。 治愈数字人的疲劳可能需要深刻的技术变革。