起死回生”这件事,过去多在话本和影视作品中出现。今年以来,随着相关AI技术的发展,被“复活”的案例也越来越多。
去年底时,相关技术出现的时候,还仅仅是以技术来进行变脸滤镜,然后人躲在app背后与想复活的亲人互动,但在今年,不少AI企业就已建立了相对完备的技术链条、推出逼真能对话的AI数字人满足用户的复活需求。有从业者向南都记者表示,对比前几年的技术,目前产品在互动体验、音视频表现效果上已经和前几年的产品“判若两人”。
也有从业者指出,别看整个市场现在对“AI复活”的概念追逐得风起云涌,事实上整个市场目前是“雷声大雨点小”的状态。“这个市场本身并不那么成熟,即使用户愿意付费也会受到不少客观情况的限制,比如安全性、是否合规,同时‘复活’也不是一件顺人性的事情,人们对这件事情的接受度也没有那么高。”
近期,乔任梁父亲、李玟母亲对相关人士的“AI复活”行为提出的反对声,也引发互联网各方对“数字生命”的讨论,有学者告诉南都记者,企业即使获得了“被编辑个人”的授权,业界需要探讨的问题依然还有很多,包括授权后内容使用范围怎么界定、生成的数字人自主行为如果出现违法,权责该如何归属等。
“起死回生”,靠的是什么技术?
“AI复活”,在目前正在做C端相关业务的阿亮看来,并不是一件新鲜事。阿亮告诉南都记者,他观察到,利用互联网对亲人进行缅怀早在2006年就曾出现,那时人们把亲人的照片放到一个叫“天堂网”的网站上缅怀。
而在过去20年里,新的技术浪潮也会让不同形态的相关产品再度出现。阿亮告诉南都记者,几年前就曾有人用VR、小程序、APP等来实现这种纪念。
不过,随着AI技术的发展,目前“AI复活”的效果已经得到了较大飞跃。“对比前几年的技术,目前在互动体验、音视频表现效果上,我们觉得已经有了一个较大的飞跃,说白了,现在的技术做的产品,已经和以前不一样。”阿亮表示。也是在这样的认知下,2023年从互联网大厂离职后,阿亮投身“AI复活”的创业浪潮中,成立了北京福心云智能科技有限公司,并在经过半年的技术准备后,将相关的“AI复活”产品于2023年年底推出市场。
人工智能独角兽企业硅基智能则在2019年就开始投入“AI复活”业务。相关负责人向南都记者表示,将大量的数据和影像资料喂给硅基智能自研的炎帝视频生成大模型后,就能重建已故亲人的声音、形象、个人风格和语言习惯。
据悉,目前仅需要向炎帝大模型输入一段1分钟的视频,便能实现对形象和声音的自动化复刻,并可以在短时间内自动生成视频内容。近期,硅基智能“复活”了名人闻一多,而投入关于闻一多的素材仅有一张照片。南都记者观察到,硅基智能“复活”的闻一多,能较好完成嘴形与声音的适配。
硅基智能“复活”的名人闻一多。
对于并不拥有自己的底层大模型的创业公司而言,“AI复活”并没有太玄乎的科技。阿亮告诉南都记者,其实可以简单把“AI复活”应用到的科技分为三层。第一层是图像视频,这一层面的技术模拟一个人生前的影像,而无论是让照片动起来,还是让眼睛和嘴巴动起来,甚至与音频说话声一起联动,这些都是平常技术;第二层技术可能是声音,在这一层声音克隆是核心点,一般在输入原始的声音目标并复制后能形成语言声音模型。
第三层则是目前被讨论最多的大模型技术。“大模型的神奇之处在于它具备一定的角色扮演能力,你输入人物相关信息,包括姓氏、名字、你与对话人的关系、你们之间的回忆等,大模型会扮演一个角色、向你输出一个文本,这些文本既可以作为纯文本,也可以结合声音和图像技术,形成类似微信视频电话的视频,或者是一个能发送视频和语音消息的能力。”阿亮表示。
复活的“逼真度”,门槛在哪儿?
硅基智能相关负责人向南都记者表示,影响“AI复活”因素在于用户提供的数据是否足够供大模型学习。“其中,最优质的数据还是视频。最终交付的产品效果和原始资料相关,客户提供得越丰富,最终交付的效果和还原度也会越好。目前,我们最终交付的产品从人物外形、表情动作、说话习惯、思想表达等都已经可以做到和真人的高度仿真。”
阿亮也认为,“巧妇难为无米之炊”。况且在C端市场中,用户提供的素材也良莠不齐。“在做‘AI复活’的过程中,我们确实需要输入素材,但这些素材并没有你想象中的需要那么多,因为目前大模型只要你输入简单的提示词,就会尽力去扮演一个人。比如你说,你模仿乔布斯和我对话,大模型就会尽力搜索资料去扮演。但对于普通人来说,他们不会有乔布斯这么多的资料。”
其次,阿亮认为,技术并不是“AI复活”的门槛。“技术阶段大家的能力都差不多,能实现技术自研的不多,都是采买上游供应商的技术进行拼装和优化,但是能产生壁垒的优势点其实是整个系统的定价、服务的口碑。或者说是信念问题,你认不认为这个东西有长期的价值。”阿亮曾在接受其他媒体采访时提出这样的观点。
目前,在阿亮推进的“AI复活”业务中,依据“AI复活”所需要的对话技术,进入阿亮“上游供应商”名单的厂商有百度“文心一言”大模型、字节跳动的“云雀”大模型以及出门问问的相关音视频能力。阿亮告诉南都记者,媒体吹的基本不用去看,还是需要自己去体验,体验的核心在于尝试各家的对话效果。
“首先最基本的是,它得知道自己的角色,不要忘记。我觉得通义千问或kimi是做生产力工具为主,比如读文章、做分析报告,这些大模型完全可以。但测试做角色扮演时,可能聊着聊着它就忘记自己的角色了;我的第二个要求是它必须在记住自己是谁的情况下,说的话必须符合角色。我举个不恰当的例子,我测试过一个国产大模型,它能记住自己的角色,但是在扮演时就出了问题,比如我描述性格是‘一个有点小傲娇、小倔强的老头’,这些词汇其实是一种亲密、比较中肯的评价,但大模型有点反应过度,把这个倔犟的人物变成了‘喷子’,在对话的过程里阴阳怪气地和你怼了起来,这就完全不行了。”
AI复活,“安慰”还是生意?
作为一家规模化、主要面向B端用户的数字人服务商,硅基智能相关负责人告诉南都记者,目前他们针对“AI复活”的接单主要来自于政府或企业,同时也开放少量C端合作。过去两年间,硅基智能在相关单位授权下,已成功克隆了包括京剧大师梅兰芳、著名导演谢晋、历史记录者张纯如等在内的多位历史名人的AI数字人。
硅基智能相关负责人还透露,一般而言,不同价格的产品,在还原度上肯定是存在差异。最早做一个简单的数字人可能也需要十几万甚至几十万,但近年来随着技术的迭代,数字人的制作成本也在逐步降低。目前,要完成一次“AI复活”,需要提供人物视频、声音、照片等资料进行大模型的训练。在政府和企业等B端用户的合作中,整套服务和设备的费用约在十几万。
而作为一家主要面向C端市场的创业公司,阿亮所在的福心云推出的服务包括制作相关视频和开发软件与网页。前者价格为每分钟298元,“因为主要会涉及到一些工具和人工成本,人工成本占最多,照片和声音的很多数据都需要调整。”后者交付时为一个类似于微信的对话界面,可以进行人格模拟、语音对话、文字对话和视频生成,定价方式为订阅制:一个月的价格是52.1元,一年的价格为521元。
福心云推出的产品,文字对话过程。
阿亮告诉南都记者,从去年12月到现在,体验“AI复活”产品的已经有超过三千人,在这三千人中,不乏让阿亮印象深刻的用户。“比如我曾经和用户一起创造过一个‘善意的谎言’,有个小女孩的爸爸在她一两岁的时候就不在了,但是家人也没告诉她这个事实。后来她的妈妈找到我做一个类似于视频电话的产品,我们用爸爸的照片加上声音做了一个视频,发给了小女孩,小女孩看完就哭了起来,也相信了这个事情。”
类似的案例还有不少,在阿亮看来,“AI复活”的终极目的并不是为了让人“起死回生”,用户对产品的需求也不是越逼真越好,“AI复活”更多是让人能够找到一种慰藉和情绪的宣泄渠道。在这样的需求下,一条产业链也应运而生。
南都记者关注到,目前市面上做“AI复活”的除了像阿亮这样的创业公司、AI从业者,硅基智能这样的数字人服务商,还有不少跟风商家。在电商平台上,不少店铺提供“AI复活”服务,让照片说话的标价多为10元、50元,南都记者观察发现,这一类服务背后是简单的图像处理技术,能让照片上的人简单动起来;而在短视频平台上,也有不少人以“AI疗愈”的名义提供类似服务。