一个月6块钱,你就能和网红美女“半藏森林”打视频电话,还能看到她的朋友圈。但实际上,和你对话的,是基于人工智能技术训练出的“克隆人”,经过半藏森林本人的训练,在相貌、声音和“性格”上都有强相似度。
(资料图)
这款“克隆人”所在的App,是由小冰公司推出X Eva,这是一个全由“克隆人“组成的世界,每个ID后的身份、性格和对话风格不同。有的是由用户自行定制,比如“霸道总裁”、“病娇女孩”、“贴心男友”等角色,还有类似 “骂醒bot”、“代写检讨信”等功能性形象。
▲截止到6月2日,已产生了30万次跟“半藏森林”的对话,但付费数据并未公开。
据「市界」了解,由真人训练过的“半藏森林”上线仅一天,X Eva的后台就因涌入人过多而“小崩”了一段时间。“我们其实在同步推进数字永生、复刻歌手的案例,网红的号召力和话题度比较强,所以被人最早关注到。”小冰方面向「市界」透露,“半藏森林”只是第一批300名克隆人的首位,后续每周都会有经过真人“训练”过的克隆人登陆X Eva,相关对话是否收费则由定制者本人决定。
经「市界」测试,以“半藏森林”为例,对话不到10个回合,就会跳出收费提示:42冰花(6元)/月,能解锁对方成为你的“秒回”好友,得到语音回复和看到对方朋友圈,而如果进一步升级,210冰花(30元)/月,还能让对方为你“工作”,进行视频通话等。
在这款产品发布前,「市界」和小冰CEO李笛聊了聊,关于建构这样一个“克隆人”世界背后的考虑。
以下是对话内容,经「市界」编辑发布:
“这是一个克隆人需求大爆发的时代”
市界:站在今天这个节点看,“克隆人”这项技术是不是还有些遥远?
李笛:首先,前年小冰就公布过一项技术,用小样本的方法“复生”去世的亲人。既然能复生去世的亲人,那“克隆”一个在世的人就更容易了,因为在世的数据更容易获得。
第二,为什么选这个时间点,本身是关于大模型自身。去年年底,大家开始关注的时候,大模型安全性质非常有问题。只有(参数)特别大的模型才涌现出了特别好的能力,小中模型虽然成本和并发比较良性,但是它的效果差距很大。
那个时候我们就跟大家明确说,小冰认为的未来,应该是混合模型,但是当时很多人认为,越大越好。
包括现在像 OpenAI CEO山姆·阿尔特曼(Sam Altman)也是出来说,混合模型是未来。OpenAI 原来的董事霍夫曼(Reid Hoffman),也谈到,其实GPT 1/ 20 规模的参数模型效果反而是最好的。
普遍来讲,我们比行业当前正在认为的那个正确答案可能要早半年左右,所以我们在前一阵也不太出来说了。因为似乎当时大家都认为好像是给大模型泼冷水。
市界:普通人都能有自己的克隆人吗?会不会消费成本很高?或者说,我们现在能不能用最少的钱得到一个最像自己的克隆人?
李笛:我们做C端,要考虑成本、并发量。小样本数字人要考虑三方面技术,一是“长得像”,神经网络渲染。一是“说的像”,语音合成。第三个,是“想的像”,要能自主思考,知道如何去表达,是大语言模型技术。
我们做的是,在模型上做混合模型。是把近1000个,大中小不同规模的模型有机组合之后的一个模型。有的模型只负责思考,有的模型负责生成,有的模型可能负责某一个类别的生成。
混合模型的优点是兼具了质量、成本的平衡,以及回复的速度。像GPT这样的大模型,问它问题,它都是一个字一个字回复给你的,那如果你打电话每问我一句话,我都 5 秒后才能开始回复这个问题,就不合理。所以,我们要做的是,把成本质量和延迟解决好。
还有就是神经网络渲染和语音合成,我们不用 GPU 去运行,我们用 CPU 去运行。这个对应到的成本差距,大概从每分钟几块钱,或者说每小时几十块钱,到每天几毛钱的区别,可以说成本几乎为0。
当你有混合模型以后,就意味着,你不是每一个输入都需要通过 A100 GPU去运行,其中有一些用 T4 GPU这种级别很便宜的就可以运行。
第三,如何让C端用户付出很小的代价,去“克隆”自己的数字人?现在只要提供 3 分钟视频和10分钟的音频。
我们之所以要社交网络数据,因为已经有现成的数据可以学习“风格”。除了给到一些训练数据,更简便的方法是,你只需要把你的微博账号告诉我,我从公开的数据来学习,也节约你的时间精力。
以前我要想训练你的东西,需要的数据是复杂且要求高,但是现在,最少可能就 200 字描述。当然越多越好,但不需像以前一样,得按分门别类的,得数量很大才能开始。现在准入门槛变低了很多。
怎么确定训练数据是够的?最好的方法莫过于你跟那个克隆人去交流来观察,再补充,如果需要的话再补充相应的数据。
像半藏森林这个加V的(克隆人),就是经过她本人训练的。
市界:这种“克隆人”能去理解所谓的“性格”,包括很私人化的经历和“知识”吗?
李笛:这个其实很有意思。前期调研时,我们发现,绝大部分人在做自己“克隆人”时,在“性格”上希望做出来是行为外向型的,而不是他自己本身的真实性格。换句话说,希望做出他在社交中的性格角色,而不是自己真实的性格角色。
其实我是一个很社恐的人。但是我做一个很社恐的我的克隆人,你就觉得不像,对吧?核心问题在于“观看者”觉得像不像,其实我在社交网络上留下的数据,肯定不是社恐型的。
知识方面也很有意思。我们绝大部分的测试者和前期调研对象,都希望克隆人的知识要远远大于他本人。这是一个很好的事,使得我们做这件事变得更简单了。因为基于大模型,大部分情况下“知识内涵”就是大于本人。
市界:大部分人复刻自己的克隆人,真实的目的是什么?
李笛:我们说一个跟商业有关的,再说一个跟商业无关的。
跟商业有关的应用很简单理解,比如说像美国那个卖自己数字身份恋爱的23岁女网红,这种是个人影响力者,影响力变现。影响力变现的问题在于,自己要投入的时间和精力是巨大的。
网红也好,大 v 也好、明星也好,维系粉丝群是他最辛苦的活之一。但是用克隆人的方法,就可以做到真的能够 take care海量粉丝。
再比如说,讲故事的凯叔,讲少儿故事非常好的一个人,但他可以去每个人的家里面给每个小朋友24小时不间断编和演一个以这个小朋友为主角的故事吗?他做不到,分身乏术。那么如果通过我们的平台做了一个克隆人,就可以做到。
像乙女游戏,国内排名前五的乙女游戏里面唯一一个真是由 AI 来驱动 NPC 的,是我们做的。但是那个还是面向小众群体。二次元是小众的,真正大众的是明星、大V。
最大的商业想象空间还是需要通过影响力变现的这批人,(AI)去放大他们的原有的影响力。从商业价值上最容易触达到,确实是这一批人。
如果从社会价值上容易触达到的,还是我们原先一直在说的——人的情感里面最深入的一个关系,不是在后悔,而是在弥补。比方说,这个人曾经是我的女朋友,但现在因为种种原因,不可能是我的女朋友了。要么就是分手,要么是可能这个人不在了。假设我认为这段关系是关键的,除了“克隆”外,我没有任何其他方式来弥补这段已经断掉的关系链。
我们也有一些合作伙伴提出来的需求是很特别。他得了绝症,想要在自己还在人世的时候把自己“克隆”,留给后人。这也是很常见的一个诉求。也有名人父亲想要“克隆”自己过世的女儿。
如果是网红明星类,就是陪伴粉丝,因为陪不过来;还有一类是有专业技能,会希望通过训练大模型,提供 AI 能力,去服务更多的人。
比方说我是一个撰稿风格非常独特的一个人。很多人都希望我给他写,但是我写不过来。当然我是报价很高,但现在可以训练一个我的克隆人,写的跟我差不多,我的克隆人可以给很多人写,收费低一些,但量大。
现在很多人在说,大模型出来后我们要失业了,但其实也许每一个在组织中工作的劳动者,都可以通过自己的克隆人来实现一个更弹性的、面向更多人的一种智力的输出。
比方说公司有一个设计师,在公司上班,我们付他的钱,肯定不准他天天去接私活,那他现在弄一个克隆人,他在我们公司上班,他的克隆人去接一些私活。
对于明星、名人或者是对于专家这些玩家,这些应该是收费的,因为它能够形成一个有效的商业闭环。一个月之内我们就会把第一批 300 个克隆人放出来。
市界:这些需求都能理解,但为什么是当下这个节点推出?
李笛:以前的技术使得我们满足需求比较难,因为你要花大量的时间去训练,但现在我们的基础和解决方案让这件事变得相对容易很多。
以前如果我想要去复刻你的声音,2016-2017年,最低需要你2万分钟的声音,现在只需要你几分钟的时候,这是技术的发展产生的变化。
像最近AI孙燕姿技术上是可以,但有侵权风险。小冰一直要求,本体需要提供权属证明。AI孙燕姿就没得到她本人许可。
我们推出的这个APP,只能通过这个产品去跟克隆人进行交流,这样的话风险会得到大大降低。明星自己去克隆自己,可以去指定克隆人愿意做什么,以及从中获得什么回报。
我们第一批的克隆人主要还都是有影响力的人。普通人也有,但是普通人的权属确定更难,而且需求数量太多,还是集中在大V身上。
他是个明星,我比较容易确定他的身份,他是一个普通人,我不那么容易确定他的身份。你正常情况,手持身份证拍一张照片,这也不太容易确定真假。第二是普通人的社交角色不清晰,不如明星的社交角色清晰。明星的社交角色也更容易得到做得好不好的反馈。
根据能够运转的算力、权属确定、并发的压力等各方面因素,我们认为,年底如果顺利的话,可以开放到 10 万人。别的都不提,只提网红,中国有 100 万个大网红,网红的粉丝2018 年就有6亿人。这是一个很大的市场。
市界:我们现在从一些趋势中看到,有人因为AI要失业,现在“克隆人”出来了,那是不是意味着老板们也可以去雇佣克隆人?
李笛:B 端的老板,不会像你自己对克隆人训练的那么精准,经过了非常高度的训练,让这个克隆人达到了你的水准,B 端老板将来雇的是你,他就会发现,他雇你的克隆人来干这件事,要好过他直接从 ChatGPT 上去获得。
比如一个画家,有非常强的绘画的能力,也积累了他的经验和他的名气,很多人需要他的画。他成立了一个工作室,花了很多的时间和精力教了学徒,就可以和他的学徒一起完成工作,甚至自己真正亲身参与工作会变得很少,他的学徒来完成工作,那他确保交付给顾客的这个作品是他的水平就可以了。
这个人就变成了训练者和把关者,他负责产出物的水准,他可以交付的量就大大增加了。
其实一样的。我们就是帮普通人把自己的价值大模型化。
TA 的价值如果是影响力,那么大模型化的是陪伴能力。TA 的价值如果是创造,那么大模型化了之后,实际上可以给更多人提供同等水平的创造。更多的人可以通过TA 的克隆人得到价值,回报就会回流到本人那儿去,有点像“躺着赚钱”的意思。
ChatGPT 的用户现在在回落,就是因为它的服务过于通用。
“AI孙燕姿需要有足够多的可控性”
市界:当一个克隆人真假难辨,从形象到声音,甚至是思考的方式都非常像本人,相应的风险因素会不会爆发?你们是怎么考虑这个问题的?是否会做一定的风险提示?
李笛:那当然,在小冰岛上就很简单。你碰到的都不是人。
任何一个克隆人,权属方就是他的本人,他随时是可以关掉他的克隆人的。如果我做一个克隆的比尔盖茨,比尔盖茨为什么会感到失控?因为这不是他能关闭的。
很难阻挡这个趋势,但可以通过一个合理的方式来进行。比方说, AI 孙燕姿阻挡不了大家有听她唱歌的需求,那为什么不能让孙燕姿自己推出自己的AI孙燕姿?经过很多本人的训练,让“AI孙燕姿”也符合她的要求。
开源,就会面临大量的良莠不齐的问题,以及无法解决的伦理问题。还有类似“恶搞”AI孙燕姿这种狂欢,但往往狂欢很快会落幕。
市界:你认为更真正持久的,这一波AI浪潮对人类的影响是什么?
李笛:真正持久的是两点。拿AI孙燕姿说,真正持久的是,一是孙燕姿本人接受AI孙燕姿的出现,因为用户有需求。
二是,孙燕姿能够拥有 AI 孙燕姿的应当的收益,以及“AI孙燕姿”存在与否和训练质量的权利。
当人们在消费 AI 孙燕姿的时候,做视频的B 站大 V 得到了投币,一键三连,得到了流量和经济利益的回报,但是孙燕姿没有。而且孙燕姿说不许你弄,说了也不管用,这个叫失控。
既然用的是孙燕姿的声音,就应该是孙燕姿本人来决定,如果她很传统,说我不同意AI孙燕姿出现,可能也是不行的,因为时代变了。孙燕姿可能并不是不同意,只需要是 own 它,这才是合理的,这两点缺一不可。
因此,我们需要一个更完备的一个平台,让“AI孙燕姿”能够有足够多的可控性。
明星至少有两个选择权。第一个选择权是,可以选择这么做或不这么做;第二个选择权是,当他选择这么做的时候,他可以获得应有的回报。我同意别人拿我的形象去做,但是我要获得我所认为的应当合理的报酬。这两件事是我们所提供的。但是开源的产品作为狂欢形式出现,就只有前者没有后者。
我们一直规避软色情风险,规避为此(擦边)提供便利。那某种程度上作为一个商业价值的平台,起来就会慢。像之前有一个App ,开车开的都开到天上去了,就能够在短时间之内窜红,但是它后来被下架了。
市界:可以理解为,风险问题都是人为的?
李笛:最主要还是你这个创造者、推出者,被资本裹挟的程度。
所有赚钱的事情都是在法律范畴内,就看创造者的选择了。还是那句话,现在属于笑贫不笑娼,你流量起来了,那你就是牛的。这个就不对嘛。你要看你要做多持久的问题。
“资本侵蚀了中国互联网的创新风气”
市界:小冰不久前才刚融了资,所以在资本的期待方面,你会有压力吗?
李笛:资本对我们的这种压力是一样的,对所有人的压力都是一样的。
小冰是我们的。如果有一天我们被资本裹挟了,那肯定不会是向好的方向发展。资本需要尽快展现盈利、商业赚钱能力,这是原因一。原因二,所有的作恶的手段都不是直接由资本的手段完成,所以资本在这上面的这种反思和反省是不足的,因为他没有真的去干这件坏事。
市界:具体到大模型的爆发上,大家也在讨论,为什么GPT没有发生在中国,是否是因为国内的商业环境,对于可落地的,可快速短期回报的项目会更看好一些。而像这种需要投大量的资金,花很长时间去做的,会难跑通一点,这可能是一个差距?
李笛:没错,我们从微软分开后体会到很多。这也一定程度能够解释,为什么中国的原生创新不容易。而是一窝蜂去同质化竞争。你看像现在大模型,十几家。
如果把唯利是图当作创新的一种,叫企业家精神,这个是不对的。
市界:大家现在一窝蜂的推出大模型,其实有一种被架上,不得不推的感觉,如果你不去在这个时间展现实力的话,好像在舆论场上就落了下风?
李笛:我可以这么做是因为我现在还能这么做。要真是一个上市公司……至少我现在我还有一个权力,投资人给我的建议,我可以不听,我可以不为了要求去跟风。
这种使劲乱发大模型,在前一阵还搞出来一个很奇特的一个榜单,把大模型排了一遍。
那有人希望我们也测一下上去了,挺有面子。我不会为了面子去这么干。
你上那个榜单,就不要在海外开展业务了。十几个大模型的公司,都挤在中国这个市场,中国市场再大,需要十几个大模型?
再看看那个榜单,就能看到一件事,凡是所谓的通用大模型的公司,都是在学GPT,甚至都是偷偷拿 GPT 来训练。结果就是同质化,现在谁跟谁都不会拉太多大的差距了。
你们要去看那个榜单,上面写的 10 项指标,要就按照那 10 项指标去做,不就是应试教育吗?最后就是一个模子刻出来的大模型。那这会是一个什么样的结果?这种结果可能会产生创新吗?
所以我们的困难就是,当我 say no,我说我不参与,是会付出很大代价的,但这是正确的事情。
当年我们不参与元宇宙风口的时候,也会有人不爽。现在元宇宙这么火,你干嘛不炒元宇宙概念。那你不炒,他肯定就不爽嘛。
我们现在对成功的定义,特别是,对商业成功的定义的标准过于单一。这是一个问题。因为小冰自己有可以交叉对比团队。日本的这个团队,他们对于事业成功、商业成功定义就很多元,中国市场的商业环境目前为止还是相对比较单一的,判断标准就是你挣多少钱。
大模型也是一样的,如果能够通过一些很低劣的手段去兼并,去吞并、去抄袭,只要你在财富上是成功的,那么就没问题。
包括在微软的时候,我们招一个中国人,对方往往在意的是他财富自由的机会。很明确的说,他就只在意这个。
前一阵,我看到的案例特别奇特。昨天说我们都太崇拜 OpenAI 公司了,这家公司太伟大了,开拓了人类科技的边界。今天就对中国团队说,你去挖OpenAI的人。我钱在这摆着,你什么时候把 OpenAI 的人挖过来,我就投你。你去公司门口去堵,等他能出来人,你就把他挖过来。
你不是尊重 OpenAI 的创新吗?他的人才团队不稳定了,你所尊重的这家公司,他的发展,他的创新不就不能继续了吗?这些人给一个刚毕业的 NLP 算法工程师,一个博士生 300 万的年薪,这不合理。
对很多工程师来说,有那个300万(的开价),我就算留在了这个60万的公司,我也不会太踏实了,我以后会时常后悔,我干嘛不去挣那 300 万呢?
市界:那为什么愿意支付这么高的溢价?
李笛:因为创业公司付给你那个 240 万,是他的融资成本,他挖来了一个人,以后就可以跟他的投资人说,你看,这是我的团队。投资人一看,欸不错,你这个团队不错,我给你钱,这 240 万是融资成本。
这是其一。其二,主动被动,明示暗示,把上一家公司的代码带过来,这个也是300万的成本。但是我们的算法工程师,就会以为这 300 万就是他自己价值。那么有一天有一个工作,这个工作可能有很好的梦想,那么对不起,没有 300 万他就不一定干了。他已经扭曲了他的价值观了。
这就是资本对创新的影响。
我们现在去看,大家就是一个非常浮躁和攀比的状态,又焦虑又浮躁。哪一天可能业务不做了,你前期的财富积累戛然而止,又觉得,即使有一天到 35 岁(财富积累)要戛然而止,那我前期要把钱赚够。整体的中国互联网风气感受到就是这样的,很难说,有一个可以让大家去安心做创新的环境。
作者 | 赵子坤
编辑 | 董雨晴运营 | 解一帆