华大学计算机系副教授刘知远小学时写应用题,老会卡壳。他总会过度思考,从一个题目里读出多重含义。到了高中,写英语阅读理解时,这种感受更强烈了。
刘知远从未怀疑过出题人,反而怀疑是不是自己太笨了,“理解不了题目”。多年后深入学习语言哲学之后,他才渐渐意识到这其实是种天赋,“我就比较善于抓住语言里面那个不确定的地方”。
自然语言处理的本质就是消除这种不确定,让机器能够精确无误地理解人类的语言。刘知远前半生正是与这种不确定性缠斗的二十年。
特别是过去两年,搭上ChatGPT的便车,自然语言处理坐上了时光机,“从2023年到2024年所经历的这些新事情,比过去20年经历的总和还要多得多”。
回望中国大模型史,年届四十的刘知远是个绕不过去的人物。他参与缔造中国第一个大模型,又躬身参与了这一轮大模型创业。2022年8月,在ChatGPT发布的三个月前,刘知远发起成立了一家大模型公司——面壁智能。
这家公司最为出圈的一件事是,2023年6月3日,斯坦福大学一个学生团队发布的一个模型被发现是抄袭了面壁智能的模型。
面壁智能的办公室位于北京中关村东路1号院6号楼3 层,办公室的白墙上随处可见那句《三体》的经典台词,“这是面壁计划的一部分”。
图片由农健使用AI工具生成
GPT前传
1984年,刘知远出生在山东泰安新泰市一个普通工薪家庭,小学偶尔逃课去游戏厅玩,家里也没期待过他能上清华。他父亲在邮电局上班,还建议放弃初中直接读中专,方便以后接他的班。
没想到十几年后,刘知远以山东省前三十名的成绩,如愿进入清华大学。
当时正是互联网泡沫破灭之时,最热门的方向是建筑和生物医学,计算机专业并不是高分专业。刘知远报了建筑、生物工程和电子系,招生组反馈这些专业的名额已经被分数更高的同学占了,无奈选了计算机专业,“算是一个机缘巧合吧”。
读博时也是如此,报考生物信息学方向也是招满了,他阴差阳错进入了自然语言实验室,“我觉得非常幸运,因为五年之后生物信息学的导师自己都放弃了这个方向。”自然语言处理正好开始了高歌猛进的二十年。
刘知远清楚记得,读博期间,实验室有个大师兄做文本分类,“给你一篇文章,看能不能把它分到相关的类别里面,比如这篇新闻是社会新闻,还是国际新闻、军事新闻,或是别的新闻?”他的博士论文就是关键词提取,“通过统计的方法识别出文档到底哪个词,能代表文章主题的关键词。”
2012年成为一个分水岭,深度学习在大洋彼岸叩响了发令枪。当年10月,Geoffrey Hinton和他的两名学生——Alex Krizhevskyr,以及ChatGPT 的灵魂人物 Ilya Sutskeve,获得ImageNet图像识别比赛的冠军,并且发表论文介绍了第一个深度卷积神经网络模型AlexNet。ImageNet是斯坦福大学教授李飞飞创办的人工智能领域一个重要赛事,通过对机器算法识别图像,从而促进最先进算法的开发。
在处理图像识别、语音识别方面,深度学习的能力得到了广泛认可。在老师孙茂松的带领下,刘知远花了两个月寻找答案。可自然语言处理方向的大多数人的意见是,深度学习不能帮助自然语言处理。
最终刘知远得出一个结论:基于统计学习用符号去表示语言知识的这种传统路线,已经没有太多突破的可能,深度学习是个非常值得探索的新技术路线。正是基于这样的判断,“我们实验室应该是国内最早拥抱深度学习的团队”。
2017年,出现了Transformer的结构,2018年,出现了BERT这样的预训练模型。预训练大模型出现之前,自然语言处理都需要服务于某个特定目标。比如机器翻译,就要收集大量中英文的句子,更像是头疼医头、脚疼医脚。人类并不是生来就可以被培养成一个翻译家,而是要先成为具备通识能力的正常人。所谓的预训练模型,就是把人培养成具有通识能力的正常人的过程。
从深度学习到预训练模型,自然语言处理势如破竹,直到2022年11月,OpenAI发布了大语言模型ChatGPT。
第一个大模型
刘知远感受到来自大模型的震撼是在2020年5月GPT-3.0发布,“远超后来ChatGPT带来的震撼”。此前,刘知远还沾沾自喜于对BERT预训练模型,提出了一些原创改进的工作,“好像能够望其项背,甚至齐头并进”。
GPT-3.0让他瞬间慌了神,“我们算是国内最一线的团队,最多用两三张卡在一台机器上训一个模型,甚至觉得这种单机多卡训练是一个很大的挑战,让我震撼的是OpenAI 用了一万张卡训出了GPT-3.0”。
羞于找领导的刘知远,这次敲开了时任智源研究院理事长张宏江的门,“如果不尽快赶上的话,可能会被甩得很远”。当时学校不可能短时间内购买到大量的芯片,幸好他当时在智源研究院做青年科学家,了解到智源研究院正在鼓励最前沿的探索。
得益于智源研究院灵活的机制,2022年7月汇报情况,9月10台A100芯片已经到位, “大概花了几百万元”。当时的情况,国内完全没有经验,高性能计算专家陈文光团队帮助搭建起整个训练框架,“他们兴奋地装了一晚上,凌晨给我发了个消息说,装好了”。
经过20天左右训练,团队在2020年11月得到了一个26亿参数的大模型,“尽管是个非常小的预训练模型,可已经充分验证了GPT的技术路线是可行的”。
之后智源研究院训出了中国第一个大模型——悟道 1.0,这也成为中国大模型的“黄埔军校”。智谱清言、月之暗面、面壁以及零一万物的核心技术骨干,都与当时智源研究院的悟道项目渊源颇深。
“20年前,会有专家信誓旦旦告诉我,深度学习不可能在自然语言处理里面存活下来,10年前,很多人会觉得,你这个预训练模型这么耗费算力肯定不行,不可往下走。”哪怕是到了2022 年,大模型在智源已经形成共识,但从全国来讲仍然是非共识。
创办面壁智能,押宝端侧大模型,刘知远正是出于对AGI(通用人工智能)的信仰,他说,“我并不知道5年后、10年后会是什么样子,但是我非常坚定相信,未来这一波AGI浪潮,一定是远远超越2000年那次互联网的浪潮,远远超越2010年那次由个性化推荐所产生的一次浪潮。这个浪潮要大得多,它将会深远影响我们每个人的生活,每个人的工作,每个人的学习方式,甚至我们存在于这个世界上的方式。”
大模型浪潮来临之前,刘知远身上最知名的标签是“知乎大V”,共有 752 个回答,不少是抖机灵的神回复,他打趣说,“那是我年轻时写的那些回答,现在可能学生们都会比较怕我”。
2024年12月22日,在面壁智能的办公室里,刘知远向南方周末记者回顾了过去二十年的变革,对人工智能的未来展开了一次深入的对话。