人工智能的发展不是线性的,而是指数式的。指数式发展的特点是越往后越突破你的想象。本文是对最近AI领域发展情况的一次盘点,文章来自编译。
过去的一个月彻底改变了人工智能的现状,而最近一周,这个变化的速度更是显著加快。AI 实验室推出了一系列新产品——部分具有革命性,部分属于渐进式改进——让人难以跟上节奏。我相信,这些变化当中有几项属于真正突破,它们将重塑人工智能的未来,也许也包括我们的未来。以下是当前的最新情况:
聪明的AI现已无处不在
去年年底,唯一公开可用的GPT-4/Gen2级别模型是GPT-4。但现如今,这类模型已经多达六到十个,其中部分模型甚至开放权重,任何人都可以免费使用或修改。美国这边有OpenAI的GPT-4o、Anthropic的Claude Sonnet 3.5、Google的Gemini 1.5、Meta的开源模型Llama 3.2、Elon Musk的Grok 2以及亚马逊的新Nova。中国也推出了三种似乎达到GPT-4级别的多语言开源模型,阿里巴巴的Qwen、R1的DeepSeek以及01.ai的Yi。欧洲的唯一玩家是法国的Mistral。各种名字的大模型背后传递的信息是,构建高性能人工智能并不需要OpenAI独有的“魔法配方”,而是需要计算机科学人才以及训练模型所需的芯片和算力。
实际上,GPT-4级别的人工智能发布时曾令人震惊,引发了对未来的广泛焦虑,但如今它已经可以运行在我的家用电脑上。Meta本月发布的最新小型模型Llama 3.3就具备了类似的性能,并且可以完全离线运行在我的游戏PC上。而微软的新型微型Phi 4同样达到了GPT-4级,且几乎在手机上就可运行,而其稍弱的前身Phi 3.5已经完全可以在手机上运行。可以说,这种“一定程度的智能”已经触手可及。
正如我之前讨论过那样,这些无处不在的人工智能现在开始支持智能体了。这些智能体可是能够追求自己目标的自治AI。之前我曾用早期智能体做过比价以及建筑工地的监控,你能看出这意味着什么。
非常智能的AI已经到来
这意味着,如果GPT-4级别的表现就是AI所能达到的最高水平的话,就已经足以让我们用五到十年时间的持续改变才能适应它们的能力。但目前并没有迹象表明AI的发展准备要踩刹车了。我们知道这一点,是因为过去一个月还有两项重要发布——Gen3模型的初次亮相(可看作GPT-5级的模型)以及o1模型的发布。这些模型能够在回答之前先“思考”,从而令其推理能力远超其他大语言模型。目前Gen3还处在早期阶段,因此本文只想重点谈谈o1。
我在o1-preview版本发布时曾经提到过,但后续推出更复杂的o1和o1-pro极大地提高了该模型的能力。这些模型在回答问题之前会花时间在背后“思考”——模仿人类的逻辑问题解决过程。这种方法被叫做测试时计算(test time compute),事实证明这是提升模型问题解决能力的关键。实际上,这些模型现在足够聪明,可以在许多领域的研究做出有意义的贡献,无论是大规模的还是小规模的。
举个有趣的例子,我读到一篇谈最近社交媒体恐慌的文章——一篇学术论文声称,黑色塑料餐具可能会令人中毒,因为这些东西部分是由回收电子垃圾制成。该文章提出,一种名为BDE-209的化合物可能会用极高的速度从这些餐具浸出,接近美国环保署规定的安全剂量临界值。许多人因此扔掉了自己的锅铲,但麦吉尔大学的Joe Schwarcz认为这个结论不合理,并发现了论文第七页的一个数学错误:作者将BDE-209的剂量错误地乘以了10倍——但论文作者以及同行评审都没注意到这个。我很好奇o1能否发现这个错误。于是,我用手机将PDF文本粘贴进去,然后键入:“仔细检查这篇论文里面的数学计算。”输入就只有这些,o1一下子就发现了这个错误(其他AI模型并没有发现)。
当模型不仅能够处理整篇学术论文,还能够理解“数学检查”这一任务的上下文,并且成功检查出问题时,这已经从根本上改变了AI的能力。实际上,我的实验以及其他人所做的类似尝试已经让人拟定了一项研究计划,试图了解o1发现科学文献存在错误的频率。目前我们还不知道o1能以多高的频率完成这样的壮举,但显然这值得进一步探索,因为这标志着能力迈向新的前沿。
即便是o1的早期版本preview model,也似乎代表了科学能力的一次飞跃。一篇由哈佛大学、斯坦福大学以及其他研究机构的研究人员撰写的医学工作论文就震撼了学界。论文得出结论:“o1-preview在鉴别诊断、诊断性临床推理和管理推理方面表现出了超人能力,在多个领域优于上一代的模型以及人类医生。”虽然这篇论文尚未经过同行评审,并不意味AI可以取代医生,但这个发现与上述结果共同表明,在不久的将来,不拿AI作为第二意见可能会是一种错误。
可能更重要的是,有越来越多的研究人员告诉我,o1,尤其是 o1-pro,正在生成新颖想法,解决其所在领域那些意想不到的问题。问题是,现在只有专家才能评估人工智能是错还是对。比方说,我非常聪明的沃顿商学院同事 Daniel Rock 让我向 o1-pro发起挑战:“让它用文献里面没有的证明来证明神经网络的通用函数逼近定理,要求不能 1)假设层无限宽以及2)超过 2 层。”
这种说法对吗?我不知道。这已经超出了我的专业范畴。丹尼尔等专家乍一看也无法判断它是否正确,但觉得这件事情足够有趣,值得研究。事实证明,该证明是有错误的(尽管与 o1-pro 进行更多交互可能会修复这些错误)。但这样的结果还是提供了一些激发进一步思考的新方法。正如丹尼尔指出那样,研究人员使用 o1 时不需要它做到正确才有用:“要求 o1 用创造性的方式完成证明其实是要求它成为研究同事了。这个模型不必做到证明正确才有用,它只需帮助我们成为更好的研究人员就行了。”
我们现在拥有的人工智能似乎能解决非常困难的博士级问题,或者至少可以作为研究人员的协同智能来有效解决这些问题了。当然,问题是,除非你自己是某个领域的博士,否则你其实并不知道这些答案正确与否,这给人工智能评估带来了一系列新挑战。需要进一步测试才能了解它能有多大用处,以及在哪些领域有用,但人工智能的这一新前沿能力仍值得关注。