理想汽车董事长兼CEO 李想
理想汽车智能空间AI负责人 陈伟
腾讯新闻科技主笔 张小珺
李想,这位公认的理想汽车产品“天花板”,怎么就觉得自己成了“瓶颈”?
决定“All in AI”的李想,期待实现AGI(通用人工智能)的“iPhone 4时刻”,让普通人也能轻松使用。他强调简洁的产品设计、长期的技术投入和坚定的用户价值导向,还对汽车行业竞争、企业管理和个人成长有了新的认识。
全力以赴迈向“成为全球领先的人工智能企业”的目标,李想的欲望只有成长。腾讯新闻科技主笔张小珺深度对话理想汽车董事长兼CEO李想、空间AI负责人陈伟,以下为访谈节选。
01到Agent阶段,才是真正的“iPhone 4时刻”。
张小珺:你第一次用ChatGPT是什么时候,当时是什么感受?
李想:发布的时候就用了,当时一个最大的感觉就是,人工智能应该有的样子。
张小珺:如果让你做OpenAl的CEO,你会比Sam做得更好吗?
李想:不会,我觉得Sam Altman他们做得非常成功。
张小珺:如果现在让你做OpenAI的CEO,你会做什么?
李想:今天还是OpenAl定义的AGI(通用人工智能)第一个阶段:聊天机器人,我觉得OpenAl完全按照这个定义做了最好的产品体验。第二个阶段是推理者,到第三个阶段Agent(智能体)的时候,才是真正的“iPhone 4时刻”,普通老百姓都能用了,它能独立地、持续地、连续地完成任务,而不需要靠密集的提示词。但这时候产品应该是个什么交互,对于所有的这些头部企业,都是应该要认真去思考的。
02让人和Al之间的交互,像人与人交互一样自然。
张小珺:为什么一个车企要自研大模型?这个决策是怎么做出的?
陈伟:这个事情也是逐渐达成共识的,我们当时已经把线上的关于自然语言处理的技术,切换到了预训练的模式下,任务型对话能够在车里面,做车控、媒体、导航这样非常多垂域的覆盖,上面用预训练的模式能够快速高效地、高质量地完成这样的能力。
2022年年底,ChatGPT发布了,我们看到了大模型带来的认知智能和语言智能上突飞猛进的变化,这件事情对我们来说是有非常大震撼的。我们内部也在想,为什么我们没有快速地考虑把这个模型架做得那么高那么大。
后来想哥就提了一个话题,他说现在我们应该回归用户体验,核心的问题在认知智能上面。那么认知智能这件事,我们就需要考虑怎么把技术做升维,能够用更厉害、更先进的技术,把理想同学的认知快速拉上来,把天花板拉高。这件事对于我们后面去做基座模型,我觉得是指引性的状态。
所以我们必须要从基座,从底层开始建设,这样未来我们在做更多技术创新的时候,产品和研发才能有更快速的迭代,体验才能持续地去做创新,而不是只做行业的一个平均水平。
张小珺:作为一个后来者,你们准备怎么追赶ChatGPT?
陈伟:我觉得OpenAl现在是整个行业的标杆,除了目前OpenAl宣称进入L2(推理者)以外,绝大部分的团队现在还停留在L1(聊天机器人)这个阶段。在这样的一个状态下,技术处于早期,而我们在做一个无限游戏。探索边界还不清晰的情况下,我们最重要的事情就是把握住目前的第一性原理Scaling Law(规模效应)。
我们的迭代也非常快,去年年底12月OTA 5.0之后一直到现在,Mind GPT 云端的大模型已经迭代了30多次。
张小珺:Mind GPT 是怎么迭代的?
陈伟:Mind GPT 到现在为止一共经历了三代。
2023年4月,Mind GPT 1.0的第一版模型出来,到2023年年底的时候,我们车机的OTA 5.0发布了这个大模型的上车,是行业第一家把大模型推动上车的公司,也是(汽车行业)首家通过国家大模型备案的。2023年年底上车的时候,其实已经经历了第六个版本。
今年年中,我们完成了 Mind GPT 2.0的变化,对于我们算法团队来说,除了关注模型效果的提升以外,还要关注整个训练效率和推理效率。Mind GPT 未来的模型架构,肯定会是一个MoE(混合专家模型)加Transformer的结构,会持续往前迭代,我们在MoE模型上线的时候,相较于 Mind GPT 1.0大概翻了一倍,但是推理成本跟 Mind GPT 1.0基本保持一致。这样在效果和效率上,就达到了一个我认为是双赢的局面。Mind GPT 2.0的重点在语言的理解和知识上,另外一块是在长上下文上有了比较大的突破,也就是在逻辑推理能力上做了进一步的强化。
今年年底,我们会上线 Mind GPT 3.0,这是我们的第三代的 Mind GPT 的能力。Mind GPT 3.0相较于前面两代的核心不同在于,以前我们的重点放在了语言模型上,但是我们认为未来的在人机交互的过程中,它应该是一个多模态的端到端的大模型,应该融合了整个人机交互的体系里,像语音、视觉、语言这样的模态进去,能够理解不同的模态,然后能够在一个模型内完成从感知到认知再到表达的完整能力。这样的好处就是它能够让人机交互的延迟,从以前的比如说几秒钟变成可能500毫秒以内,这样人和机器、人和Al之间的交互,就能像人与人交互一样这么自然。
张小珺:这是多大规模的数据量?
陈伟:我们现在的预训练数据规模量已经到10万亿Token的规模了,有了高质量的课本知识以外,我们还需要给大模型提供一个由简单到复杂、由粗到精的一个过程,让它逐渐地一步一步去学习。所以我们在预训练后训练阶段,也要构建一套分段学习的逻辑,同时在数据的构建上,我们要考虑怎么能给它建立一套好的学习逻辑,所以现在重要的就是要尽快地把强化学习后训练的事情做好。
张小珺:你们有一些特色化的数据吗?
陈伟:第一个是多模态的数据,有自动驾驶的,也有理想同学的对话模态,这些数据是独有的。第二个是用户在产品里自己使用的数据,代表了你的场景或产品本身场景的一些特性,这也是自己独有的,所以我们也在构建自己的数据飞轮,争取能够把这些数据的能力进一步发挥出来。
03不做人工智能,我们就什么都不是。
张小珺:理想同学跨越到L3(智能体)的点会是什么?
陈伟:对于逻辑推理来说,更重要的是做好子任务分解以后,还要让它针对自己的思考方式去做更多的发散性思考,在每一个思考路径上做出自己的反思,做到自我纠错。甚至忽然间碰到死胡同的时候还能回溯回来,所以我觉得这是一个非常强的思考能力。
我们的重心是希望能够实现从L1 ChatBot(聊天机器人)到L2(推理者)的变化。我们定义L1有两个核心的特点,第一个是能够实现多模态,因为人就是能听会看的,所以我们认为语音和视觉加入到大模型是非常关键的。第二个是指令遵循的能力,能够听得懂人在跟它讲什么,再复杂的命令也能听得懂,并且能够比较准确地执行。
所以支撑理想同学的技术,就是 Mind GPT 的多模态智能体的技术,理想同学走到L3的时候,Mind GPT 应该长成的样子,就是一个多模态智能体。
张小珺:现在大家都觉得预训练的Scaling Law(规模效应)达到了天花板,这对于中国团队的影响是什么?
陈伟:如果我们想做好后训练,我们依然需要有个好的基座模型,因此我们依然需要去具有自己的预训练的Scaling Law(规模效应)。
这件事情短期内会出现,会传出来有些公司在模型做得更大以后,效果可能没有想象中的明显,但我认为这个可能还是一个从AI的算法到Al的infra之间,目前的有些要待攻克的问题。
第二个点我觉得Scaling Law(规模效应)本身在解决的问题是模型的效果和数据和模型规模之问的关系。我们越来越觉得数据不只是规模的,需要有高质量的数据才能把规模做上去,才真正有价值。
所以这个过程中可能大家对于Scaling Law(规模效应)的看法也会有一个粗到精的过程,理解才能更深刻,但是我认为这个肯定会是大模型时代的第一性原理