华为自研盘古大模型,跳级迭代!
HDC 2024上,没有4.0,直接发布5.0。
最新系列覆盖十亿、百亿、千亿、万亿四种规模,分别针对当下大模型领域的不同应用需求。
同时还强调了多模态和强思维两方面属性。
具体能力有多强?
华为直接现场演示搭载了盘古大模型的人形机器人。
它能从多个物体中找到可以喝的那一个,递给口渴的人类。
据介绍,盘古大模型能让机器人完成10步以上的复杂任务规划。
而且盘古大模型还能生成机器人需要的训练视频,让它更快学习各种复杂场景。
同样的思路还被用在了自动驾驶领域。
盘古大模型能够理解并遵循物理规律,生成视觉上逼真、车辆行为、环境互动真实的训练视频。
比如让它生成在傍晚下雨行车场景,它在学习过程中自动理解到了“开车灯”这个行为,并在生成视频中模拟出了这个细节。
鸿蒙系统也用上了最新盘古。华为智慧助手小艺的多模态能力,就得益于盘古。
除了能力展示外,在现场,华为还直接揭秘盘古背后技术细节。从数据到训练方法,都做了更进一步说明。
当然还有原生鸿蒙的一系列最新进展,从架构到生态,这次都可谓是“有史最大升级”。
普通用户(P70、Mate60等)最早今年8月就能体验到Beta版了。
盘古5.0三大升级
盘古5.0主要包含4种参数规格:
十亿级的Pangu E系列:支撑手机、PC等端侧的智能应用;
百亿级的Pangu P系列:适用于低时延、低成本的推理场景;
千亿级的Pangu U系列:适用于处理复杂任务,可以成为企业通用大模型的底座;
万亿级的Pangu S系列:处理跨领域多任务的超级大模型。
强调的两大能力为:
多模态
强思维
多模态方面,盘古大模型5.0能够更好更精准地理解物理世界,包括文本、图片、视频、雷达、红外、遥感等更多模态。
比如,它能从清明上河图中精准找到“赵太丞家有几口人”。在原画中,这部分的占比不到1/200.
在生成方面,盘古5.0,可以生成符合物理世界规律的多模态内容,让创新随心所欲。
得益于可控时空生成技术(STCG),模型有了对物理规律的理解能力。
在自动驾驶方面,盘古大模型可以生成六摄像头视角视频,而且对细节的把控很好,让自动驾驶系统可以直接获取到全方位、高仿真度的训练素材。
例如,车辆在不同摄像头视角间的平滑过渡,以及在不同天气和光照条件下行驶的自然表现,都显示了模型对空间和时间维度精准把握的能力。