5月17日讯(记者 朱凌)近日,OpenAI用一场26分钟的线上直播展示了GPT-4o带来的惊艳交互能力,将新一轮AI争霸带入了“Her 时代”。GPT-4o的“o”代表“omni”,一词意为“全能”,该模型能够实现无缝的文本、视频和音频输入,并生成相应模态的输出,真正意义上实现了多模态交互。
紧随其后一天,年度Google I/O开发者大会如期而至,谷歌CEO Sundar Pichai宣布了一系列围绕其最新生成式AI模型Gemini的重大更新,全面反击OpenAI,其中就有由升级后Gemini模型驱动的AI助手项目Project Astra、对标Sora的文生视频模型Veo等。
本周AI战场暂告一段落,《科创板日报》记者对AI界的“明星”选手——谷歌Gemini 1.5 Pro(100万tokens)、OpenAI最新升级的GPT-4o与此前发布的GPT-4进行了一场能力评测。
▍文本测试:谷歌Gemini 1.5 Pro正确率和速度完胜GPT-4o和GPT-4
OpenAI发布GPT-4已过去一年多,据介绍,此次推出新旗舰模型GPT-4o的推理能力有明显的提升,速度快了,价格也下降了。
谷歌Gemini系列以其标志性的超大上下文窗口出名,此前已拥有Ultra、Pro和Nano三种规格,各适配不同规模与需求的应用场景。本次发布会宣布,迭代后的Gemini 1.5 Pro 的上下文长度从原有的100万tokens(语句单位)提升到了200万tokens。这一改进显著增强了模型的数据处理能力,使其在处理更加复杂和庞大的数据集时更加游刃有余。
两家公司都对自己的大模型的升级换代展现出自信姿态,但情况还需要实际验证。
第一题是“事实回答题”,只有谷歌Gemini 1.5 Pro模型回答正确,它能辨别出“螺丝钉并不是一种食品”这一事实。