尽管亮相时被OpenAI压了一头,但谷歌一直在悄悄迭代Gemini大模型,和OpenAI最新大模型GPT-4o的差距已经显著缩小。最新测试结果显示,Gemini 1.5 Pro/Advanced在综合测试中排名第 2,逼近GPT-4o,轻量版Gemini 1.5 flash排名第9,超越 Llama-3-70b,接近GPT-4。
相比4月份的版本,免费的Gemini Pro和Flash的能力有明显加强。且上下文长度可以达到100万token,远远超出GPT-4的12.8万token。
Gemini的中文能力更是惊艳,在中文测试中,Gemini Pro和Advanced双双超越GPT-4o,分别排在第一、第二位。
此外,在Hard Prompts测试中,Gemini同样名列前茅。在Hard Prompts测试中,大模型需要面对那些更具挑战性的问题,Gemini 1.5 Pro在这一测试中排名第二,仅次于GPT-4o.
从大模型置信区间(Confidence Intervals)来看,Gemini的测试结果也名列前茅。