首页 > 活动线报 > 每日福利 > 谷歌:GPT-4高阶心智理论彻底击败人类!第6阶推理讽刺暗示全懂了

谷歌:GPT-4高阶心智理论彻底击败人类!第6阶推理讽刺暗示全懂了

发布时间:2024-06-02 22:12:46来源: 15210273549

刚刚,谷歌DeepMind、JHU、牛津等发布研究,证实GPT-4的心智理论已经完全达到成年人类水平,在更复杂的第6阶推理上,更是大幅超越人类!此前已经证实,GPT-4比人类更能理解语言中的讽刺和暗示。在心智理论上,人类是彻底被LLM甩在后面了。

 

GPT-4的高阶心智理论(ToM),已经正式超越人类!

就在刚刚,谷歌DeepMind、约翰斯·霍普金斯大学和牛津大学等机构的学者发布的研究证实,GPT-4在心智理论任务上的表现,已经完全达到了成年人类的水平。

而且,它在第6阶推理上的表现,更是大幅超过了人类!


论文地址:https://arxiv.org/pdf/2405.18870

无独有偶,此前Nature子刊《自然·人类行为》的一项研究也证实了,GPT-4在心智理论上的表现已经位于人类水平之上,能够比人类更好地察觉出言语中的讽刺和暗示。如果你不这么觉得,那它大概率只是在隐藏实力而已。

总之,这前后脚的两项研究清晰地表明,如今表现最好的大语言模型,已经发展出广义的心智理论能力,而GPT-4,已经是其中的佼佼者。


所以,距离各位LLM用心智和权术把我们人类玩弄于股掌之间的那一天,还有多远?


高阶心智理论

 

这次的研究,探讨了LLM究竟能在多大程度上发展高阶心智理论(higher-order ToM)。

所谓高阶心智理论,就是人类以递归方式,推理他人的多种心理和情感状态的能力。

比如,「我认为你相信她知道」这句话中,就包含了非常复杂的多层推理,属于一个三阶陈述。

在以前,大部分相关研究,都集中在二阶ToM上。


用什么样的方法,能衡量出LLM对如此复杂问题的把握能力?

团队特意引入了一套手写测试套件——多阶心智理论问答测试。

而参与PK的选手,有5个LLM和一大群成年人。

 

每日福利更多>>

华为鸿蒙电脑评测:三倍流畅碾压Windows!折叠屏+星闪黑科技真强悍 2025年华硕天选6Pro和ROG枪神9能不能干过联想拯救者Y9000P? 小米自研3nm芯片对标苹果,未来将投入超2000亿 2025年最适合学生党的五款高性价比笔记本电脑推荐 小米15周年!搭载首款自主研发设计3nm旗舰处理器玄戒O1的小米15S Pro等产品发布 小米举办十五周年战略新品发布会:自研芯片玄戒O1与首款SUV YU7正式亮相 7620mAh+190W,vivo刚发布的新机仅售1487元,太狠了 vivo最新vivo S30系列颜值爆表,三丽鸥梦幻联动上线 荣耀登上热搜前排:官宣全球代言人肖战,粉丝晒单霸屏 618 电视选购不纠结!TCL T7L Pro深度体验报告 红米发力618,2K直屏+骁龙8至尊版,16GB+512GB从4299降至2999 小米:连续 19 季全球前三,未来投 2000 亿 推荐尊荣型 2025款腾势N9购车指南 2025款小鹏G6新车商品性评价 2.0T性能钢炮一口价11.98万!福特锐际卷出合资SUV新高度 实话实说:黄毛开SU7?只管加速快,不管生与死! 2025年清远市招聘事业编制高层次人才公告(6人) 2025年广东省连州市赴高校设点面向社会招聘编制教师公告(37人) 2025年珠海高新区科技产业局招聘合同制职员公告(2人) 2025年广州市白云区康园工疗站服务中心补录工疗站实务岗工作人员公告(2人) 2025年河北农业大学选聘工作人员公告 “运动轿跑007”三剑客对决,MG7凭借实力脱颖而出 上汽大众与上海置换“市补”完美叠加,外牌车主换新车就是现在! 尊界S800内饰首曝,以登峰造极的精致工艺,构建超豪新范式 一汽奥迪A5L大量信息曝光!不仅有华为智驾,还有彩电、大沙发 广汽本田P7用了什么黑科技,能从7大挑战中战胜Model Y? 坚持做自己 就是揽胜汽车豪华品牌的底气 这个星球上最炸的车展本周开幕,错过这些新车别后悔! 起价17.28万!2025款星纪元ET:改写增程SUV市场格局? 春节后国产手机好戏连台,小米15 Ultra杀到,OPPO出超薄折叠旗舰