首页 > 生活分享 > 免费教学 > 比人类便宜20倍!谷歌DeepMind推出“超人”AI系统

比人类便宜20倍!谷歌DeepMind推出“超人”AI系统

发布时间:2024-03-30 21:53:56来源: 15210273549

新智元导读】大模型的幻觉问题怎么解?谷歌DeepMind:用AI来做同行评审!事实核验正确率超过人类,而且便宜20倍。

 

AI的同行评审来了!

一直以来,大语言模型胡说八道(幻觉)的问题最让人头疼,而近日,来自谷歌DeepMind的一项研究引发网友热议:

大模型的幻觉问题,好像被终结了?

 

论文地址:https://arxiv.org/pdf/2403.18802.pdf

项目地址:https://github.com/google-deepmind/long-form-factuality

在这篇工作中,研究人员介绍了一种名为 "搜索增强事实性评估器"(Search-Augmented Factuality Evaluator,SAFE)的方法。

对于LLM的长篇回答,SAFE使用其他的LLM,将答案文本分解为单个叙述,然后使用诸如RAG等方法,来确定每个叙述的准确性。

 

——简单来说就是:AI答题,AI判卷,AI告诉AI你这里说的不对。

真正的「同行」评审。

另外,研究还发现,相比于人工标注和判断事实准确性,使用AI不但便宜20倍,而且还更靠谱!

 

目前这个项目已在GitHub上开源。

长文本事实性检验

大语言模型经常胡说八道,尤其是有关开放式的提问、以及生成较长的回答时。

比如小编随手测试一下当前最流行的几个大模型。

ChatGPT:虽然我的知识储备只到2021年9月,但我敢于毫不犹豫地回答任何问题。

 

Claude 3:我可以谦卑且胡说八道。

 

为了对大模型的长篇回答进行事实性评估和基准测试,研究人员首先使用GPT-4生成LongFact,这是一个包含数千个问题的提示集,涵盖38个主题。

LongFact包含两个任务:LongFact-Concepts和LongFact-Objects,前者针对概念、后者针对实体。每个包括30个提示,每个任务各有1140个提示。

 

然后,使用搜索增强事实性评估器(SAFE),利用LLM将长篇回复分解为一组单独的事实,并使用多步骤推理过程来评估每个事实的准确性,包括使用网络搜索来检验。

此外,作者建议将F1分数进行扩展,提出了一种兼顾精度和召回率的聚合指标。

免费教学更多>>

预算二十多万,想买辆既能家用又能越野的SUV?不妨看看方程豹豹 5 2024款丰田卡罗拉锐放车型介绍及落地价参考 这款电动轿车,高颜值,高性能,引领未来出行! 东风纳米01 330km 6.58万与吉利星愿 310km 6.98万,谁是性价比之王? 五菱宏光MINI:爆款小车,真香还是劝退?购车难题,你猜得到吗? 越野皮卡王者归来,新款丰田坦途,动力强劲,长城炮地位不保? 德系三强争霸:奔驰、宝马、奥迪谁才是真正的老大? 重磅!宝马将推出全新长轴5系曜夜版! 奔驰、宝马、奥迪、沃尔沃,传统豪华品牌2025新车大曝光 理想高管评豪华品牌周销量榜单:奔驰还是厉害 2025特斯拉Model Y Launch Series详细解析,豪华与性能兼备! 我校跃居2024中国大学海外网络传播力排名内地高校20强 512G新机1189元,vivo y200t 成LCD手机性价比之王 手机“国补”新政实施第4天,叠加商家新春优惠带动市民换机热 制作人承诺:《最终幻想7》重制项目第三部不会是索尼PS6独占 小米15 Pro使用感受分享,全能旗舰机非它莫属 华为Mate60 Pro还值得买吗?华为Mate60 Pro实测:依旧是市场的王者 华为近三年收入差距:22年6423亿,23年7042亿,24年是多少? 2024年SUV油耗排名:1~215名,荣放、探歌低于8个,最高是坦克500 试驾完新一代本田思域,才发现它比想象中更值得!真的\"卷\"成这样 广汽传祺S7实车现身,配冰箱彩电大沙发,搭500马力+续航超1000km 五菱:扎根人民,驱动创富与时代前行的民族之光 搭1.5T动力,轴距2735mm,本田思域如何 搭载固特异鹰驰F1六代的奔驰C级,豪华驾享体验的王者选择 2025年比亚迪新技术汇总,以及上新车型,凭此能否进入全球前三? 一汽丰田亚洲龙 舒适性与稳定性的双重卓越 平替五菱宏光,2025丰田VELOZ廉价MPV车型亮相 三星Galaxy S25系列正式发布,Ultra版本采用超轻薄设计 零跑T03欧洲“逐梦”:对标菲亚特500,能否后来居上? “小年”换新超划算 京东家电家居年货节爆款好物5折起售