首页 > 生活分享 > 免费教学 > 比人类便宜20倍!谷歌DeepMind推出“超人”AI系统

比人类便宜20倍!谷歌DeepMind推出“超人”AI系统

发布时间:2024-03-30 21:53:56来源: 15210273549

新智元导读】大模型的幻觉问题怎么解?谷歌DeepMind:用AI来做同行评审!事实核验正确率超过人类,而且便宜20倍。

 

AI的同行评审来了!

一直以来,大语言模型胡说八道(幻觉)的问题最让人头疼,而近日,来自谷歌DeepMind的一项研究引发网友热议:

大模型的幻觉问题,好像被终结了?

 

论文地址:https://arxiv.org/pdf/2403.18802.pdf

项目地址:https://github.com/google-deepmind/long-form-factuality

在这篇工作中,研究人员介绍了一种名为 "搜索增强事实性评估器"(Search-Augmented Factuality Evaluator,SAFE)的方法。

对于LLM的长篇回答,SAFE使用其他的LLM,将答案文本分解为单个叙述,然后使用诸如RAG等方法,来确定每个叙述的准确性。

 

——简单来说就是:AI答题,AI判卷,AI告诉AI你这里说的不对。

真正的「同行」评审。

另外,研究还发现,相比于人工标注和判断事实准确性,使用AI不但便宜20倍,而且还更靠谱!

 

目前这个项目已在GitHub上开源。

长文本事实性检验

大语言模型经常胡说八道,尤其是有关开放式的提问、以及生成较长的回答时。

比如小编随手测试一下当前最流行的几个大模型。

ChatGPT:虽然我的知识储备只到2021年9月,但我敢于毫不犹豫地回答任何问题。

 

Claude 3:我可以谦卑且胡说八道。

 

为了对大模型的长篇回答进行事实性评估和基准测试,研究人员首先使用GPT-4生成LongFact,这是一个包含数千个问题的提示集,涵盖38个主题。

LongFact包含两个任务:LongFact-Concepts和LongFact-Objects,前者针对概念、后者针对实体。每个包括30个提示,每个任务各有1140个提示。

 

然后,使用搜索增强事实性评估器(SAFE),利用LLM将长篇回复分解为一组单独的事实,并使用多步骤推理过程来评估每个事实的准确性,包括使用网络搜索来检验。

此外,作者建议将F1分数进行扩展,提出了一种兼顾精度和召回率的聚合指标。

免费教学更多>>

养老机器人即将普及!比人类护工更靠谱,你能接受的价格是多少? 零跑C11“天神之眼”智能驾驶辅助系统和腾势Z9的相比哪个更好? 面壁智能创始人刘知远:我们应该把AI看作是一个工具 传小红书商业化架构调整 官方暂无回应 为何这场直播引发43万人在线关注? 国补政策2025最新消息:京东率先上线,买3C数码手机产品高至立减2000元! 房企400多次举牌激战北京土拍,海淀两块地开年豪收182亿元,12月二手房网签量大增 异地存款利息更多!从1.95到3%的利率差形成“特种兵式存款”现象 房贷利率大跳水,你的钱包准备好了吗? 2025 年“iPhone”会怎样? --期待比平时更大的变化 苹果官网官宣降价引关注 记者探访:直营店手机最高降价500元 vivo手机轻松开启OTG功能,让你设备互联无忧! 荣耀的前世今生:从华为到独立的传奇之旅。 2024年折叠屏降温 AI加速渗透手机 传音OV竞逐全球四五名 接近“零差评”的3款高端机,信号好性能强,一步到位用六年 索尼收购《血与灰烬中而来》系列版权,打造奇幻爱情新剧 LG发布两款Lifestyle投影仪,打造沉浸式家庭影院 小米2025第一颗炸弹,是这1999元的性能神机? 千元机又卷出新高度!华为畅享 70X开启预售,通信续航皆有大升级 国补政策2025最新消息:2025年国家补贴新增手机3C数码产品,华为最高优惠千元! 5.3秒破百,13.59万买纯电SUV,动态试驾领克Z20 最受欢迎的5款中大型SUV!德系占1席国产占4席,买车前做个参考 全年热销25万台 帕萨特家族2024年完美收官 禾赛科技、速腾聚创先后出手 国内激光雷达企业抢占机器人赛道 小小的也很可爱!复古mini手柄的初体验!---良值mini小手柄 上汽奥迪A7L和宝马5系,谁才是豪华运动轿车首选? 智己汽车和腾势Z9的安全技术各有什么特点? 星途联赛S7英雄联盟决赛,稳健VS激进,谁能最后能出? 不光性能出众还很顾家 试驾东风奕派007 江淮大地上 中国电信数字助力“邮” 刃有余