|

聚人网
2000活跃值=1元

首页 > 生活分享 > 免费教学 > 比人类便宜20倍！谷歌DeepMind推出“超人”AI系统

比人类便宜20倍！谷歌DeepMind推出“超人”AI系统

发布时间：2024-03-30 21:53:56来源： 15210273549

新智元导读】大模型的幻觉问题怎么解？谷歌DeepMind：用AI来做同行评审！事实核验正确率超过人类，而且便宜20倍。

AI的同行评审来了！

一直以来，大语言模型胡说八道（幻觉）的问题最让人头疼，而近日，来自谷歌DeepMind的一项研究引发网友热议：

大模型的幻觉问题，好像被终结了？

比人类便宜20倍！谷歌DeepMind推出“超人”AI系统

论文地址：https://arxiv.org/pdf/2403.18802.pdf

项目地址：https://github.com/google-deepmind/long-form-factuality

在这篇工作中，研究人员介绍了一种名为 "搜索增强事实性评估器"（Search-Augmented Factuality Evaluator，SAFE）的方法。

对于LLM的长篇回答，SAFE使用其他的LLM，将答案文本分解为单个叙述，然后使用诸如RAG等方法，来确定每个叙述的准确性。

比人类便宜20倍！谷歌DeepMind推出“超人”AI系统

——简单来说就是：AI答题，AI判卷，AI告诉AI你这里说的不对。

真正的「同行」评审。

另外，研究还发现，相比于人工标注和判断事实准确性，使用AI不但便宜20倍，而且还更靠谱！

比人类便宜20倍！谷歌DeepMind推出“超人”AI系统

目前这个项目已在GitHub上开源。

长文本事实性检验

大语言模型经常胡说八道，尤其是有关开放式的提问、以及生成较长的回答时。

比如小编随手测试一下当前最流行的几个大模型。

ChatGPT：虽然我的知识储备只到2021年9月，但我敢于毫不犹豫地回答任何问题。

比人类便宜20倍！谷歌DeepMind推出“超人”AI系统

Claude 3：我可以谦卑且胡说八道。

比人类便宜20倍！谷歌DeepMind推出“超人”AI系统

为了对大模型的长篇回答进行事实性评估和基准测试，研究人员首先使用GPT-4生成LongFact，这是一个包含数千个问题的提示集，涵盖38个主题。

LongFact包含两个任务：LongFact-Concepts和LongFact-Objects，前者针对概念、后者针对实体。每个包括30个提示，每个任务各有1140个提示。

比人类便宜20倍！谷歌DeepMind推出“超人”AI系统

然后，使用搜索增强事实性评估器（SAFE），利用LLM将长篇回复分解为一组单独的事实，并使用多步骤推理过程来评估每个事实的准确性，包括使用网络搜索来检验。

此外，作者建议将F1分数进行扩展，提出了一种兼顾精度和召回率的聚合指标。

比人类便宜20倍！谷歌DeepMind推出“超人”AI系统

【返回列表】

特别声明：以上内容(如有图片或视频亦包括在内)为“聚人网用户上传并发布"，本平台仅提供信息存储服务。

下一篇:比人类便宜20倍！谷歌DeepMind推出“超人”AI系统

上一篇:与会嘉宾高度关注：人工智能如何实现“智能向善”？

免费教学更多>>

岚图L3智能架构引热议！车主吐槽“变懒”，高管回应安全黑科技 3款新品重磅齐发江淮1卡玩转全场景运输新价值智能电动汽车强监管，沃尔沃全新XC90的安全叙事恰逢其时上海车展的祛魅时刻到了捷途奔着加长买，明年别墅临着海蔚来最便宜新车开卖！不到12万起，预售价打了8折哈弗枭龙MAX二代上市：混动四驱SUV能否重塑市场格局？官方禁用“智驾”宣传，宝马的“保守”策略成了大赢家？预算二十多万，想买辆既能家用又能越野的SUV？不妨看看方程豹豹 5 2024款丰田卡罗拉锐放车型介绍及落地价参考这款电动轿车，高颜值，高性能，引领未来出行！东风纳米01 330km 6.58万与吉利星愿 310km 6.98万，谁是性价比之王？五菱宏光MINI：爆款小车，真香还是劝退？购车难题，你猜得到吗？越野皮卡王者归来，新款丰田坦途，动力强劲，长城炮地位不保？德系三强争霸：奔驰、宝马、奥迪谁才是真正的老大？重磅！宝马将推出全新长轴5系曜夜版！奔驰、宝马、奥迪、沃尔沃，传统豪华品牌2025新车大曝光理想高管评豪华品牌周销量榜单：奔驰还是厉害 2025特斯拉Model Y Launch Series详细解析，豪华与性能兼备！我校跃居2024中国大学海外网络传播力排名内地高校20强 512G新机1189元，vivo y200t 成LCD手机性价比之王手机“国补”新政实施第4天，叠加商家新春优惠带动市民换机热制作人承诺：《最终幻想7》重制项目第三部不会是索尼PS6独占小米15 Pro使用感受分享，全能旗舰机非它莫属华为Mate60 Pro还值得买吗？华为Mate60 Pro实测：依旧是市场的王者华为近三年收入差距：22年6423亿，23年7042亿，24年是多少？ 2024年SUV油耗排名：1~215名，荣放、探歌低于8个，最高是坦克500 试驾完新一代本田思域，才发现它比想象中更值得！真的\"卷\"成这样广汽传祺S7实车现身，配冰箱彩电大沙发，搭500马力+续航超1000km 五菱:扎根人民，驱动创富与时代前行的民族之光

Copyright 2018-2025 聚人网版权所有京ICP备20190895号