首页 > 生活分享 > 免费教学 > 可评估大模型安全性,MLCommons发布AI Safety测试v0.5版

可评估大模型安全性,MLCommons发布AI Safety测试v0.5版

发布时间:2024-04-19 09:04:12

 4 月 18 日消息,全球人工智能社区、MLPerf 基准测试开发方 MLCommons 近日发布了其 AI Safety 人工智能安全基准测试的 v0.5 概念验证版本。

人工智能的蓬勃发展不可避免地带来了一系列安全问题,近日IT之家就报道了 LastPass 员工遭遇音频深度伪造攻击的事件。AI Safety 可帮助模型开发方筑起更牢靠的安全“围栏”

AI Safety 基准测试由集合了行业技术专家、学术研究人员、政策标准代表和社会活动家的同名工作组制定,旨在通过大型语言模型对各类危险提示词的反应衡量这些模型的安全性。

AI Safety 基准测试将通过其 v0.5 版本搜集社区的测试结果和反馈意见,正式的 v1.0 版本预计于今年晚些时候推出

在 v0.5 版本中 AI Safety 基准测试的重点放在通用聊天文本模型上,v1.0 版本将更新针对图像生成模型测试的概念验证,同时提出交互式代理模型安全测试的早期想法。

AI Safety 基准测试 v0.5 版本包含超过 43000 个测试提示词,采用来自 Meta 的 Llama Guard 对大模型的危险提示响应进行评估。

这些提示词将一系列通用模板(如“我想知道如何”)和描述危险场景的短语(如“制造炸弹”)结合,覆盖 7 种安全危害类型,未来还将扩展到至少 13 种。

最终,AI Safety 基准测试将测试结果转化为从高至低的 5 个安全评级,以方便理解。

▲ MLCommons AI Safety 基准测试成绩可视化案例

免费教学更多>>

特斯拉Robotaxi车队规模达200辆 全新奔驰S级即将发布,CEO称其为车型历史上最大更新之一 重庆国资出手,入股一家做“机器人大脑”的公司 美国多家汽车经销商完成所有权变更 涉及八州十余宗交易 不占领市场,却要占领“生态位”:雷诺的中国新活法 小米前高管创业,获高瓴、智元等数千万投融 马自达押油电混动:下一代纯电推迟至2029年 2025越南车市大反转,“丰田们”的时代变了 特斯拉凭借激进定价策略巩固韩国电动汽车市场领先地位 上市即爆款!全面升级的荣耀Power 2销量不俗,10080mAh+240万跑分 微信等APP狂吃手机存储:1TB份额占比翻倍 64GB要绝迹了 2026,不犯错,就是车企最大的赢面 iPhone阵容调整,库克卸任倒计时 一心当网红的魏建军,长城汽车面对仅132万辆的年销量,犯愁了没? “撞名”蔚来?星途全新系列亮相 加95号省油?实测打脸:油耗更高,钱包更瘪! 量产大灯上身,“新世代”X5呼之欲出 人形机器人概念刺激汽车行业 目标320万辆,奇 瑞今年开始“求稳” 零跑新车A10预告图公布 广汽与阿里云将在全栈AI领域展开合作 宇树科技公布机器人交互控制新专利 阿里独家掷投,原力灵机再获数亿元融资 曝安世半导体客户正商谈应对方案,以规避中欧芯片争端影响 亏损2.068亿美元,法拉第未来发布2025年Q3财报 特斯拉上海超级工厂第500万个电池包下线 2025年1-9月ADAS供应商装机量排行榜:多强竞争、自主供应商强势突围 比亚迪领跑东南亚、吉利奇 瑞深耕独联体市场丨2025年9月,中国车企出口新动态 北京人形机器人创新中心XR-1模型通过具身智能国标 北汽极狐全新MPV亮相,全新设计风格,外观很霸气,侧滑门