首页 > 生活分享 > 免费教学 > 语料数据如何赋能大模型产业发展?语料运营平台1.0在沪发布

语料数据如何赋能大模型产业发展?语料运营平台1.0在沪发布

发布时间:2024-07-07 12:07:44

高质量、大规模、安全可信的语料数据资源是AI时代的重要基石。高质量语料数据如何高效供给赋能大模型产业发展?

7月6日上午,2024世界人工智能大会语料主题论坛在上海举办。本次论坛以“语料筑基,智生时代”为主题,围绕高质量语料数据如何高效供给赋能大模型产业发展,向市场传递专业化、链接型、前瞻性的语料生态设计理念。

上海市政府副秘书长庄木弟出席论坛并致辞。他表示,语料数据是大模型训练的重要“燃料”,高质量的语料对于大模型在各行各业的应用十分关键,有助于大模型更好地适配实际应用场景,加快实现人工智能赋能千行百业的愿景。

在主旨演讲环节中,中国科学院院士鄂维南分享了如何将大模型方法和高性能的通用AI数据库方法相结合,来建立高效率、高准确率、低门槛、低成本的人工智能系统。人民网党委书记、董事长叶蓁蓁则分享了“基于价值对齐的模型发展与语料数据的创新供给”,他重点分享了人民网在主流价值对齐方面的实践与经验,基于多维度价值对齐体系的语料库,让大模型像人一样“有德、有趣、有序、有品、有用”。

对照最高标准、最好水平,打造世界一流的语料枢纽,实现更高效率、更高质量的语料供给,会上发布了“语料运营平台1.0”,实现了面向语料数据“采、洗、标、测、用”五位一体的工具链能力。

另外,会上,库帕思携手咪咕视频、宝信软件、复旦大学智能医学研究院、上海工创中心、汇纳科技、万达信息、DGC数传集团、文远知行、文因互联、上海电科智能、海天瑞生,集中发布了十大语料数据产品。

论坛中同时发布了金融、生命健康、教育三项行业语料术白皮书。其中,《高质量金融语料技术白皮书》聚焦银行、证券、保险、基金等行业实践,重新定义了高质量金融语料数据集的内涵和外延,形成了基于金融领域知识体系的“语料魔方”方法论;《教育人工智能大模型数据治理与共享技术白皮书》对标国内外教育数据的系列政策、标准,确立了教育行业语料数据的标准用例与价值体系,形成了一套教育AI大模型数据治理与共享技术标准;《高质量生命健康语料技术白皮书》从基础医学、药物研发、临床医学、健康管理、中医中药五个方向确立了生命健康语料库的路线图,创新了从寻源、清洗到标注、测试的工具体系。

为实现“语料数据资源共建共享”、“鼓励多元主体共同推动高水平语料数据要素建设”的目标,库帕思公司会同覆盖多模态数据资源供应、加工、应用和运营全链的近二十家企业共同发布了团体标准《语料库建设导则》。

为进一步强化语料生态全产业链各主体间的交流合作,营造有利于我国大模型产业生态健康发展的环境, 50余家单位在此次论坛上共同发起“语料生态服务大模型可持续发展倡议”,共同倡导携手为我国大模型产业发展持续提供高质量语料。

免费教学更多>>

特斯拉Robotaxi车队规模达200辆 全新奔驰S级即将发布,CEO称其为车型历史上最大更新之一 重庆国资出手,入股一家做“机器人大脑”的公司 美国多家汽车经销商完成所有权变更 涉及八州十余宗交易 不占领市场,却要占领“生态位”:雷诺的中国新活法 小米前高管创业,获高瓴、智元等数千万投融 马自达押油电混动:下一代纯电推迟至2029年 2025越南车市大反转,“丰田们”的时代变了 特斯拉凭借激进定价策略巩固韩国电动汽车市场领先地位 上市即爆款!全面升级的荣耀Power 2销量不俗,10080mAh+240万跑分 微信等APP狂吃手机存储:1TB份额占比翻倍 64GB要绝迹了 2026,不犯错,就是车企最大的赢面 iPhone阵容调整,库克卸任倒计时 一心当网红的魏建军,长城汽车面对仅132万辆的年销量,犯愁了没? “撞名”蔚来?星途全新系列亮相 加95号省油?实测打脸:油耗更高,钱包更瘪! 量产大灯上身,“新世代”X5呼之欲出 人形机器人概念刺激汽车行业 目标320万辆,奇 瑞今年开始“求稳” 零跑新车A10预告图公布 广汽与阿里云将在全栈AI领域展开合作 宇树科技公布机器人交互控制新专利 阿里独家掷投,原力灵机再获数亿元融资 曝安世半导体客户正商谈应对方案,以规避中欧芯片争端影响 亏损2.068亿美元,法拉第未来发布2025年Q3财报 特斯拉上海超级工厂第500万个电池包下线 2025年1-9月ADAS供应商装机量排行榜:多强竞争、自主供应商强势突围 比亚迪领跑东南亚、吉利奇 瑞深耕独联体市场丨2025年9月,中国车企出口新动态 北京人形机器人创新中心XR-1模型通过具身智能国标 北汽极狐全新MPV亮相,全新设计风格,外观很霸气,侧滑门