全球权威评测榜单BIRD:蚂蚁数科超越谷歌等公司位居第一
9月26日,全球权威据全球权威评测基准BIRD-Bech官网,评测蚂蚁数科的榜单数据分析智能体Agentar-SQL超越AT&T(美国电话电报公司)、谷歌云、蚂蚁腾讯云、数科司位阿里云等诸多国内外厂商,谷歌位居全球第一。居第这也是全球权威中国公司在该榜单上取得的最高成绩。

BIRD-Bench是公认的全球最具权威性的自然语言转SQL评测基准,要求AI大模型将自然语言查询转换为结构化查询语言(SQL),榜单并且在真实复杂的蚂蚁大规模生产级数据库中稳定执行。BIRD--Bench数据集覆盖金融、数科司位电力、谷歌医疗等37个行业场景,居第总量33GB,全球权威包含超过1万条高复杂度查询任务,是全球顶级AI团队展示技术实力的权威平台。
值得一提的是,蚂蚁数科Agentar-SQL在BIRD榜单的执行准确率排行榜(81.67分)以及执行效率榜上(77分)上均取得第一的成绩。这意味着蚂蚁数科在智能问数领域的技术创新实现全球领先。
据介绍,Agentar-SQL智能体基于蚂蚁数科的SQL大模型Agentar-Scale-SQL构建,旨在让用户可以通过自然语言轻松完成复杂的数据查询任务。它通过GSPO(组序列策略优化)强化学习训练方法,能够增强SQL内在推理,让大模型在推理阶段,深度思考SQL框架,避免潜在的逻辑错误,提升SQL逻辑准确性;此外,Agentar-SQL具备多轮反思修正的能力,让模型对生成的SQL进行多轮次的审视和修正,提升SQL语言的精准性;Agentar-SQL还通过独创的两阶段生成法,让大模型生成多个SQL候选,再对SQL进行两两PK的“锦标赛”,筛选出最优的SQL。
蚂蚁数科持续深耕AI大模型技术与应用,此前其自研的金融推理大模型Agentar-Fin-R1,在多项主流金融基准测试实现领先。专为新能源行业定制的能源电力垂类时序大模型在行业评测集上的发电量预测准确率超越谷歌(TimesFM-V2.0)、亚马逊(Chronos-Large)等行业主流的通用时序模型。
(责任编辑:知识)
- 卡图巴对女性有什么作用?卡图巴是药还是保健品
- 瑞泰瑞和定期寿险费率,瑞泰瑞和定期寿险保单查询
- 郑州东明路本周开始大修 明年3月完工通行
- 男子醉酒躺街头钱撒一地 巡防员发现后及时救助
- 阿里AI三连发,连夺三项第一!
- 分红型定期寿险有哪些,分红型保险与定期存款的区别
- 我国消费税改革将对涂料征收4%消费税
- 郑州东站西北进站口今起暂停使用 模块化改造预计8天
- 郑州CBD三条“严管”街7个月抓拍到上万次违停
- 司机驾驶途中突发哮喘 轿车失控撞上桥墩
- 瑞泰瑞和定期寿险费率,瑞泰瑞和定期寿险保单查询
- 河南省手机用户月均流量3.2G 你“达标”了吗?
- 广州一公交车撞隧道!现在情况如何?造成多少人伤亡?附最新进展!
- 我国消费税改革将对涂料征收4%消费税
