全球权威评测榜单BIRD：蚂蚁数科超越谷歌等公司位居第一-Trade Nation官网

当前位置：当前位置：首页 > 娱乐 > 全球权威评测榜单BIRD：蚂蚁数科超越谷歌等公司位居第一正文

全球权威评测榜单BIRD：蚂蚁数科超越谷歌等公司位居第一

[娱乐] 时间：2026-01-11 07:11:18 来源：Trade Nation官网作者：综合点击：152次

9月26日，全球权威据全球权威评测基准BIRD-Bech官网，评测蚂蚁数科的榜单数据分析智能体Agentar-SQL超越AT&T（美国电话电报公司）、谷歌云、蚂蚁腾讯云、数科司位阿里云等诸多国内外厂商，谷歌位居全球第一。居第这也是全球权威中国公司在该榜单上取得的最高成绩。

全球权威评测榜单BIRD：蚂蚁数科超越谷歌等公司位居第一

BIRD-Bench是公认的全球最具权威性的自然语言转SQL评测基准，要求AI大模型将自然语言查询转换为结构化查询语言（SQL），榜单并且在真实复杂的蚂蚁大规模生产级数据库中稳定执行。BIRD--Bench数据集覆盖金融、数科司位电力、谷歌医疗等37个行业场景，居第总量33GB，全球权威包含超过1万条高复杂度查询任务，是全球顶级AI团队展示技术实力的权威平台。

值得一提的是，蚂蚁数科Agentar-SQL在BIRD榜单的执行准确率排行榜（81.67分）以及执行效率榜上（77分）上均取得第一的成绩。这意味着蚂蚁数科在智能问数领域的技术创新实现全球领先。

据介绍，Agentar-SQL智能体基于蚂蚁数科的SQL大模型Agentar-Scale-SQL构建，旨在让用户可以通过自然语言轻松完成复杂的数据查询任务。它通过GSPO（组序列策略优化）强化学习训练方法，能够增强SQL内在推理，让大模型在推理阶段，深度思考SQL框架，避免潜在的逻辑错误，提升SQL逻辑准确性；此外，Agentar-SQL具备多轮反思修正的能力，让模型对生成的SQL进行多轮次的审视和修正，提升SQL语言的精准性；Agentar-SQL还通过独创的两阶段生成法，让大模型生成多个SQL候选，再对SQL进行两两PK的“锦标赛”，筛选出最优的SQL。

蚂蚁数科持续深耕AI大模型技术与应用，此前其自研的金融推理大模型Agentar-Fin-R1，在多项主流金融基准测试实现领先。专为新能源行业定制的能源电力垂类时序大模型在行业评测集上的发电量预测准确率超越谷歌（TimesFM-V2.0）、亚马逊（Chronos-Large）等行业主流的通用时序模型。

(责任编辑：知识)

千问APP找卷子功能引争议：家长举手欢迎、学生要求下架上海一厂区内高炉发生火灾！是否有人员伤亡？附最新进展