FDABench团队 投稿量子位 | 公众号 QbitAI欧洲杯体育
数据智能体到底好不好用?测评一下就知谈了!
南洋理工大学、新加坡国立大学联袂华为开源推出首个罕见针对数据智能体(Data Agents)异构搀杂数据分析的空洞性基准测试FDABench
该基准横跨50+数据领域、树立了多种难度等第和任务类型,还独创了Agent-Expert互助框架,确保测试用例质地和数据一致性,同期守旧Data Agent、RAG、语义算子以及四种典型Data Agent责任流模样。

团队使用FDABench对多样数据智能体系统进行了评估,发现每个系统在反映质地、准确性、蔓延和token本钱方面齐进展出独有的上风。
底下详备来看。
将数据库、PDF、视频、音频异构数据源拔本塞原
濒临数据启动方案的需求日益增长,这催生了对粗略整合结构化和非结构化数据进行分析的数据智能体的挫折需求。


尽管数据智能体Data Agents在让用户扩充复杂分析任务方面展现出后劲,但该领域仍存在三个关节局限性:
最初,由于难以想象出能评估智能体在多源分析任务中各项期间的测试用例,全面的数据智能体Benchmark仍然缺失;其次,构建聚辘集构化和非结构化数据的可靠测试用例本钱昂贵且极其复杂;第三,现存基准的适合性和通用性有限,导致评估范围短促。
为应付这些挑战,团队提倡了FDABench,这是首个罕见为评估多源数据分析场景中的智能体而想象的数据智能体基准。

这个基准涵盖了2007个不同的测试任务,秘籍50多个领域,比如金融、电商,还有浮浅、中等、难三种难度。 推理所需数据包括结构化、PDF文档、视频、音频等异构数据源。

任务类型也分三种:单选题(比如算具体数值)、多选题(比如选多个正确论断,包含具体数值和空洞申报推理)、写申报(比如整合数据出分析申报),能全面测数据智能体的期间。

团队还想象了协调Agent-Expert互助框架,同期守旧Data Agent、RAG、语义算子以及四种典型Data Agent责任流模样(想象Planning、用具使用Tool-use、反念念Reflection、多智能体Multi-Agent),可无缝集成不同Data Agent系统架构。
无论数据智能体是靠“提前想象措施”、“调用用具”、“自我修正”一经“多智能体互助”责任,齐能兼容测试,无须换个数据智能体就从头搭测试框架。
计划东谈主员用FDABench测试了市面上常见的几种数据智能体。
一类是通用的数据分析系统,比如能生成财务申报的DAgent、能处置多模态数据的Taiji;

一类是擅长语义贯通的语义算子系统,比如能精确处置用户当然话语查询的LOTUS;

还有一类数据智能体Data Agent是带检索增强(RAG,能查外部数据补助分析)的系统,比如Data Agent+GraphRAG。

计划东谈主员也提供了关于不同基础模子和智能体架构的全面测试:

团队还尝试去对每种数据智能体进行计划资源拆解,统计了数据智能体每个阶段的耗时和总体系统蔓延:

测试后发现:
架构复杂度量度复杂Data Agent架构(如Multi-Agent、Reflection)在异构数据分析准确性上显耀优于浮浅架构,但代价是计划本钱成倍增多(6-20倍资源滥用),浮浅架构如Planning则在后果上占优但濒临复杂问题适合性有限;计划资源重分派效应不雅察到不同Data Agent架构骨子是通过从头分派计划支出完好意思优化——Reflection架构将26-29%计划用于重试机制相易高质地输出,Planning架构将32-35%用于生成阶段保证后果,这种“判辨负载重分派”为阐明任务场景选择合适架构提供了量化指点模子-架构适配性大界限Agenic Data下预锻练的模子即使是Non-Thinking Model(如Kimi-k2)在复杂Multi-Agent和Reflection架构下依旧进展超过,一些Thinking Model(如DeepSeek-R1)在复杂Data Agent架构中反而出现“双重推理刑事包袱”表象,这标明模子选择需要匹配架构复杂度。
归来一下等于,莫得齐全的Data智能体,有的快但复杂任务拉胯,有的准却花钱又慢,选的时刻要看需求。
而FDABench的作用,等于帮你了了测出哪个系统最适应你的需求。
论文地址:https://arxiv.org/pdf/2509.02473代码地址:https://github.com/fdabench/FDAbench
— 完 —
XINWEN
据解释部音信,10月14日,寰宇县域粗拙高中振兴现场激动会在甘肃兰州召开。会议强调,要收拢要道,原原本本落实好县中振兴行径谋略开云体育,促进县域基础解释全面翻新提质。一是加强政府统筹,充分用好解释职责携带小组体制机制,为县中接济争取更多资源、更大支捏,探索市县调处的基础解释贬责体制,耕作区域基础解释支捏保险才气。二是加强师资队列接济,推动锤真金不怕火教化和培养的结构性变化,翻新完善培养培训体系,用好国度灵巧解释平台,加速破解锤真金不怕火学科结构、才气结构矛盾。三是加强职普融通,支捏各地举办一批
10月14日,江苏省委组织部发布《江苏省2026年应届优秀大学毕业生选调使命公告》开yun体育网,明确将于2026年分两批选调1210名全日制大学本科及以上学历2026年应届优秀毕业生。 其中,第一批进行县级以上机关职位选调(名校优生选调):面向寰球部分“双一流”配置高校、政法类高校(附件1),选调632东谈主到县级以上机关使命。第二批进行州里(街谈)职位选调:面向寰球部分“双一流”配置高校、省内世俗高校(附件2),选调578东谈主到州里(街谈)使命。 为加大优秀年青干部发现储备力度,加强高陶
□张靓敏(天津师范大学) 据《南风窗》报谈,从2000年到2020年,我国流动儿童数目从1981万增至7109万,这个占宇宙儿童东谈主口近四分之一的雄壮群体,正昔时所未有的规模随父母挪动于城市之间。这不仅是数字的跃升,更是一场深刻的社会变迁。当新一代流动者取舍将子女带在身边,咱们看到的不仅是对传统留守模式的告别,更是多数家庭对城市生计的迫切向往。 流动儿童数目的快速增长,折射出中国城市化进度的深化发展,也响应出年青一代父母育儿不雅念的变革。与上一代农民工被动将子女留守家乡不同,越来越多“80后
三季度行将收官,尽管本年以来众人宏不雅经济环境复杂多变,但A股IPO市集展现出较强的韧性和活力,上交所融资金额排名众人第五。 从刊行节律来看,A股前三季度共刊行新股75只,上年同期69只,保握了稳中有升的态势。在融资限制方面,前三季度IPO共计召募资金达743.72亿元,同比增长265亿元,主要受华电新能(600930.SH)融资181.71亿元推动。值得一提的是,香港交游所前三季度刊行66只新股,融资额超1800亿港元,登顶众人融资额第又名。 年内A股牛市行情握续演绎,新股得益效应更是权贵晋
刚收尾的9月,沪深北交游所共新受理10家IPO,其中创业板2家,科创板2家,上证主板1家,北交所5家。 新受理的IPO中,按照行业别离主要勾搭在新动力、半导体、生物科技等行业,成本商场职业科技转换跑出“加快度”,成本商场含“科”量进一步擢升。 具体来看,9月有两家半导体企业IPO获受理,分别为闯关科创板的莱普科技和创业板的越亚半导体。值得一提的是,近期A股商场半导体看法走势格外火。 莱普科技主要产物包括激光热处理开发与专用激光加工开发两大序列,已平时讹诈于12英寸集成电路产线、先进封装产线,是