FDABench团队 投稿量子位 | 公众号 QbitAI欧洲杯体育
数据智能体到底好不好用?测评一下就知谈了!
南洋理工大学、新加坡国立大学联袂华为开源推出首个罕见针对数据智能体(Data Agents)异构搀杂数据分析的空洞性基准测试FDABench
该基准横跨50+数据领域、树立了多种难度等第和任务类型,还独创了Agent-Expert互助框架,确保测试用例质地和数据一致性,同期守旧Data Agent、RAG、语义算子以及四种典型Data Agent责任流模样。

团队使用FDABench对多样数据智能体系统进行了评估,发现每个系统在反映质地、准确性、蔓延和token本钱方面齐进展出独有的上风。
底下详备来看。
将数据库、PDF、视频、音频异构数据源拔本塞原
濒临数据启动方案的需求日益增长,这催生了对粗略整合结构化和非结构化数据进行分析的数据智能体的挫折需求。


尽管数据智能体Data Agents在让用户扩充复杂分析任务方面展现出后劲,但该领域仍存在三个关节局限性:
最初,由于难以想象出能评估智能体在多源分析任务中各项期间的测试用例,全面的数据智能体Benchmark仍然缺失;其次,构建聚辘集构化和非结构化数据的可靠测试用例本钱昂贵且极其复杂;第三,现存基准的适合性和通用性有限,导致评估范围短促。
为应付这些挑战,团队提倡了FDABench,这是首个罕见为评估多源数据分析场景中的智能体而想象的数据智能体基准。

这个基准涵盖了2007个不同的测试任务,秘籍50多个领域,比如金融、电商,还有浮浅、中等、难三种难度。 推理所需数据包括结构化、PDF文档、视频、音频等异构数据源。

任务类型也分三种:单选题(比如算具体数值)、多选题(比如选多个正确论断,包含具体数值和空洞申报推理)、写申报(比如整合数据出分析申报),能全面测数据智能体的期间。

团队还想象了协调Agent-Expert互助框架,同期守旧Data Agent、RAG、语义算子以及四种典型Data Agent责任流模样(想象Planning、用具使用Tool-use、反念念Reflection、多智能体Multi-Agent),可无缝集成不同Data Agent系统架构。
无论数据智能体是靠“提前想象措施”、“调用用具”、“自我修正”一经“多智能体互助”责任,齐能兼容测试,无须换个数据智能体就从头搭测试框架。
计划东谈主员用FDABench测试了市面上常见的几种数据智能体。
一类是通用的数据分析系统,比如能生成财务申报的DAgent、能处置多模态数据的Taiji;

一类是擅长语义贯通的语义算子系统,比如能精确处置用户当然话语查询的LOTUS;

还有一类数据智能体Data Agent是带检索增强(RAG,能查外部数据补助分析)的系统,比如Data Agent+GraphRAG。

计划东谈主员也提供了关于不同基础模子和智能体架构的全面测试:

团队还尝试去对每种数据智能体进行计划资源拆解,统计了数据智能体每个阶段的耗时和总体系统蔓延:

测试后发现:
架构复杂度量度复杂Data Agent架构(如Multi-Agent、Reflection)在异构数据分析准确性上显耀优于浮浅架构,但代价是计划本钱成倍增多(6-20倍资源滥用),浮浅架构如Planning则在后果上占优但濒临复杂问题适合性有限;计划资源重分派效应不雅察到不同Data Agent架构骨子是通过从头分派计划支出完好意思优化——Reflection架构将26-29%计划用于重试机制相易高质地输出,Planning架构将32-35%用于生成阶段保证后果,这种“判辨负载重分派”为阐明任务场景选择合适架构提供了量化指点模子-架构适配性大界限Agenic Data下预锻练的模子即使是Non-Thinking Model(如Kimi-k2)在复杂Multi-Agent和Reflection架构下依旧进展超过,一些Thinking Model(如DeepSeek-R1)在复杂Data Agent架构中反而出现“双重推理刑事包袱”表象,这标明模子选择需要匹配架构复杂度。
归来一下等于,莫得齐全的Data智能体,有的快但复杂任务拉胯,有的准却花钱又慢,选的时刻要看需求。
而FDABench的作用,等于帮你了了测出哪个系统最适应你的需求。
论文地址:https://arxiv.org/pdf/2509.02473代码地址:https://github.com/fdabench/FDAbench
— 完 —
XINWEN
本站音问开云(中国)kaiyun网页版登录入口,1月20日皆鲁转债收盘飞腾0.68%,报125.11元/张,成交额6672.21万元,转股溢价率17.74%。 贵寓泄露,皆鲁转债信用级别为“AAA”,债券期限6年(第一年 0.20%、第二年 0.40%、第三年 1.00%、第四年 1.60%、第五年 2.40%、第六年 3.00%。),对应正股名皆鲁银行,正股最新价为5.6元,转股运行日为2023年6月5日,转股价为5.27元。 以上实质为本站据公开信息整理开云(中国)kaiyun网页版登录入
本站讯息,1月20日紫银转债收盘飞腾0.09%,报110.99元/张欧洲杯体育,成交额3073.71万元,转股溢价率50.26%。 辛勤清晰,紫银转债信用级别为“AA+”,债券期限6年(第一年0.2%、第二年0.6%、第三年1.2%、第四年1.8%、第五年2.0%、第六年2.5%。),对应正股名紫金银行,正股最新价为2.77元,转股初始日为2021年1月29日,转股价为3.75元。 以上本色为本站据公开信息整理欧洲杯体育,由智能算法生成(网信算备310104345710301240019号),
本站音尘,1月20日东材转债收盘上升0.82%,报113.38元/张,成交额4085.11万元,转股溢价率65.04%。 府上清晰,东材转债信用级别为“AA”,债券期限6年(票面利率:第一年0.30%、第二年0.50%、第三年1.00%、第四年1.50%、第五年1.80%、第六年2.00%),对应正股名东材科技,正股最新价为7.99元,转股运行日为2023年5月22日,转股价为11.63元。 以上实际为本站据公开信息整理开云(中国)kaiyun网页版登录入口,由智能算法生成(网信算备31010
还在游移什么?金钱和好运,都藏在眷注里!迅速加入咱们,全部招待庆幸和金钱的到来吧! 当地时分16日,第七次,对,你没听错,即是第七次,星舰又双叒叕上天了,然后,它又炸了,这到底是科技的逾越已经大型烟花秀的现场直播呢,竟然让东说念主哭笑不得,不外,马斯克老爷子倒是心态好,跟浮光掠影一句“告捷是不笃定的,但文娱是有保证的”,骤然让我以为,嗯,好像也没那么厄运,至少,咱们还有乐子不错看,不是吗? 【0-7分钟】火箭起飞,33台猛禽发动机皆皆咆哮,那局势,够唬东说念主,险些即是试验版的科幻大片,火光冲
在如今这个顷然万变的时间开yun体育网,选对行业就如同站在了钞票的风口,能让咱们的发展渔人之利。 今天,就来给各人瞩目讲讲当下那些后劲巨大、有望赚大钱的行业,说不定其中就藏着你开启钞票大门的钥匙! 一、东说念主工智能与机器学习 东说念主工智能和机器学习依然悄无声气地渗入进了咱们生存的方方面面。 你念念念念,智能家居诞生能把柄你的正常民风自动颐养家居环境,让你一趟家就仿佛跻身于最闲适的空间;自动化交通系统有望让出行变得愈加高效、安全,以后堵车可能就成为历史了;在医疗会诊范围,它能快速准确地分析病