FDABench团队 投稿量子位 | 公众号 QbitAI欧洲杯体育
数据智能体到底好不好用?测评一下就知谈了!
南洋理工大学、新加坡国立大学联袂华为开源推出首个罕见针对数据智能体(Data Agents)异构搀杂数据分析的空洞性基准测试FDABench
该基准横跨50+数据领域、树立了多种难度等第和任务类型,还独创了Agent-Expert互助框架,确保测试用例质地和数据一致性,同期守旧Data Agent、RAG、语义算子以及四种典型Data Agent责任流模样。

团队使用FDABench对多样数据智能体系统进行了评估,发现每个系统在反映质地、准确性、蔓延和token本钱方面齐进展出独有的上风。
底下详备来看。
将数据库、PDF、视频、音频异构数据源拔本塞原
濒临数据启动方案的需求日益增长,这催生了对粗略整合结构化和非结构化数据进行分析的数据智能体的挫折需求。


尽管数据智能体Data Agents在让用户扩充复杂分析任务方面展现出后劲,但该领域仍存在三个关节局限性:
最初,由于难以想象出能评估智能体在多源分析任务中各项期间的测试用例,全面的数据智能体Benchmark仍然缺失;其次,构建聚辘集构化和非结构化数据的可靠测试用例本钱昂贵且极其复杂;第三,现存基准的适合性和通用性有限,导致评估范围短促。
为应付这些挑战,团队提倡了FDABench,这是首个罕见为评估多源数据分析场景中的智能体而想象的数据智能体基准。

这个基准涵盖了2007个不同的测试任务,秘籍50多个领域,比如金融、电商,还有浮浅、中等、难三种难度。 推理所需数据包括结构化、PDF文档、视频、音频等异构数据源。

任务类型也分三种:单选题(比如算具体数值)、多选题(比如选多个正确论断,包含具体数值和空洞申报推理)、写申报(比如整合数据出分析申报),能全面测数据智能体的期间。

团队还想象了协调Agent-Expert互助框架,同期守旧Data Agent、RAG、语义算子以及四种典型Data Agent责任流模样(想象Planning、用具使用Tool-use、反念念Reflection、多智能体Multi-Agent),可无缝集成不同Data Agent系统架构。
无论数据智能体是靠“提前想象措施”、“调用用具”、“自我修正”一经“多智能体互助”责任,齐能兼容测试,无须换个数据智能体就从头搭测试框架。
计划东谈主员用FDABench测试了市面上常见的几种数据智能体。
一类是通用的数据分析系统,比如能生成财务申报的DAgent、能处置多模态数据的Taiji;

一类是擅长语义贯通的语义算子系统,比如能精确处置用户当然话语查询的LOTUS;

还有一类数据智能体Data Agent是带检索增强(RAG,能查外部数据补助分析)的系统,比如Data Agent+GraphRAG。

计划东谈主员也提供了关于不同基础模子和智能体架构的全面测试:

团队还尝试去对每种数据智能体进行计划资源拆解,统计了数据智能体每个阶段的耗时和总体系统蔓延:

测试后发现:
架构复杂度量度复杂Data Agent架构(如Multi-Agent、Reflection)在异构数据分析准确性上显耀优于浮浅架构,但代价是计划本钱成倍增多(6-20倍资源滥用),浮浅架构如Planning则在后果上占优但濒临复杂问题适合性有限;计划资源重分派效应不雅察到不同Data Agent架构骨子是通过从头分派计划支出完好意思优化——Reflection架构将26-29%计划用于重试机制相易高质地输出,Planning架构将32-35%用于生成阶段保证后果,这种“判辨负载重分派”为阐明任务场景选择合适架构提供了量化指点模子-架构适配性大界限Agenic Data下预锻练的模子即使是Non-Thinking Model(如Kimi-k2)在复杂Multi-Agent和Reflection架构下依旧进展超过,一些Thinking Model(如DeepSeek-R1)在复杂Data Agent架构中反而出现“双重推理刑事包袱”表象,这标明模子选择需要匹配架构复杂度。
归来一下等于,莫得齐全的Data智能体,有的快但复杂任务拉胯,有的准却花钱又慢,选的时刻要看需求。
而FDABench的作用,等于帮你了了测出哪个系统最适应你的需求。
论文地址:https://arxiv.org/pdf/2509.02473代码地址:https://github.com/fdabench/FDAbench
— 完 —
XINWEN
大家网记者 徐宏达 青岛报说念欧洲杯体育 15日上昼,大家网记者从即墨区推动高质地发展新闻发布会轮廓行政司法局专场上获悉,2024年以来,即墨区轮廓行政司法局紧密聚会现时经济场地,切实找准轮廓司法行状高质地发展的最好聚会点,不息开展市容环境攻坚、行状司法惠企、公共诉求化解,以法治“硬措施”优化营商“软环境”,为即墨区高质地发展提供强有劲扶助。 据即墨区轮廓行政司法局四级调研员王者论先容,2024年以来,即墨区轮廓行政司法局从聚焦市容整治、聚焦商场主体、聚焦公共诉求等三个方面发力,推动经济社会高
洞开,是一种姿态,亦然一种远见。越来越多的国表里品牌遴荐中国行动寰球化着手,分享洞开新机遇。 自2018年始,前六届进博会共有近2500项代表性首发新家具、新工夫、新就业亮相,累计意向成交额超4200亿好意思元;2024年第七届进博会,更有逾越400项“新品”在中国“首秀”。而纵览七年间的招展、布展,医疗器械及医药展区无疑是最火爆也“最卷”的展区之一。 与食物、农家具、消费品乃至汽车展区极致的价钱战不同,这里是要将科技“卷”到极致。在硬碰硬的比拼较量中,来自青岛的海洋生物高技术企业—逢时科技秀
大家网记者 王静雅 青岛报谈欧洲杯体育 11月15日,青岛市委、市政府召开新闻发布会。青岛市住房和城乡缔造局先容了老旧小区和城中村矫正、市政和泊车表率缔造等方面的责任。 老旧小区改出新模样 本年指标矫正老旧小区433个、建筑面积1016万泛泛米,惠及住户13.26万户,矫正面积、矫正户数连结三年居全省第一。规模现在,433个小区已完工323个,其余小区将于年底前一都完工。 一是“三问于民”实施“开门矫正”。矫正前“问需于民”,通过披发问卷、入户造访等多种花样,充分摸清住户需求。矫正中“问计于民
第七章 冲破开yun体育网,山林洞府 轰轰轰!山林瀑布,爆发出连绵的轰鸣。 移动持续,秦阳与恐力猿的差距很大,然则,他不竭的脱手,相似的武技,相似的风景。 这样的猛攻,让恐力猿齐感到头皮发麻。 秦阳的身躯之上,雷光齐在涌动,蕴蓄在拳印之上,每次出拳,齐爆发出滔滔的雷霆威能。 他的各方面的实力,齐在迅速的普及。 越战越勇! 恐力猿齐感到怀疑东说念主生了!这真是是个东说念主?若何嗅觉,他的膂力,就好像销耗不尽一样!最为可怕的是。 这个东说念主类的力量,还在和我方的交战之中,在持续的增强。 每一拳的
第六章 命如草芥 城主府在阳春街的极端,对面就是那条尽是赫然的乌衣巷,叶贤余不是第一次来到这里,但每次到来都会合计震撼,不得不说,旺盛东说念主家就是肃穆多,院深宅大不说,门外还摆放着两尊威严无比的石狮子,据说不错镇守运说念,越是旺盛东说念主家,越是肃穆这些。 叶贤余来到大门外,扣响青铜门环,不见有任何动静,刚要准备回身离去,那大门轻轻怒放沿途缺点,伸出一个小小的脑袋来。 那是一个条理秀雅小女孩,一对明眸鲜美灵的,极是灵动,惹东说念主青睐。 还没等叶贤余启齿,那小女孩也曾闪到了少年的跟前,盯着他