FDABench团队 投稿量子位 | 公众号 QbitAI欧洲杯体育
数据智能体到底好不好用?测评一下就知谈了!
南洋理工大学、新加坡国立大学联袂华为开源推出首个罕见针对数据智能体(Data Agents)异构搀杂数据分析的空洞性基准测试FDABench
该基准横跨50+数据领域、树立了多种难度等第和任务类型,还独创了Agent-Expert互助框架,确保测试用例质地和数据一致性,同期守旧Data Agent、RAG、语义算子以及四种典型Data Agent责任流模样。

团队使用FDABench对多样数据智能体系统进行了评估,发现每个系统在反映质地、准确性、蔓延和token本钱方面齐进展出独有的上风。
底下详备来看。
将数据库、PDF、视频、音频异构数据源拔本塞原
濒临数据启动方案的需求日益增长,这催生了对粗略整合结构化和非结构化数据进行分析的数据智能体的挫折需求。


尽管数据智能体Data Agents在让用户扩充复杂分析任务方面展现出后劲,但该领域仍存在三个关节局限性:
最初,由于难以想象出能评估智能体在多源分析任务中各项期间的测试用例,全面的数据智能体Benchmark仍然缺失;其次,构建聚辘集构化和非结构化数据的可靠测试用例本钱昂贵且极其复杂;第三,现存基准的适合性和通用性有限,导致评估范围短促。
为应付这些挑战,团队提倡了FDABench,这是首个罕见为评估多源数据分析场景中的智能体而想象的数据智能体基准。

这个基准涵盖了2007个不同的测试任务,秘籍50多个领域,比如金融、电商,还有浮浅、中等、难三种难度。 推理所需数据包括结构化、PDF文档、视频、音频等异构数据源。

任务类型也分三种:单选题(比如算具体数值)、多选题(比如选多个正确论断,包含具体数值和空洞申报推理)、写申报(比如整合数据出分析申报),能全面测数据智能体的期间。

团队还想象了协调Agent-Expert互助框架,同期守旧Data Agent、RAG、语义算子以及四种典型Data Agent责任流模样(想象Planning、用具使用Tool-use、反念念Reflection、多智能体Multi-Agent),可无缝集成不同Data Agent系统架构。
无论数据智能体是靠“提前想象措施”、“调用用具”、“自我修正”一经“多智能体互助”责任,齐能兼容测试,无须换个数据智能体就从头搭测试框架。
计划东谈主员用FDABench测试了市面上常见的几种数据智能体。
一类是通用的数据分析系统,比如能生成财务申报的DAgent、能处置多模态数据的Taiji;

一类是擅长语义贯通的语义算子系统,比如能精确处置用户当然话语查询的LOTUS;

还有一类数据智能体Data Agent是带检索增强(RAG,能查外部数据补助分析)的系统,比如Data Agent+GraphRAG。

计划东谈主员也提供了关于不同基础模子和智能体架构的全面测试:

团队还尝试去对每种数据智能体进行计划资源拆解,统计了数据智能体每个阶段的耗时和总体系统蔓延:

测试后发现:
架构复杂度量度复杂Data Agent架构(如Multi-Agent、Reflection)在异构数据分析准确性上显耀优于浮浅架构,但代价是计划本钱成倍增多(6-20倍资源滥用),浮浅架构如Planning则在后果上占优但濒临复杂问题适合性有限;计划资源重分派效应不雅察到不同Data Agent架构骨子是通过从头分派计划支出完好意思优化——Reflection架构将26-29%计划用于重试机制相易高质地输出,Planning架构将32-35%用于生成阶段保证后果,这种“判辨负载重分派”为阐明任务场景选择合适架构提供了量化指点模子-架构适配性大界限Agenic Data下预锻练的模子即使是Non-Thinking Model(如Kimi-k2)在复杂Multi-Agent和Reflection架构下依旧进展超过,一些Thinking Model(如DeepSeek-R1)在复杂Data Agent架构中反而出现“双重推理刑事包袱”表象,这标明模子选择需要匹配架构复杂度。
归来一下等于,莫得齐全的Data智能体,有的快但复杂任务拉胯,有的准却花钱又慢,选的时刻要看需求。
而FDABench的作用,等于帮你了了测出哪个系统最适应你的需求。
论文地址:https://arxiv.org/pdf/2509.02473代码地址:https://github.com/fdabench/FDAbench
— 完 —
XINWEN
日前,为息争2025年粤港澳三地结合经办的第十五届寰宇清醒会,广东省档案馆肃穆开动“管待十五运会档案主题展览”专项搜集职责欧洲杯体育,面向社会各界粗糙搜集往届全运会联系档案贵寓。 据广东省档案馆联系负责东说念主先容,这次搜集职责东要围绕1987年第六届全运会、2001年第九届全运会、2025年第十五届全运会等三届寰宇清醒会张开,同期也将搜集广东清醒员插足往届全运会的联系档案贵寓。 搜集实质涵盖清醒会全流程的档案贵寓,包括前期筹备、赛事现场和后续影响三个主要阶段。具体包括申办文献、场馆开拓贵寓、
董宇辉“与辉同业”到河南时,直播间迎来了一位出奇嘉宾——有名文化学者、河南大学文体院教养王立群。二东道主在古柏苍翠、历史悠久的嵩阳书院伸开对话,围绕“历史,工夫的诗”,研究被誉为“史家之绝唱,无韵之离骚”的巨著——《史记》。这场对话文化滋味澈底,受到如潮好评。 有名文化学者、河南大学文体院教养王立群作客“与辉同业”直播间。 这场直播的销售数据,让王立群终点惊诧。直播为止后,预售的“王立群读《史记》”系列共售出8万多册,销售额逾越257万元。在首批印刷的册本还未沿路入库时,出书便捷已安排了贫困加
欧洲杯体育 独家专访止庵:写长篇演义,是我为我方竖立的挑战|名家有约 2019年,闻明作者止庵刚好满60岁,他决定给我方放个长假。在此之前,他花了很轻易气络续周作主谈主与张爱玲,络续出书了《周作主谈主传》《讲张笔墨 : 张爱玲的生平与创作》等作品。这一次,他想要尝试创作一部长篇演义。“写稿是无用紧张的游戏,是一个手工业时期的行径。我惬心把它作念得好少量,演义亦然如斯。” 止庵近照。 2021年,一部问候《史记·伍子胥列传》和《哈姆雷特》的长篇演义《解任》横空出世,得益了不俗反响。在随后的三年,
股票商场行情精致 上指(-1.29%),深指(-1.76%) 创业板(-2.17%),煤炭(-0.23%) 板块涨幅前三名 安源煤业(+5.97%) 陕西黑猫(+2.59%) 淮河能源(+1.17%) 板块跌幅后三名 大有能源(-9.82%) 安泰集团(-4.74%) 辽宁能源(-3.52%) 期货商场行情精致 ]article_adlist--> 数据开首:iFind煤炭产业链不雅察 ]article_adlist--> 数据开首:中国煤炭资源网、iFind煤炭行业要闻 ]article
总览 投资评级:推选 保管评级 一、事件概述 2025年3月20日,公司发布2024年年度报告,报告期内公司结束营业收入302.81亿元,同比下落4.25%;结束包摄于上市公司激动的净利润23.5亿元,同比下落41.41%。 二、分析与判断 Ø 24Q4公司归母净利润同、环比下滑。 阐发年报测算,24Q4公司结束归母净利润3.05亿元,同比下落64.79%,环比下落53.30%。 Ø 精煤产量占比培植,煤炭业务毛利率下滑。 据公司年报,2024年完成煤炭产量2753万吨,同比下落10.35%,