真实工业场景 · 双语多轮表格问答 · 长程推理任务的基准测试

TableAgent-Bench

评估LLM智能体在复杂工业场景下的自主长程推理与表格理解能力

包含 1,310 个多轮对话任务,基于 2,275 个真实工业表格,平均每任务需 30+ 次工具调用,覆盖 6 大领域 28 个子领域,支持中英文双语评测

1,310
多轮对话任务
2,275
真实工业表格
30+
平均工具调用
11
专业分析工具
6
核心领域
4.3
平均对话轮数

评测排行榜

基于TableAgent-Bench的模型性能对比

排名 模型 IC Avg@3 TRR TRP 工具成功率 类型
IC: 信息覆盖率 Avg@3: 任务通过率 TRR: 表格相关召回率 TRP: 表格相关精确率
⚠️

显著的能力差距

即使是最强的模型Gemini-3-Pro-Preview,在TableAgent-Bench上也仅达到53.4%的信息覆盖率, Avg@3仅为5%。这表明当前LLM智能体在真实工业场景下的表格推理能力仍存在巨大挑战。

🧠

Thinking模型的优势

Thinking模型在复杂多轮推理任务中表现明显优于非Thinking模型。前10名中有8个是Thinking模型, 平均IC得分高出非Thinking模型约15-20%

🔧

工具调用与推理的鸿沟

大多数模型在工具调用成功率上表现良好(80-95%),但在信息覆盖率上却差异巨大(2-53%)。 这表明调用工具不等于正确推理,模型在理解表格和生成正确代码方面仍有很大提升空间。

🔄

多轮错误累积问题

随着对话轮次增加,模型性能显著下降。Avg@3指标普遍低于5%,说明模型在维持长期上下文一致性 和避免错误传播方面面临严峻挑战。

能力维度分析

TAEF框架四大评估维度及代表性能力指标

顶级模型能力对比

工具调用成功率

R_success

衡量模型调用工具(如代码执行、表格检索)的成功比例。高成功率表明模型能够正确生成工具调用指令,但不一定代表推理正确。

94.6%

信息覆盖率

IC

评估模型回答中包含的关键信息占所需信息的比例。这是衡量回答完整性的核心指标,反映模型是否遗漏重要内容。

53.4%

表格召回率

TRR

衡量模型在多表环境中正确识别和选择相关表格的能力。高召回率表示模型很少遗漏必要的表格。

85.3%

任务通过率

Avg@3

评估模型在多轮对话中维持正确推理链的能力。该指标极低(平均5%),表明模型在避免错误累积和保持上下文一致性方面面临巨大挑战。

5.0%

数据集统计

全面的数据分布与难度分析

领域分布

工程科学 28%
金融服务 22%
商业运营 18%
宏观经济 15%
消费生活 10%
社会政策 7%

拓扑结构分布

Tree (32.9%)
Fork-Join (27.6%)
Chain (24.6%)

问题难度分布

简单查询 15%
条件筛选 25%
指标推理 30%
复杂多表推理 30%
平均对话轮数 4.29
平均每文件夹表格数 4.15

十大典型问题类型

📊
对比分析
📈
趋势分析
🎯
分布分析
🔗
因果分析
🔍
评估诊断
🏆
排名筛选
🧮
聚合统计
📉
相关分析
🔮
预测推断
📑
综合报告

11专业分析工具 · 3大类别 · 平均30+次调用

🔍

表格检索工具

4个
文本搜索2.01次
表格语义检索器2.49次
语义行检索器2.10次
语义列检索器0.77次
平均调用 7.37次
⚙️

表格处理工具

4个
Excel转CSV工具1.54次
表头读取工具4.39次
表头合并工具0.96次
表格拆分工具0.89次
平均调用 7.78次
💻

代码执行工具

2个
Python执行器17.93次
命令执行器2.48次
平均调用 20.41次
占总调用次数57.4%

准备好测试你的模型了吗?

提交你的模型,我们将在测试完成后将结果加入排行榜

基准测试的挑战

通过TAEF框架诊断的主要失败模式与困难任务分析

错误类型分布

表格理解错误

38%

模型未能正确理解表格结构、表头关系或数据含义,导致错误的数据解释

问题理解偏差

36%

模型对用户问题的理解出现偏差,回答与问题不相关或部分相关

表格定位错误

21%

模型在多表环境中选择了错误的表格,或遗漏了必要的表格

累积传播错误

5%

多轮对话中,前期错误在后续轮次中累积传播,导致最终结果错误

🔍 困难任务执行分析

📊

表格理解错误 & 累积传播错误

Code Error Caused by Table Comprehension | Cumulative Propagation Errors

Bad Case 1
❌ 表格理解错误

模型在代码执行块之间未能保持状态,尝试引用之前块中定义的变量(all_data)而未重新加载,导致重复的NameError异常。

⚠️ 累积传播错误

最终报告建立在有缺陷的数据提取之上,将中间(错误)结论当作事实,导致分析结果完全偏离。

🎯

表格定位错误 & 问题理解偏差

Table Localization Error | Question Understanding Deviations

Bad Case 2
🔍 表格定位错误

模型错误地将两个不同表格的数据合并计算总流量,而正确做法应仅从特定表格提取数值。

💬 问题理解偏差

用户要求计算平均会话时长并比较分布,模型却仅提供了会话数量统计表,完全遗漏了时长分析。