真实工业场景 · 双语多轮表格问答 · 长程推理任务的基准测试

TableAgent-Bench

评估LLM智能体在复杂工业场景下的自主长程推理与表格理解能力

包含 1,310 个多轮对话任务，基于 2,275 个真实工业表格，平均每任务需 30+ 次工具调用，覆盖 6 大领域 28 个子领域，支持中英文双语评测

查看排行榜 GitHub 数据集

1,310

多轮对话任务

2,275

真实工业表格

30+

平均工具调用

专业分析工具

核心领域

4.3

平均对话轮数

评测排行榜

基于TableAgent-Bench的模型性能对比

排名 ↕	模型 ↕	IC ↕	Avg@3 ↕	TRR ↕	TRP ↕	工具成功率 ↕	类型

IC: 信息覆盖率 • Avg@3: 任务通过率 • TRR: 表格相关召回率 • TRP: 表格相关精确率

⚠️

显著的能力差距

即使是最强的模型Gemini-3-Pro-Preview，在TableAgent-Bench上也仅达到53.4%的信息覆盖率， Avg@3仅为5%。这表明当前LLM智能体在真实工业场景下的表格推理能力仍存在巨大挑战。

🧠

Thinking模型的优势

Thinking模型在复杂多轮推理任务中表现明显优于非Thinking模型。前10名中有8个是Thinking模型，平均IC得分高出非Thinking模型约15-20%。

🔧

工具调用与推理的鸿沟

大多数模型在工具调用成功率上表现良好（80-95%），但在信息覆盖率上却差异巨大（2-53%）。这表明调用工具不等于正确推理，模型在理解表格和生成正确代码方面仍有很大提升空间。

🔄

多轮错误累积问题

随着对话轮次增加，模型性能显著下降。Avg@3指标普遍低于5%，说明模型在维持长期上下文一致性和避免错误传播方面面临严峻挑战。

能力维度分析

TAEF框架四大评估维度及代表性能力指标

顶级模型能力对比

工具调用成功率

R_success

衡量模型调用工具（如代码执行、表格检索）的成功比例。高成功率表明模型能够正确生成工具调用指令，但不一定代表推理正确。

94.6%

信息覆盖率

评估模型回答中包含的关键信息占所需信息的比例。这是衡量回答完整性的核心指标，反映模型是否遗漏重要内容。

53.4%

表格召回率

TRR

衡量模型在多表环境中正确识别和选择相关表格的能力。高召回率表示模型很少遗漏必要的表格。

85.3%

任务通过率

Avg@3

评估模型在多轮对话中维持正确推理链的能力。该指标极低（平均5%），表明模型在避免错误累积和保持上下文一致性方面面临巨大挑战。

5.0%

数据集统计

全面的数据分布与难度分析

领域分布

工程科学 28%

金融服务 22%

商业运营 18%

宏观经济 15%

消费生活 10%

社会政策 7%

拓扑结构分布

Tree (32.9%)

Fork-Join (27.6%)

Chain (24.6%)

问题难度分布

简单查询 15%

条件筛选 25%

指标推理 30%

复杂多表推理 30%

平均对话轮数 4.29

平均每文件夹表格数 4.15

十大典型问题类型

📊

对比分析

📈

趋势分析

🎯

分布分析

🔗

因果分析

🔍

评估诊断

🏆

排名筛选

🧮

聚合统计

📉

11专业分析工具 · 3大类别 · 平均30+次调用

🔍

表格检索工具

4个

文本搜索2.01次

表格语义检索器2.49次

语义行检索器2.10次

语义列检索器0.77次

平均调用 7.37次

⚙️

表格处理工具

4个

Excel转CSV工具1.54次

表头读取工具4.39次

表头合并工具0.96次

表格拆分工具0.89次

平均调用 7.78次

💻

代码执行工具

2个

Python执行器17.93次

命令执行器2.48次

平均调用 20.41次

占总调用次数57.4%

准备好测试你的模型了吗？

提交你的模型，我们将在测试完成后将结果加入排行榜

下载样本数据

基准测试的挑战

通过TAEF框架诊断的主要失败模式与困难任务分析

错误类型分布

表格理解错误

38%

模型未能正确理解表格结构、表头关系或数据含义，导致错误的数据解释

问题理解偏差

36%

模型对用户问题的理解出现偏差，回答与问题不相关或部分相关

表格定位错误

21%

模型在多表环境中选择了错误的表格，或遗漏了必要的表格

累积传播错误

多轮对话中，前期错误在后续轮次中累积传播，导致最终结果错误

🔍 困难任务执行分析

📊

表格理解错误 & 累积传播错误

Code Error Caused by Table Comprehension | Cumulative Propagation Errors

❌ 表格理解错误

模型在代码执行块之间未能保持状态，尝试引用之前块中定义的变量(all_data)而未重新加载，导致重复的NameError异常。

⚠️ 累积传播错误

最终报告建立在有缺陷的数据提取之上，将中间（错误）结论当作事实，导致分析结果完全偏离。

🎯

表格定位错误 & 问题理解偏差

Table Localization Error | Question Understanding Deviations

🔍 表格定位错误

模型错误地将两个不同表格的数据合并计算总流量，而正确做法应仅从特定表格提取数值。

💬 问题理解偏差

用户要求计算平均会话时长并比较分布，模型却仅提供了会话数量统计表，完全遗漏了时长分析。