基于TableAgent-Bench的模型性能对比
| 排名 ↕ | 模型 ↕ | IC ↕ | Avg@3 ↕ | TRR ↕ | TRP ↕ | 工具成功率 ↕ | 类型 |
|---|
即使是最强的模型Gemini-3-Pro-Preview,在TableAgent-Bench上也仅达到53.4%的信息覆盖率, Avg@3仅为5%。这表明当前LLM智能体在真实工业场景下的表格推理能力仍存在巨大挑战。
Thinking模型在复杂多轮推理任务中表现明显优于非Thinking模型。前10名中有8个是Thinking模型, 平均IC得分高出非Thinking模型约15-20%。
大多数模型在工具调用成功率上表现良好(80-95%),但在信息覆盖率上却差异巨大(2-53%)。 这表明调用工具不等于正确推理,模型在理解表格和生成正确代码方面仍有很大提升空间。
随着对话轮次增加,模型性能显著下降。Avg@3指标普遍低于5%,说明模型在维持长期上下文一致性 和避免错误传播方面面临严峻挑战。
TAEF框架四大评估维度及代表性能力指标
衡量模型调用工具(如代码执行、表格检索)的成功比例。高成功率表明模型能够正确生成工具调用指令,但不一定代表推理正确。
评估模型回答中包含的关键信息占所需信息的比例。这是衡量回答完整性的核心指标,反映模型是否遗漏重要内容。
衡量模型在多表环境中正确识别和选择相关表格的能力。高召回率表示模型很少遗漏必要的表格。
评估模型在多轮对话中维持正确推理链的能力。该指标极低(平均5%),表明模型在避免错误累积和保持上下文一致性方面面临巨大挑战。
全面的数据分布与难度分析
通过TAEF框架诊断的主要失败模式与困难任务分析
模型未能正确理解表格结构、表头关系或数据含义,导致错误的数据解释
模型对用户问题的理解出现偏差,回答与问题不相关或部分相关
模型在多表环境中选择了错误的表格,或遗漏了必要的表格
多轮对话中,前期错误在后续轮次中累积传播,导致最终结果错误
Code Error Caused by Table Comprehension | Cumulative Propagation Errors
错误分析图(待添加)
模型在代码执行块之间未能保持状态,尝试引用之前块中定义的变量(all_data)而未重新加载,导致重复的NameError异常。
最终报告建立在有缺陷的数据提取之上,将中间(错误)结论当作事实,导致分析结果完全偏离。
Table Localization Error | Question Understanding Deviations
错误分析图(待添加)
模型错误地将两个不同表格的数据合并计算总流量,而正确做法应仅从特定表格提取数值。
用户要求计算平均会话时长并比较分布,模型却仅提供了会话数量统计表,完全遗漏了时长分析。