MCP工具智能体基准测试 LiveMCPBench

9月4日发布在MCP服务

LiveMCPBench是一个能在大型多选择工具(MCP tools)环境中对人工智能代理(agent)执行真实世界任务能力进行基准测试和评估的开源项目,通过提供一个MCP Copilot代理实现、一套名为LiveMCPEval的评估框架以及LiveMCPTool工具集,包含标注好的任务数据,能帮助研究人员理解和比较不同代理在复杂工具使用场景下的表现。LiveMCPBench支持对GLM 4.5、GPT-5-Mini、Kimi-K2等多种模型进行评估,通过Docker镜像简化了部署流程。

LiveMCPBench的核心优势体现在任务覆盖广度、工具集成能力与评估机制的完整性上。

1、覆盖多场景的任务设计

任务体系围绕日常生活与工作场景构建,按类别划分包含六大领域,各领域占比与核心任务类型如下:

• Office(33%):涵盖文档处理、数据统计等办公场景任务,例如生成周报、整理表格数据等

• Lifestyle(16%):包含日程管理、生活服务查询等任务,如设置日程提醒、查询周边餐厅

• Leisure(15%):涉及娱乐休闲相关操作,比如推荐电影、生成旅行攻略

• Finance(14%):聚焦财务相关需求,包括账单统计、汇率查询等

• Travel(13%):覆盖出行规划任务,例如查询交通票务、预订酒店

• Shopping(9%):包含商品比价、订单查询等购物场景任务

这些任务均基于真实用户需求设计,每个任务需智能体调用1-3个不同工具协作完成,考验其工具选择与流程规划能力。

2、LiveMCPTool:即插即用的工具集

项目配套的LiveMCPTool工具集具备稳定、通用、可灵活扩展的特点,目前已集成三类核心工具,总计290个:

• Discovery类(124个):用于信息发现与检索,如搜索引擎、知识库查询工具

• Visualization类(85个):专注数据可视化,支持生成图表、报表等

• File Access类(81个):负责文件读写与管理,兼容文档、表格、图片等多种格式文件

所有工具均采用统一接口设计,智能体可通过标准化调用流程实现工具对接,无需针对单个工具单独适配,降低了多工具协作的技术门槛。

3、LiveMCPEval:LLM驱动的评估机制

评估模块LiveMCPEval采用“LLM-as-a-Judge”模式,通过Judge Agent对智能体的任务执行过程与结果进行打分,核心评估维度包括:

• 工具选择准确性:判断智能体是否选用最优工具组合

• 执行流程合理性:检查工具调用顺序与参数设置是否符合逻辑

• 任务完成度:对比输出结果与预期目标的匹配程度

评估过程中,Judge Agent会基于智能体的工具调用轨迹、生成的查询语句、使用的工具列表等数据,生成详细反馈报告,帮助开发者定位智能体在工具使用中的短板。

LiveMCPEval部署和使用

LiveMCPBench支持Docker部署与本地部署两种方式。

若选择本地部署,需提前安装以下工具: • npm:用于前端工具依赖管理

• uv:Python包管理工具,提升依赖安装效率

Docker部署流程

1、拉取官方镜像

docker pull hysdhlx/livemcpbench:latest

2、克隆代码仓库并进入目录

git clone https://github.com/icip-cas/LiveMCPBench.git
cd LiveMCPBench

3、启动容器,挂载本地目录并配置GPU支持

docker run -itd \
-v "$(pwd):/outside" \
--gpus all \
--ipc=host \
--net=host \
--name LiveMCPBench_container \
hysdhlx/livemcpbench:latest \
bash

4、进入容器并重置环境

docker exec -it LiveMCPBench_container bash
cd /LiveMCPBench/
bash scripts/env_reset.sh

该命令会将本地仓库代码复制到容器内指定目录,并关联标注数据文件夹。

本地部署

1、复制环境变量模板并配置参数

cp .env_template .env

需在.env文件中设置的核心参数包括:

• 智能体配置:BASE_URL、OPENAI_API_KEY、MODEL(指定调用的大模型)

• 工具检索配置:EMBEDDING_MODEL(嵌入模型)、EMBEDDING_API_KEY、TOP_TOOLS(每次检索返回的工具数量)

• 代理配置(可选):http_proxy、https_proxy(如需通过代理访问外部服务)

2、检查工具可用性

bash ./tools/scripts/tool_check.sh

运行后可查看./tools/test/tools.json文件,确认工具是否正常加载;若部分工具异常,可多次执行该脚本重试。

3、索引服务器资源

uv run -m baseline.mcp_copilot.arg_generation

完成索引后,智能体才能高效检索所需工具。

智能体运行和评估

快速启动示例

通过以下命令运行简单示例,验证环境是否正常:

bash ./baseline/scripts/run_example.sh

结果会保存至./baseline/output/目录,包含智能体的工具调用轨迹与任务输出。

完整任务测试

1、确保.env文件中环境变量配置正确,执行全量测试:

bash ./baseline/scripts/run_baselines.sh

默认使用/root目录存储智能体访问的数据文件,本地部署时需确保文件路径正确。

2、查看测试结果:任务执行轨迹与输出文件均位于./baseline/output目录,可分析智能体在不同任务中的工具选择策略。

评估流程

1、修改.env文件中的MODEL参数,指定用于评估的大模型

2、运行评估脚本:

bash ./evaluator/scripts/run_baseline.sh

3、查看评估结果:评估报告保存于./evaluator/output目录

4、计算成功率:

uv run ./evaluator/stat_success_rate.py --result_path /path/to/evaluation/

将/path/to/evaluation/替换为实际评估结果存储路径,即可得到智能体在测试任务中的整体成功率。