LiveMCPBench是一个能在大型多选择工具(MCP tools)环境中对人工智能代理(agent)执行真实世界任务能力进行基准测试和评估的开源项目,通过提供一个MCP Copilot代理实现、一套名为LiveMCPEval的评估框架以及LiveMCPTool工具集,包含标注好的任务数据,能帮助研究人员理解和比较不同代理在复杂工具使用场景下的表现。LiveMCPBench支持对GLM 4.5、GPT-5-Mini、Kimi-K2等多种模型进行评估,通过Docker镜像简化了部署流程。
LiveMCPBench的核心优势体现在任务覆盖广度、工具集成能力与评估机制的完整性上。
任务体系围绕日常生活与工作场景构建,按类别划分包含六大领域,各领域占比与核心任务类型如下:
• Office(33%):涵盖文档处理、数据统计等办公场景任务,例如生成周报、整理表格数据等
• Lifestyle(16%):包含日程管理、生活服务查询等任务,如设置日程提醒、查询周边餐厅
• Leisure(15%):涉及娱乐休闲相关操作,比如推荐电影、生成旅行攻略
• Finance(14%):聚焦财务相关需求,包括账单统计、汇率查询等
• Travel(13%):覆盖出行规划任务,例如查询交通票务、预订酒店
• Shopping(9%):包含商品比价、订单查询等购物场景任务
这些任务均基于真实用户需求设计,每个任务需智能体调用1-3个不同工具协作完成,考验其工具选择与流程规划能力。
项目配套的LiveMCPTool工具集具备稳定、通用、可灵活扩展的特点,目前已集成三类核心工具,总计290个:
• Discovery类(124个):用于信息发现与检索,如搜索引擎、知识库查询工具
• Visualization类(85个):专注数据可视化,支持生成图表、报表等
• File Access类(81个):负责文件读写与管理,兼容文档、表格、图片等多种格式文件
所有工具均采用统一接口设计,智能体可通过标准化调用流程实现工具对接,无需针对单个工具单独适配,降低了多工具协作的技术门槛。
评估模块LiveMCPEval采用“LLM-as-a-Judge”模式,通过Judge Agent对智能体的任务执行过程与结果进行打分,核心评估维度包括:
• 工具选择准确性:判断智能体是否选用最优工具组合
• 执行流程合理性:检查工具调用顺序与参数设置是否符合逻辑
• 任务完成度:对比输出结果与预期目标的匹配程度
评估过程中,Judge Agent会基于智能体的工具调用轨迹、生成的查询语句、使用的工具列表等数据,生成详细反馈报告,帮助开发者定位智能体在工具使用中的短板。
LiveMCPBench支持Docker部署与本地部署两种方式。
若选择本地部署,需提前安装以下工具: • npm:用于前端工具依赖管理
• uv:Python包管理工具,提升依赖安装效率
1、拉取官方镜像
docker pull hysdhlx/livemcpbench:latest
2、克隆代码仓库并进入目录
git clone https://github.com/icip-cas/LiveMCPBench.git
cd LiveMCPBench
3、启动容器,挂载本地目录并配置GPU支持
docker run -itd \
-v "$(pwd):/outside" \
--gpus all \
--ipc=host \
--net=host \
--name LiveMCPBench_container \
hysdhlx/livemcpbench:latest \
bash
4、进入容器并重置环境
docker exec -it LiveMCPBench_container bash
cd /LiveMCPBench/
bash scripts/env_reset.sh
该命令会将本地仓库代码复制到容器内指定目录,并关联标注数据文件夹。
1、复制环境变量模板并配置参数
cp .env_template .env
需在.env文件中设置的核心参数包括:
• 智能体配置:BASE_URL、OPENAI_API_KEY、MODEL(指定调用的大模型)
• 工具检索配置:EMBEDDING_MODEL(嵌入模型)、EMBEDDING_API_KEY、TOP_TOOLS(每次检索返回的工具数量)
• 代理配置(可选):http_proxy、https_proxy(如需通过代理访问外部服务)
2、检查工具可用性
bash ./tools/scripts/tool_check.sh
运行后可查看./tools/test/tools.json文件,确认工具是否正常加载;若部分工具异常,可多次执行该脚本重试。
3、索引服务器资源
uv run -m baseline.mcp_copilot.arg_generation
完成索引后,智能体才能高效检索所需工具。
通过以下命令运行简单示例,验证环境是否正常:
bash ./baseline/scripts/run_example.sh
结果会保存至./baseline/output/目录,包含智能体的工具调用轨迹与任务输出。
1、确保.env文件中环境变量配置正确,执行全量测试:
bash ./baseline/scripts/run_baselines.sh
默认使用/root目录存储智能体访问的数据文件,本地部署时需确保文件路径正确。
2、查看测试结果:任务执行轨迹与输出文件均位于./baseline/output目录,可分析智能体在不同任务中的工具选择策略。
1、修改.env文件中的MODEL参数,指定用于评估的大模型
2、运行评估脚本:
bash ./evaluator/scripts/run_baseline.sh
3、查看评估结果:评估报告保存于./evaluator/output目录
4、计算成功率:
uv run ./evaluator/stat_success_rate.py --result_path /path/to/evaluation/
将/path/to/evaluation/替换为实际评估结果存储路径,即可得到智能体在测试任务中的整体成功率。
规划行动统一与粒度控制的LLM代理递归代码生成工具 ReCode
Qwen多模态模型PyTorch轻量复现版 Tiny Qwen,支持文本处理、视觉理解、稠密模型和专家混合模型(MoE)
Magic 一体化AI生产力平台,提供通用AI智能体、AI工作流引擎、AI知识库、AI在线协同办公四大核心功能
可视化编程工具Flyde,通过拖拽连接不同的节点来创建程序
Markdown 编辑器 Yank Note
ccundo:Claude Code会话的智能撤销和重做工具
无代码数据库 Teable
Crawl4AI RAG MCP Server 为 AI 代理和 AI 编码助手提供网页爬取与 RAG 功能的 MCP 服务器
安易加速器新用户领365天免费使用福利!最新Windows和安卓客户端下载地址
Agent-MCP:基于MCP协议的多智能体协作框架
Muscle Memory:AI智能体行为缓存工具
ACE-Step是一个用于音乐生成的开源基础模型