机器学习ZeroSearch强化学习框架,用于提升LLM的搜索能力,降低API成本
在大语言模型(LLMs)的发展进程中,搜索能力是一个重要的研究方向,阿里巴巴研究团队的ZeroSearch是一种全新的强化学习框架,能在不与真实搜索引擎交互的情况下,激发大语言模型的搜索能力。 ZeroSearch通过监督微调,将大语言模型转变为一个检索模块,这个检索模块可以根据查询生成相关文档,同时也会生成一些噪声文档。研究团队引入了课程展开机制,通过让模型接触越来越有挑战性的检索场景,逐步激发模型的推理能力。 研究人员在领域内和领域外的数据集上都进行了大量实验,实验结果显示,ZeroSearch的表