AI模型MiMo 小米推理模型通过预训练和后训练策略提升语言模型的推理潜力
小米MiMo-7B系列模型从零开始训练,专为推理任务设计。实验显示,MiMo-7B-Base模型推理潜能很强,超过不少320亿参数的大模型,对冷启动的SFT模型进行强化学习训练后得到MiMo-7B-RL,在数学和代码推理任务上表现出色,能和OpenAI o1-mini媲美。 米MiMo-7B系列模型包括基础模型、SFT模型、基于基础模型训练的RL模型,还有基于SFT模型训练的RL模型的检查点。 预训练:为推理而生的基础模型 优化数据预处理流程,改进文本提取工具,多维筛选数据,增加预训练数据中的推理模式,