MVP 聚技站｜微软研究院发布 OptiMind：一个将自然语言转换为优化求解器就绪模型的 200 亿参数模型_gpt-oss_决策问题

作者：项斌 - 微软最有价值专家（MVP）

排版：Alan Wang

微软研究院发布了 OptiMind，这是一个基于 AI 的系统，能够将复杂决策问题的自然语言描述转换为优化求解器可执行的数学公式。它解决了运筹学中长期存在的一个瓶颈问题：将业务意图转换为混合整数线性规划通常需要专业建模人员和数天的工作。

OptiMind 是什么？它输出什么?

OptiMind-SFT 是 gpt-oss transformer 系列中的一个专业化 200 亿参数专家混合模型。每个 token 约激活 36 亿参数，因此推理成本更接近中型模型，同时保持较高的容量。上下文长度为 128,000 tokens，这允许在单个请求中处理长规范和多步推理轨迹。

该模型接受优化问题的自然语言描述作为输入。输出是数学公式以及使用 GurobiPy 的可执行 Python 代码。生成的脚本定义决策变量、约束和目标，调用 Gurobi 求解器，并打印最优目标值和决策。

我发现 OptiMind 充当了领域专家和标准 MILP 求解器之间的公式化层。它不会替代求解器，而是生成求解器将优化的 MILP。

OptiMind-SFT

架构、训练设置和数据集

基础模型是 openai/gpt-oss-20b，使用清洗后的优化数据集微调为 microsoft/OptiMind-SFT。该架构是专家混合 transformer，具有路由功能,每个 token 激活一部分专家。该模型在 MIT 许可下发布。

训练使用 8 个 NVIDIA B200 GPU，推理和评估在参考设置中使用 8 个 NVIDIA H100 GPU。报告的微调时间约为 8 小时。对于常规使用，团队建议在 A100、H100 或 B200 等硬件上至少需要 32 GB 的 GPU 内存。

对于监督微调,研究团队构建了 OR Instruct 和 OptMATH Train 的清洗版本。对于测试，他们使用经过专家验证和重新清洗的 IndustryOR、Mamo Complex 和 OptMATH 版本。这些基准测试涵盖了困难的公式化任务，现有模型在原始噪声版本上通常只能达到 20% 到 50% 的准确率。

基于类别的错误分析和数据清洗

OptiMind 的一个关键技术思想是将优化专业知识与 LLM 训练相结合。研究团队将 OR-Instruct 和 OptMATH 中的问题分类为 53 个种子类别，例如集合覆盖、流水车间调度或旅行商问题。

然后,，究团队使用半自动化管道。他们使用更大的模型重新生成解决方案，该模型提示带有特定类别的提示，在样本之间应用多数投票以提高解决方案质量，并删除仍然不一致的项目。他们还检测缺失参数和模糊陈述，并在需要时重新生成问题描述。结果是一个清洗后的训练语料库，更好地与正确的数学公式对齐。

推理管道、提示和测试时缩放

在推理时，OptiMind 表现为一个多阶段系统，而不仅仅是单个提示。默认管道首先将每个测试实例分类为错误分析期间使用的 53 个优化类别之一。然后，它使用与该类别相关的错误摘要和提示对增强提示。

然后，模型生成推理轨迹、数学公式和 GurobiPy 代码。当有更多计算资源可用时，系统可以应用多数投票的自洽性。它生成多个候选脚本，执行它们，并选择在设定的数值容差内最常出现的解决方案。

还可以启用多轮校正模式。系统运行生成的代码，捕获求解器日志或执行错误，将此反馈反馈给模型，并让模型修改公式和代码几轮。这以更高的延迟为代价关闭了一些建模和编码错误。

优化基准测试上的量化收益

在 IndustryOR、Mamo-Complex 和 OptMATH 的清洗版本上，OptiMind 框架显著提高了解决方案准确性。微调模型在多个优化基准测试中将公式化准确性提高了 20.7%，当应用自洽性和多轮反馈等测试时扩展技术时，还会获得进一步的收益。

在这些基准测试中，OptiMind 在 gpt-oss-20b-base 模型上提高了绝对准确性，并优于其他类似或更大规模的开源模型。它达到了与专有前沿模型（如 GPT-o4 mini 和 GPT-5）在评估设置下具有竞争力的性能。

这些结果依赖于对训练和测试数据的仔细清洗。研究团队报告说，原始基准测试中的许多明显模型错误实际上来自缺失数据、模糊描述或不正确的参考解决方案，并且重新清洗可以将固定模型的明显准确率从约 40% 到 60% 提高到校正集上的 70% 到 90% 范围。

评估设置

关键要点

OptiMind 是 gpt-oss 系列中的一个 200 亿参数专家混合 transformer，它接受自然语言优化问题作为输入，并输出数学公式和可执行的 GurobiPy 代码，每个 token 激活约 36 亿参数，上下文长度为 128,000 tokens。

该模型从 openai/gpt-oss-20b微调，使用清洗后的优化数据集，如 OR-Instruct 和 OptMATH，并在经过专家验证的基准测试（包括 IndustryOR 和 Mamo Complex）上进行评估，专注于混合整数线性规划公式。

OptiMind 使用基于类别的错误分析和专家编写的 53 个优化类别的提示，然后在数据清洗和推理时应用这些提示，系统地减少了生成的 MILP 中的常见建模错误。

该框架与基础模型相比，在多个优化基准测试中将公式化准确性提高了 20.7%，并且通过自洽性和多轮反馈等测试时扩展方法，它达到了与更大的专有系统具有竞争力的性能。

OptiMind-SFT 在 Hugging Face 上以 microsoft/OptiMind-SFT的形式发布，在 Azure AI Foundry 中以 microsoft-optimind-sft的形式发布，在那里它可以通过 SGLang 作为 OpenAI 兼容端点提供服务，从而实现与供应链、制造、物流和调度的决策支持管道的实际集成。

参考

模型权重
https://huggingface.co/microsoft/OptiMind-SFT
技术细节
https://ai.azure.com/catalog/models/microsoft-optimind-sft

项斌

微软最有价值专家（MVP）

微软全球最有价值专家 MVP，《PyTorch机器学习从入门到实战》作者之一，杭州 FireUG 技术社区发起人之一。超过15+ 年 .NET 开发经历，在数据分析、机器学习、自动化领域近十年从事研发工作。

微软最有价值专家（MVP）

微软最有价值专家是微软公司授予第三方技术专业人士的一个全球奖项。30 多年来，世界各地的技术社区领导者，因其在线上和线下的技术社区中分享专业知识和经验而获得此奖项。

MVP 是经过严格挑选的专家团队，他们代表着技术最精湛且最具智慧的人，是对社区投入极大的热情并乐于助人的专家。MVP 致力于通过演讲、论坛问答、创建网站、撰写博客、分享视频、开源项目、组织会议等方式来帮助他人，并最大程度地帮助微软技术社区用户使用 Microsoft 技术。返回搜狐，查看更多

微软中国MSDN

MVP 聚技站｜微软研究院发布 OptiMind：一个将自然语言转换为优化求解器就绪模型的 200 亿参数模型