英特尔宣布了DeepMath,这是一个基于 Qwen3-Thinking 构建的轻量级代理,专门用于解决数学问题。为了解决大型语言模型(LLM)在数学推理方面的常见限制,DeepMath 会生成小段的 Python 脚本,支持并增强其问题解决过程。
据英特尔称,对于大型语言模型来说,数学问题仍然是一项挑战,它们经常会产生冗长的解释和错误的运算。为了解决这一限制,英特尔研究人员尝试了一种新的代理架构,依赖于小型 Python 执行器作为 LLM 推理过程的中间步骤:
DeepMath 基于 Qwen3-4B Thinking 构建,并使用 GRPO(Group Relative Policy Optimization)进行了微调。该模型不会生成冗长的文本,而是输出小段的 Python 代码作为中间步骤,在一个安全的沙箱中运行它们,并将结果反馈回推理过程,减少错误和输出长度。
例如有这样一个问题:找出所有正整数对 x 和 y,使得 y*y*x / (x + y)是一个质数。该模型生成了这个 Python 执行器,并使用比较小的 y 值迭代运行这段代码,从而生成正确的输出:
from sympy import isprimesolutions = []for y in range(1, 10): # 尝试比较小的y值 for d in range(1, y**2): # d < y^2 if y**3 % d == 0: p = y**2 - d if isprime(p): x = (y**3 // d) - y if x > 0: solutions.append((x, y))print(solutions)
基于在四个不同的数据集上的评估(MATH500、AIME、HMMT和HLE),英特尔声称,数学代理将输出长度减少了高达 66%,而且经常能提高准确性,而使用 GRPO 还带来了进一步的性能提升。
GRPO 训练机制引入了正确答案奖励与代码片段生成奖励,鼓励生成简短的答案,并在训练过程中动态调整温度参数,促进初始训练阶段的探索,并随着模型变得越来越成熟减少探索。该模型采用了 OpenMathReasoning 数据集中的 Tool-Integrated Reasoning(TIR)子集,仅基于四个示例的答案,其中包括调用和执行器输出,目的是使模型能够进行上下文学习。
然而,英特尔指出,最大的收益来自于使用 Python 执行器卸载确定性计算,这是 LLM 不擅长的,这样既减少了运算和数值错误,又因代码简洁而缩短了路径长度。
用于运行执行器的 Python 环境是沙箱化的,只允许执行允许列表中的模块。每个代码片段都受执行超时限制,不允许访问文件或网络。但在生产环境部署中,必须严格管控攻击面、实施速率限制、通过容器或虚拟机保证隔离、监控资源使用情况,并在执行前验证生成的代码。
DeepMath 可以从GitHub和Hugging Face上获得。
原文链接:
https://www.infoq.com/news/2026/01/intel-deepmath-llm-architecture/





