英特尔DeepMath引入智能架构，助力大型语言模型提升数学计算能力

英特尔宣布了DeepMath，这是一个基于 Qwen3-Thinking 构建的轻量级代理，专门用于解决数学问题。为了解决大型语言模型（LLM）在数学推理方面的常见限制，DeepMath 会生成小段的 Python 脚本，支持并增强其问题解决过程。

据英特尔称，对于大型语言模型来说，数学问题仍然是一项挑战，它们经常会产生冗长的解释和错误的运算。为了解决这一限制，英特尔研究人员尝试了一种新的代理架构，依赖于小型 Python 执行器作为 LLM 推理过程的中间步骤：

DeepMath 基于 Qwen3-4B Thinking 构建，并使用 GRPO（Group Relative Policy Optimization）进行了微调。该模型不会生成冗长的文本，而是输出小段的 Python 代码作为中间步骤，在一个安全的沙箱中运行它们，并将结果反馈回推理过程，减少错误和输出长度。

例如有这样一个问题：找出所有正整数对 x 和 y，使得 y*y*x / (x + y)是一个质数。该模型生成了这个 Python 执行器，并使用比较小的 y 值迭代运行这段代码，从而生成正确的输出：

from sympy import isprimesolutions = []for y in range(1, 10):  # 尝试比较小的y值    for d in range(1, y**2):  # d < y^2        if y**3 % d == 0:            p = y**2 - d            if isprime(p):                x = (y**3 // d) - y                if x > 0:                    solutions.append((x, y))print(solutions)

复制代码

基于在四个不同的数据集上的评估（MATH500、AIME、HMMT和HLE），英特尔声称，数学代理将输出长度减少了高达 66%，而且经常能提高准确性，而使用 GRPO 还带来了进一步的性能提升。

GRPO 训练机制引入了正确答案奖励与代码片段生成奖励，鼓励生成简短的答案，并在训练过程中动态调整温度参数，促进初始训练阶段的探索，并随着模型变得越来越成熟减少探索。该模型采用了 OpenMathReasoning 数据集中的 Tool-Integrated Reasoning（TIR）子集，仅基于四个示例的答案，其中包括调用和执行器输出，目的是使模型能够进行上下文学习。

然而，英特尔指出，最大的收益来自于使用 Python 执行器卸载确定性计算，这是 LLM 不擅长的，这样既减少了运算和数值错误，又因代码简洁而缩短了路径长度。

用于运行执行器的 Python 环境是沙箱化的，只允许执行允许列表中的模块。每个代码片段都受执行超时限制，不允许访问文件或网络。但在生产环境部署中，必须严格管控攻击面、实施速率限制、通过容器或虚拟机保证隔离、监控资源使用情况，并在执行前验证生成的代码。

DeepMath 可以从GitHub和Hugging Face上获得。

原文链接：

https://www.infoq.com/news/2026/01/intel-deepmath-llm-architecture/

创作场景

英特尔 DeepMath 引入智能架构，助力大型语言模型提升数学计算能力