AI 编程冲击来袭，程序员怎么办？IDEA研究院张磊：底层系统能力才是护城河

采访 | 霍太稳

整理 | 宇琪

编辑 | Tina、蔡芳芳

在人工智能迈向“多模态智能体”新时代的过程中，视觉理解的超高维度、空间智能的建模难题，以及将感知、认知与行动高效整合的挑战，仍如横亘在前的巨大鸿沟。如何让智能体真正实现“看懂、想透、做好”？当前最具可行性的应用突破口是什么？

在 6 月 27-28 日于北京举办的 AICon 全球人工智能开发与应用大会上，InfoQ 现场特别专访了 IDEA 研究院计算机视觉与机器人研究中心讲席科学家张磊。他在采访中剖析了从“半结构化”场景切入的务实落地路径，分享了在工业界如何平衡前沿探索与产品落地的独到见解，并对年轻一代如何在 AI 浪潮中筑牢根基、找准方向给出了恳切建议。

部分精彩观点如下：

当前整个领域面临应用发展过快、而社会大众对应用落地的预期又过于乐观的局面；
必须聚焦具有实际应用意义的真问题，而非仅具论文发表价值的工作；
要踏实地夯实基础能力，通过与 AI 协作，提升自己的编程广度和深度，做出 AI 还无法替代的贡献。

AICon 全球人工智能开发与应用大会将于 8 月 22-23 日首次落地深圳！本次大会以 “探索 AI 应用边界” 为主题，聚焦 Agent、多模态、AI 产品设计等热门方向，围绕企业如何通过大模型降低成本、提升经营效率的实际应用案例，邀请来自头部企业、大厂以及明星创业公司的专家，带来一线的大模型实践经验和前沿洞察。欢迎关注，访问官网了解最新日程：https://aicon.infoq.cn/202508/shenzhen/schedule

以下内容基于采访速记整理，经不改变原意的删减。

多模态智能体的新时代

InfoQ：在实现智能体能够真正“看懂、想透、做好”的过程中，您认为哪些基础问题往往被忽视、但实际上至关重要？

张磊：“看懂”指理解输入信息，“想透”指思考过程，“做好”则是执行行动。这三者实际上涵盖了视觉、语言推理以及机器人的物理执行能力，本质上是一个典型的多模态过程，包含输入、输出及中间的思考环节。这三个环节都极具挑战性，可以说人工智能的持续发展正是围绕这三个方面推进。

过去几年，语言模型首先取得重大突破，机器人本体技术也发展迅猛——人形机器人和四足机器人都取得了显著成果，视觉技术同样进步巨大。然而，将这些环节有效整合仍是关键问题。 例如在具身智能领域，机器人常被认为缺乏“大脑”。人类大脑中有 50% 的皮层区域用于处理视觉信息，因此如果要为机器人构建“大脑”，那么一半的工作应该围绕视觉展开。视觉并不是被忽视了，而是因为它本身就非常复杂。

首先，视觉的输入维度极高，它是连续的空间信号，比如视频流；其次，它涉及对三维结构的理解，人类还具备大量与物体交互相关的通用知识。比如看到某个物体后，我们会知道应该用怎样的动作进行操作，这包括判断能否推动、能否拿起等，这些能力往往超出纯粹视觉的范畴，需要综合知识的支持。我们团队的研究方向一直聚焦于视觉领域，特别是物体层面的理解，过去几年也取得不少进展，但距离我理想中将视觉理解与机器人有效连接起来的目标，仍有大量工作要做。

我曾看到一位研究人员的观点，他提到一个关于“理解与生成是否需要统一”的问题，他认为生成同样需要理解能力。在生成模型的训练过程中，尤其是后训练阶段，往往会引入强化学习，而其中的 reward model，本质上是在判断生成内容的优劣。而判断生成质量，其实正是一种理解。因此，没有理解就无法评估生成的好坏。换句话说，生成模型训练过程中，必须依赖理解模型的辅助。这也说明理解与生成这两个问题之间并非割裂，而是深度耦合的。

InfoQ：现在很多研究者开始关注“空间智能”。在您看来，空间智能最重要的价值是什么？

张磊： 空间智能对机器人至关重要。设想机器人身处环境：首先需识别周围物体，其次判断物体距离，还需理解其结构形状以规划抓取方式。每一步都依赖强大的视觉理解能力，缺乏此能力将严重影响操作的精准度和成功率。

最近在机器人领域，有一些尝试基于端到端模型，如视觉 - 语言 - 行动模型（VLA），其研究思路是希望通过图像输入，直接决定机器人的手如何动作。然而，这类模型普遍缺乏对画面中物体的深入理解和精确定位。正因如此，当前 VLA 模型的实际操作成功率不尽如人意，远未达到实用水平。

要想在这一领域取得突破，需要研究人员不断迭代、分析问题，并逐步提升机器人的抓取和操作成功率，比如从 80% 提升至 90%，再到 95%。但即便达到 99%，在家庭场景中仍可能难以接受——想象让机器人抓取杯子，哪怕抓取 100 次掉落 1 次，已经足以导致用户退货。

空间理解本身就是一个极其复杂的问题，目前在研究领域中也尚未形成统一的建模方法。相比之下，语言模型的发展可以说是一个奇迹。语言序列化预测问题与 Transformer 架构完美契合后，主要依赖增加数据、参数和算力的工程化路径即可持续提升。自 GPT 诞生至今，其模型架构本质仍是 Transformer 的延续。而视觉领域，尤其是三维表示方法仍然没有定论。比如，对于机器人来说，我们希望它具备通用的物体理解能力，而不是只识别有限的几类物品。为了实现这种通用理解，模型该如何构建仍有争议。比如，模型内部的表征到底是用类似 token 的序列结构，还是应当嵌入三维物体的结构表示？这类问题在研究中仍有大量探讨空间。

例如斯坦福大学李飞飞教授便坚定主张：强调在世界模型中应采用三维的内部表示方式，只有这样，模型才能对问题进行正确建模，并在理解和预测上表现得更好。我认为 当前整个领域面临应用发展过快，而社会大众对应用落地的预期又过于乐观的局面。 这种乐观背后，实则需要研究人员脚踏实地，一轮轮填补技术鸿沟。

InfoQ：许多制造业企业对“AI+ 机器人”充满期待，也充满不确定性。您认为，当前最具可行性的应用突破口是什么？您是否看到一些“能规模化落地”的技术路径？

张磊： 要实现规模化落地，模型的通用能力和精准度都必须达到高水平。仅有通用性而精度不足，同样会面临巨大障碍。在此过程中，在这个过程中，虽然部分应用场景相对特定，但它们往往是传统方法难以胜任的问题。例如，当前许多机器人正尝试应用于汽车生产线的上下料环节，虽然现阶段它们的效率可能尚不及人类，但一旦能够进入这些场景，就有机会通过迭代不断优化，从而解决视觉识别、操作控制等关键问题。

这种在实际应用中进行闭环迭代的方式，是十分难得的机会。通过真实场景驱动，技术将获得有价值的进展。此外，人类危险操作或环境始终是机器人应用的理想方向。此类场景下，即使牺牲部分灵活性与智能，甚至采用遥操作结合少量智能，只要能落地应用，研究人员就有机会持续改进系统表现。

然而，要实现真正大规模通用化，例如进入家庭环境，则面临更大挑战。家庭是典型的开放场景：客厅、厨房的灶台或咖啡桌上物品往往杂乱堆放。这对人类轻而易举，但对机器人而言，要理解并清理这些物品，则是对视觉、语言推理及抓取灵活度的严峻考验。我认为这需要更长时间，可能超过 5 年。

目前，很多场景正从“结构化”走向“半结构化”。如生产线机械臂从 A 点抓取物体放置到 B 点，属于上一代技术，依赖高重复性作业。而现代产线需求多变，期望机器人能根据指令灵活操作。这种“半开放”环境介于结构化与全开放之间，为机器人技术的逐步切入提供了可行路径。

研究和产品的平衡

InfoQ：您过去在微软研究院和现在在 IDEA 研究院，都承担了大量基础研究和产品协同的工作。您如何看待工业界研究人员在“做研究”与“促落地”之间的角色定位？

张磊： 我长期在企业从事研究，有更多机会以研究员身份思考问题。我也直接指导博士生，带领他们写论文，同时我的团队也在不断尝试将研究成果应用于商业实践。在微软的经历也表明，最重要的认可就是你的研究成果真正被产品团队采用。因此，研究员在选题或评估工作价值时，常会构建一个坐标系：横轴代表研究价值，纵轴代表应用价值。最理想的状态是位于右上角——兼具研究与应用价值，而最应避免的则是左下角——既无研究价值也无应用价值。

对于工业界研究人员，务必摒弃简单的“论文思维”，研究目的不应仅为发表论文。 尽管对博士生而言，前期写论文是必要的训练过程，是提升逻辑思维和表达能力的重要手段，但在更长期的发展中，研究的目标应当更贴近实际问题的解决。研究人员需要对领域有深入理解，同时也要逐渐培养对问题的预判能力和直觉。这种直觉能帮助你判断哪些问题值得做、能做到什么程度，以及需要多长时间去实现，最终目标始终是解决实际问题。

举个例子，我们团队一直在做目标检测的研究。很多人认为，随着大模型的兴起，检测问题似乎已经解决了，但我们深知，要实现真正通用的检测与感知系统，依然面临巨大挑战。一旦突破，它将带来广泛的应用价值。我们对这个方向始终坚持不懈，持续推进。这种坚持来源于我们对问题本质的深刻理解与解决问题的强烈动机。有些问题可以通过简单的工程方法解决，而另一些问题则没有现成的方法可用，必须通过研究创新来突破。这不是为了研究而研究，而是在面对实际难题时自然产生的探索。

在微软亚洲研究院工作的十多年时间，对我也是极大的锻炼。我们需要真正理解产品团队在做什么，了解他们的痛点在哪里。当然，每个研究人员也都希望自己的工作具有一定的主导性，因此会倾向于选择那些与产品目标相符的研究方向。有时候，研究人员也可以反过来影响产品团队，比如提出一个非常有价值的新技术，然后去探索它是否能解决产品中存在的问题。这是一个双向互动的过程。实际上，很难用一个固定的范式来指导研究如何实现“右上角”的价值。这更多是一个“可遇而不可求”的过程，但如果目标是真正解决具有实际意义的应用问题，那就不应止步于“为发论文而研究”。

InfoQ：有观点认为，工业界研究者如果过于关注产品，很容易失去技术前沿性，从长远来看会削弱创新力。您是否认同这种看法？在您带领团队时，如何平衡这两者之间的关系的？

张磊： 产品开发与研究探索的节奏存在本质差异。产品周期通常以季度为单位，强调结果交付；而研究范式，尤其是在没有现成解决方案的情况下，它更像是在“无人区”中探索，是一种高度创新的过程，难以设定如“两周内必须解决”的硬性指标。

对于创新，一种是研究人员主导的高度创新型，另一种是像军队一样协调推进的产品开发型，这两者的运作节奏截然不同。将这两种人员强行混合在同一团队，往往会带来很大的痛苦，尤其是对研究人员来说更是如此。比如，每一两周就要交付、必须量化成果的节奏，会极大干扰他们的工作。研究本质上需要更开放的环境，更重要的是激发研究者内在的驱动力，让他们发自内心地去解决问题。要达到理想效果，节奏管控不宜过严，需给予研究人员探索空间。同时，也要确保他们研究的问题不脱离现实，不陷入“象牙塔”，而是和产品方向相关联。这要求管理者深刻理解两种模式，才能有效平衡二者关系。

以 OpenAI 发展为例：GPT-1、GPT-2 阶段基本是自由发散式研究，团队自身也无法预知哪条技术路径能成功。但在认识到 GPT 技术范式的巨大潜力后，内部迅速统一认知，果断调集资源集中攻关，此时研究范式便转向项目制。如今的 GPT 系列研发，更像是一种工程导向的模式，依赖迭代算力、系统架构和数据。而这种范式虽然强调工程能力，但同时也需要非常强的研究支撑，因为实验的基础依然是科学问题，只是通过工程手段不断验证和推进。

给年轻人的建议

InfoQ：对年轻研究者或工程师，您更看重哪些“底层能力”？在您看来，什么样的技术人更能在未来 AI 时代持续产生价值？

张磊： 我在深圳带领一支非常年轻的团队，平均年龄可能不到 30 岁。与团队中的年轻成员交流研究方向时，我发现不同年龄段有不同的焦虑。年轻人常担忧：“我们天天做这些工作，但没有接触大模型，会不会被淘汰？”我通常会跟他们解释，其实不是这样的。

以招聘为例，如果是我在为大模型团队挑人，我一定不会优先看他有没有大模型调参经验，而是看他是否具备扎实的计算机基础能力。这些基础能力包括对操作系统、体系结构、分布式系统的理解。例如，在大模型训练中，真正的挑战不是简单的模型调参，而是如何把上千张 GPU 卡联合起来训练，并确保系统稳定、不卡顿，这时候你对并行计算的掌握就变得至关重要。

如果你缺乏这类能力，只能在两三台机器上训练模型，那在实际项目中很可能会被具备系统能力的人取代。因为在一个快速推进的大团队中，最优先的任务往往是让千卡规模的训练稳定运行，而不是只在模型结构上做微调。有时候我会和学生或同事讲 FlashAttention 的故事。它本质上没有太高深的数学背景，只是作者非常理解 Transformer 中 attention 的计算过程，以及 GPU 架构的特性。他利用 GPU 中 L1 cache 的高速访问能力，把这部分计算效率提高了 2 到 3 倍。这种非常基础的优化，对整个领域的推动反而更大。

因此，我建议 不要停留在“调参侠”或“炼丹侠”层面——仅修改参数、运行实验，而要去思考这些实验背后的原理。比如并行计算是怎么实现的？为什么上千张 GPU 可以协同工作？如果训练变慢了，瓶颈在哪里？以 DeepSeek 的工作为例，不管是 V3 还是 R1，这些被广泛关注的成果，其实背后几乎都是系统级的突破。例如，他们如何将训练过程优化为 FP8 精度？如何让流水线并行把 GPU 的每个单元算力都榨干发挥出来？这都要求研究者对系统架构有非常深入的理解。

我给年轻人的建议是：无论你当前做的是哪一类工作，专注于把基础打牢。不要过度焦虑所谓的 35 岁危机，也不要因为没做过大模型就自我否定。只要你具备扎实的代码能力和系统理解，机会一定会出现。实际上，在我们招人时，真正有这些能力的人并不多，并不是随便具备一点经验就能胜任的。真正能把底层做扎实的人，始终是团队中最稀缺、最宝贵的。

InfoQ：AI 都可以写代码了，还要不要报考计算机专业？

张磊： 这与我的前述观点相关：所有工作都应先打好基础。对于即将报考志愿的高中毕业生，我建议优先选择基础学科专业，例如计算机科学。避免过早选择过于偏重应用的专业，因为应用方向会随时间变迁。 计算机领域自五六十年代发展至今，其底层逻辑——如 CPU/GPU 架构设计、操作系统原理——历经多轮迭代依然稳固。深入理解这些基础后，再学习人工智能会更有优势，而扎实的基础能让你走得更远。

报考志愿时不必过度焦虑人工智能带来的冲击，当前 AI 编程能力的发展，主要冲击的是从事基础编码工作的普通程序员。未来对大家的要求是成为更出色的程序员，能力需超越 AI。AI 应该成为我们的辅助工具，帮助我们编程，而不是取代我们。如果一个程序员只能写简单界面，而 AI 已经可以通过产品经理的自然语言指令生成这些界面，那他确实会被边缘化。因此，还是要踏实地夯实基础能力，通过与 AI 协作，提升自己的编程广度和深度，做出 AI 还无法替代的贡献。

180 天狠赚 5.7 亿，8 人团队全员财富自由，最大功臣是 Claude 和 Gemini

Cursor 搭 MCP，一句话就能让数据库裸奔！？不是代码bug，是MCP 天生架构设计缺陷

卷疯了！这个清华系Agent框架开源后迅速斩获1.9k stars，还要“消灭”Prompt？

会议推荐

首届 AICon 全球人工智能开发与应用大会（深圳站）将于 8 月 22-23 日正式举行！本次大会以 “探索 AI 应用边界” 为主题，聚焦 Agent、多模态、AI 产品设计等热门方向，围绕企业如何通过大模型降低成本、提升经营效率的实际应用案例，邀请来自头部企业、大厂以及明星创业公司的专家，带来一线的大模型实践经验和前沿洞察。一起探索 AI 应用的更多可能，发掘 AI 驱动业务增长的新路径！

创作场景

AI 编程冲击来袭，程序员怎么办？IDEA 研究院张磊：底层系统能力才是护城河

多模态智能体的新时代

研究和产品的平衡

给年轻人的建议