写点什么

AI 编程冲击来袭,程序员怎么办?IDEA 研究院张磊:底层系统能力才是护城河

  • 2025-07-14
    北京
  • 本文字数:6206 字

    阅读完需:约 20 分钟

AI 编程冲击来袭,程序员怎么办?IDEA研究院张磊:底层系统能力才是护城河

采访 | 霍太稳

整理 | 宇琪

编辑 | Tina、蔡芳芳


在人工智能迈向“多模态智能体”新时代的过程中,视觉理解的超高维度、空间智能的建模难题,以及将感知、认知与行动高效整合的挑战,仍如横亘在前的巨大鸿沟。如何让智能体真正实现“看懂、想透、做好”?当前最具可行性的应用突破口是什么?


在 6 月 27-28 日于北京举办的 AICon 全球人工智能开发与应用大会上,InfoQ 现场特别专访了 IDEA 研究院计算机视觉与机器人研究中心讲席科学家张磊。他在采访中剖析了从“半结构化”场景切入的务实落地路径,分享了在工业界如何平衡前沿探索与产品落地的独到见解,并对年轻一代如何在 AI 浪潮中筑牢根基、找准方向给出了恳切建议。


部分精彩观点如下:


  • 当前整个领域面临应用发展过快、而社会大众对应用落地的预期又过于乐观的局面;

  • 必须聚焦具有实际应用意义的真问题,而非仅具论文发表价值的工作;

  • 要踏实地夯实基础能力,通过与 AI 协作,提升自己的编程广度和深度,做出 AI 还无法替代的贡献。


AICon 全球人工智能开发与应用大会将于 8 月 22-23 日首次落地深圳!本次大会以 “探索 AI 应用边界” 为主题,聚焦 Agent、多模态、AI 产品设计等热门方向,围绕企业如何通过大模型降低成本、提升经营效率的实际应用案例,邀请来自头部企业、大厂以及明星创业公司的专家,带来一线的大模型实践经验和前沿洞察。欢迎关注,访问官网了解最新日程:https://aicon.infoq.cn/202508/shenzhen/schedule


以下内容基于采访速记整理,经不改变原意的删减。


多模态智能体的新时代


InfoQ:在实现智能体能够真正“看懂、想透、做好”的过程中,您认为哪些基础问题往往被忽视、但实际上至关重要?


张磊:“看懂”指理解输入信息,“想透”指思考过程,“做好”则是执行行动。这三者实际上涵盖了视觉、语言推理以及机器人的物理执行能力,本质上是一个典型的多模态过程,包含输入、输出及中间的思考环节。这三个环节都极具挑战性,可以说人工智能的持续发展正是围绕这三个方面推进。


过去几年,语言模型首先取得重大突破,机器人本体技术也发展迅猛——人形机器人和四足机器人都取得了显著成果,视觉技术同样进步巨大。然而,将这些环节有效整合仍是关键问题。 例如在具身智能领域,机器人常被认为缺乏“大脑”。人类大脑中有 50% 的皮层区域用于处理视觉信息,因此如果要为机器人构建“大脑”,那么一半的工作应该围绕视觉展开。视觉并不是被忽视了,而是因为它本身就非常复杂。


首先,视觉的输入维度极高,它是连续的空间信号,比如视频流;其次,它涉及对三维结构的理解,人类还具备大量与物体交互相关的通用知识。比如看到某个物体后,我们会知道应该用怎样的动作进行操作,这包括判断能否推动、能否拿起等,这些能力往往超出纯粹视觉的范畴,需要综合知识的支持。我们团队的研究方向一直聚焦于视觉领域,特别是物体层面的理解,过去几年也取得不少进展,但距离我理想中将视觉理解与机器人有效连接起来的目标,仍有大量工作要做。


我曾看到一位研究人员的观点,他提到一个关于“理解与生成是否需要统一”的问题,他认为生成同样需要理解能力。在生成模型的训练过程中,尤其是后训练阶段,往往会引入强化学习,而其中的 reward model,本质上是在判断生成内容的优劣。而判断生成质量,其实正是一种理解。因此,没有理解就无法评估生成的好坏。换句话说,生成模型训练过程中,必须依赖理解模型的辅助。这也说明理解与生成这两个问题之间并非割裂,而是深度耦合的。


InfoQ:现在很多研究者开始关注“空间智能”。在您看来,空间智能最重要的价值是什么?


张磊: 空间智能对机器人至关重要。设想机器人身处环境:首先需识别周围物体,其次判断物体距离,还需理解其结构形状以规划抓取方式。每一步都依赖强大的视觉理解能力,缺乏此能力将严重影响操作的精准度和成功率。


最近在机器人领域,有一些尝试基于端到端模型,如视觉 - 语言 - 行动模型(VLA),其研究思路是希望通过图像输入,直接决定机器人的手如何动作。然而,这类模型普遍缺乏对画面中物体的深入理解和精确定位。正因如此,当前 VLA 模型的实际操作成功率不尽如人意,远未达到实用水平。


要想在这一领域取得突破,需要研究人员不断迭代、分析问题,并逐步提升机器人的抓取和操作成功率,比如从 80% 提升至 90%,再到 95%。但即便达到 99%,在家庭场景中仍可能难以接受——想象让机器人抓取杯子,哪怕抓取 100 次掉落 1 次,已经足以导致用户退货。


空间理解本身就是一个极其复杂的问题,目前在研究领域中也尚未形成统一的建模方法。相比之下,语言模型的发展可以说是一个奇迹。语言序列化预测问题与 Transformer 架构完美契合后,主要依赖增加数据、参数和算力的工程化路径即可持续提升。自 GPT 诞生至今,其模型架构本质仍是 Transformer 的延续。而视觉领域,尤其是三维表示方法仍然没有定论。比如,对于机器人来说,我们希望它具备通用的物体理解能力,而不是只识别有限的几类物品。为了实现这种通用理解,模型该如何构建仍有争议。比如,模型内部的表征到底是用类似 token 的序列结构,还是应当嵌入三维物体的结构表示?这类问题在研究中仍有大量探讨空间。


例如斯坦福大学李飞飞教授便坚定主张:强调在世界模型中应采用三维的内部表示方式,只有这样,模型才能对问题进行正确建模,并在理解和预测上表现得更好。我认为 当前整个领域面临应用发展过快,而社会大众对应用落地的预期又过于乐观的局面。 这种乐观背后,实则需要研究人员脚踏实地,一轮轮填补技术鸿沟。


InfoQ:许多制造业企业对“AI+ 机器人”充满期待,也充满不确定性。您认为,当前最具可行性的应用突破口是什么?您是否看到一些“能规模化落地”的技术路径?


张磊: 要实现规模化落地,模型的通用能力和精准度都必须达到高水平。仅有通用性而精度不足,同样会面临巨大障碍。在此过程中,在这个过程中,虽然部分应用场景相对特定,但它们往往是传统方法难以胜任的问题。例如,当前许多机器人正尝试应用于汽车生产线的上下料环节,虽然现阶段它们的效率可能尚不及人类,但一旦能够进入这些场景,就有机会通过迭代不断优化,从而解决视觉识别、操作控制等关键问题。


这种在实际应用中进行闭环迭代的方式,是十分难得的机会。通过真实场景驱动,技术将获得有价值的进展。此外,人类危险操作或环境始终是机器人应用的理想方向。此类场景下,即使牺牲部分灵活性与智能,甚至采用遥操作结合少量智能,只要能落地应用,研究人员就有机会持续改进系统表现。


然而,要实现真正大规模通用化,例如进入家庭环境,则面临更大挑战。家庭是典型的开放场景:客厅、厨房的灶台或咖啡桌上物品往往杂乱堆放。这对人类轻而易举,但对机器人而言,要理解并清理这些物品,则是对视觉、语言推理及抓取灵活度的严峻考验。我认为这需要更长时间,可能超过 5 年。


目前,很多场景正从“结构化”走向“半结构化”。如生产线机械臂从 A 点抓取物体放置到 B 点,属于上一代技术,依赖高重复性作业。而现代产线需求多变,期望机器人能根据指令灵活操作。这种“半开放”环境介于结构化与全开放之间,为机器人技术的逐步切入提供了可行路径。


研究和产品的平衡


InfoQ:您过去在微软研究院和现在在 IDEA 研究院,都承担了大量基础研究和产品协同的工作。您如何看待工业界研究人员在“做研究”与“促落地”之间的角色定位?


张磊: 我长期在企业从事研究,有更多机会以研究员身份思考问题。我也直接指导博士生,带领他们写论文,同时我的团队也在不断尝试将研究成果应用于商业实践。在微软的经历也表明,最重要的认可就是你的研究成果真正被产品团队采用。因此,研究员在选题或评估工作价值时,常会构建一个坐标系:横轴代表研究价值,纵轴代表应用价值。最理想的状态是位于右上角——兼具研究与应用价值,而最应避免的则是左下角——既无研究价值也无应用价值。


对于工业界研究人员,务必摒弃简单的“论文思维”,研究目的不应仅为发表论文。 尽管对博士生而言,前期写论文是必要的训练过程,是提升逻辑思维和表达能力的重要手段,但在更长期的发展中,研究的目标应当更贴近实际问题的解决。研究人员需要对领域有深入理解,同时也要逐渐培养对问题的预判能力和直觉。这种直觉能帮助你判断哪些问题值得做、能做到什么程度,以及需要多长时间去实现,最终目标始终是解决实际问题。


举个例子,我们团队一直在做目标检测的研究。很多人认为,随着大模型的兴起,检测问题似乎已经解决了,但我们深知,要实现真正通用的检测与感知系统,依然面临巨大挑战。一旦突破,它将带来广泛的应用价值。我们对这个方向始终坚持不懈,持续推进。这种坚持来源于我们对问题本质的深刻理解与解决问题的强烈动机。有些问题可以通过简单的工程方法解决,而另一些问题则没有现成的方法可用,必须通过研究创新来突破。这不是为了研究而研究,而是在面对实际难题时自然产生的探索。


在微软亚洲研究院工作的十多年时间,对我也是极大的锻炼。我们需要真正理解产品团队在做什么,了解他们的痛点在哪里。当然,每个研究人员也都希望自己的工作具有一定的主导性,因此会倾向于选择那些与产品目标相符的研究方向。有时候,研究人员也可以反过来影响产品团队,比如提出一个非常有价值的新技术,然后去探索它是否能解决产品中存在的问题。这是一个双向互动的过程。实际上,很难用一个固定的范式来指导研究如何实现“右上角”的价值。这更多是一个“可遇而不可求”的过程,但如果目标是真正解决具有实际意义的应用问题,那就不应止步于“为发论文而研究”。


InfoQ:有观点认为,工业界研究者如果过于关注产品,很容易失去技术前沿性,从长远来看会削弱创新力。您是否认同这种看法?在您带领团队时,如何平衡这两者之间的关系的?


张磊: 产品开发与研究探索的节奏存在本质差异。产品周期通常以季度为单位,强调结果交付;而研究范式,尤其是在没有现成解决方案的情况下,它更像是在“无人区”中探索,是一种高度创新的过程,难以设定如“两周内必须解决”的硬性指标。


对于创新,一种是研究人员主导的高度创新型,另一种是像军队一样协调推进的产品开发型,这两者的运作节奏截然不同。将这两种人员强行混合在同一团队,往往会带来很大的痛苦,尤其是对研究人员来说更是如此。比如,每一两周就要交付、必须量化成果的节奏,会极大干扰他们的工作。研究本质上需要更开放的环境,更重要的是激发研究者内在的驱动力,让他们发自内心地去解决问题。要达到理想效果,节奏管控不宜过严,需给予研究人员探索空间。同时,也要确保他们研究的问题不脱离现实,不陷入“象牙塔”,而是和产品方向相关联。这要求管理者深刻理解两种模式,才能有效平衡二者关系。


以 OpenAI 发展为例:GPT-1、GPT-2 阶段基本是自由发散式研究,团队自身也无法预知哪条技术路径能成功。但在认识到 GPT 技术范式的巨大潜力后,内部迅速统一认知,果断调集资源集中攻关,此时研究范式便转向项目制。如今的 GPT 系列研发,更像是一种工程导向的模式,依赖迭代算力、系统架构和数据。而这种范式虽然强调工程能力,但同时也需要非常强的研究支撑,因为实验的基础依然是科学问题,只是通过工程手段不断验证和推进。


给年轻人的建议


InfoQ:对年轻研究者或工程师,您更看重哪些“底层能力”?在您看来,什么样的技术人更能在未来 AI 时代持续产生价值?


张磊: 我在深圳带领一支非常年轻的团队,平均年龄可能不到 30 岁。与团队中的年轻成员交流研究方向时,我发现不同年龄段有不同的焦虑。年轻人常担忧:“我们天天做这些工作,但没有接触大模型,会不会被淘汰?”我通常会跟他们解释,其实不是这样的。


以招聘为例,如果是我在为大模型团队挑人,我一定不会优先看他有没有大模型调参经验,而是看他是否具备扎实的计算机基础能力。这些基础能力包括对操作系统、体系结构、分布式系统的理解。例如,在大模型训练中,真正的挑战不是简单的模型调参,而是如何把上千张 GPU 卡联合起来训练,并确保系统稳定、不卡顿,这时候你对并行计算的掌握就变得至关重要。


如果你缺乏这类能力,只能在两三台机器上训练模型,那在实际项目中很可能会被具备系统能力的人取代。因为在一个快速推进的大团队中,最优先的任务往往是让千卡规模的训练稳定运行,而不是只在模型结构上做微调。有时候我会和学生或同事讲 FlashAttention 的故事。它本质上没有太高深的数学背景,只是作者非常理解 Transformer 中 attention 的计算过程,以及 GPU 架构的特性。他利用 GPU 中 L1 cache 的高速访问能力,把这部分计算效率提高了 2 到 3 倍。这种非常基础的优化,对整个领域的推动反而更大。


因此,我建议 不要停留在“调参侠”或“炼丹侠”层面——仅修改参数、运行实验,而要去思考这些实验背后的原理。比如并行计算是怎么实现的?为什么上千张 GPU 可以协同工作?如果训练变慢了,瓶颈在哪里?以 DeepSeek 的工作为例,不管是 V3 还是 R1,这些被广泛关注的成果,其实背后几乎都是系统级的突破。例如,他们如何将训练过程优化为 FP8 精度?如何让流水线并行把 GPU 的每个单元算力都榨干发挥出来?这都要求研究者对系统架构有非常深入的理解。


我给年轻人的建议是:无论你当前做的是哪一类工作,专注于把基础打牢。不要过度焦虑所谓的 35 岁危机,也不要因为没做过大模型就自我否定。只要你具备扎实的代码能力和系统理解,机会一定会出现。实际上,在我们招人时,真正有这些能力的人并不多,并不是随便具备一点经验就能胜任的。真正能把底层做扎实的人,始终是团队中最稀缺、最宝贵的。


InfoQ:AI 都可以写代码了,还要不要报考计算机专业?


张磊: 这与我的前述观点相关:所有工作都应先打好基础。对于即将报考志愿的高中毕业生,我建议优先选择基础学科专业,例如计算机科学。避免过早选择过于偏重应用的专业,因为应用方向会随时间变迁。 计算机领域自五六十年代发展至今,其底层逻辑——如 CPU/GPU 架构设计、操作系统原理——历经多轮迭代依然稳固。深入理解这些基础后,再学习人工智能会更有优势,而扎实的基础能让你走得更远。


报考志愿时不必过度焦虑人工智能带来的冲击,当前 AI 编程能力的发展,主要冲击的是从事基础编码工作的普通程序员。未来对大家的要求是成为更出色的程序员,能力需超越 AI。AI 应该成为我们的辅助工具,帮助我们编程,而不是取代我们。如果一个程序员只能写简单界面,而 AI 已经可以通过产品经理的自然语言指令生成这些界面,那他确实会被边缘化。因此,还是要踏实地夯实基础能力,通过与 AI 协作,提升自己的编程广度和深度,做出 AI 还无法替代的贡献。


今日好文推荐


16 年老程序员用 Claude Code 搞副业:我只手敲了 1000 行,剩下 95% 代码靠自动生成


180 天狠赚 5.7 亿,8 人团队全员财富自由,最大功臣是 Claude 和 Gemini


Cursor 搭 MCP,一句话就能让数据库裸奔!?不是代码bug,是MCP 天生架构设计缺陷


卷疯了!这个清华系Agent框架开源后迅速斩获1.9k stars,还要“消灭”Prompt?


会议推荐


首届 AICon 全球人工智能开发与应用大会(深圳站)将于 8 月 22-23 日正式举行!本次大会以 “探索 AI 应用边界” 为主题,聚焦 Agent、多模态、AI 产品设计等热门方向,围绕企业如何通过大模型降低成本、提升经营效率的实际应用案例,邀请来自头部企业、大厂以及明星创业公司的专家,带来一线的大模型实践经验和前沿洞察。一起探索 AI 应用的更多可能,发掘 AI 驱动业务增长的新路径!



2025-07-14 12:527047

评论 2 条评论

发布
用户头像
说的对,应用门槛低迭代迅速很快会过时,底层系统能力才是你的护城河
2025-07-20 13:02 · 浙江
回复
用户头像
看未来的发展,大模型是否具有取代程序员的能力
2025-07-15 09:42 · 四川
回复
没有更多了

公司内部分享文档应该怎么写?看这篇就够了

Baklib

别让你的 SaaS 产品由赋能变为“负能”

产品海豚湾

产品设计 产品运营 SaaS平台 B端产品 9月月更

一次 Rancher 和 openEuler 的上云之旅

openEuler

Linux 开源 openEuler rancher suse

如何在笔记本上安装openEuler 22.03 LTS

openEuler

开源 操作系统 openEuler

Java高手怎样炼成?阿里大牛一份火爆GitHub的1046页笔记帮你解决

钟奕礼

Java 程序员 架构 后端 java面试

2021 金三银四面试必备?体系化带你学习:分布式进阶技术手册

钟奕礼

Java 架构 后端 java面试

iMazing高效便捷的数据转移功能

淋雨

ios iphone

BATJ互联网月薪38K的Java岗面试题首曝光,掌握这些大厂Offer指定跑不了

程序知音

Java java面试 后端技术 秋招 Java面试八股文

面试凉凉,阿里学长甩我一份24w字Java核心技术面试手册,真香

钟奕礼

Java 架构 后端 java面试

阿里被转载上100W次的Java面试题教程!已助我拿下9家大厂offer!

钟奕礼

Java 架构 后端 java面试

StratoVirt 中的 PCI 设备热插拔实现

openEuler

开源 操作系统 虚拟机 openEuler

编译器优化那些事儿(6):别名分析概述

openEuler

开源 编译器 openEuler 毕昇 JDK

开源之夏 | 【结项报告】毕昇Fortran编译器内联动态库函数str_copy

openEuler

开源 操作系统 openEuler 毕昇 JDK

openEuler 资源利用率提升之道 04:CPU 抢占和 SMT 隔离控制

openEuler

开源 openEuler

软件测试 | 测试开发 | 测试面经 | 从测试螺丝钉到大厂测试开发,三点成长心得和面试经验

测吧(北京)科技有限公司

测试

从融云社交泛娱乐出海白皮书,看「社交+X」的全球攻略

融云 RongCloud

即时通讯 白皮书 泛娱乐社交

GitHub获百万推荐的面试涨薪秘籍(Java岗)惨遭封杀?

钟奕礼

Java 后端 java面试 后端架构

iMazing怎么恢复备份?iMazing恢复备份教程分享

淋雨

ios iphone

数据治理的核心:维度建模下的数仓构建

小鲸数据

数据仓库 维度建模 维度 数仓分层 分层划域

八家知名大厂联合手写的Java面试手册刚上线!竟就到达巅峰?

钟奕礼

Java 架构 后端 java面试

揭开HPC应用的神秘面纱

openEuler

开源 openEuler

面试突击87:说一下 Spring 事务传播机制?

王磊

Java 面试

测试开发面试真题 | 测试老兵进阶突破,成功挑战大厂 P7 Offer!

测吧(北京)科技有限公司

测试

小程序容器,组装式应用的一种方案

Geek_99967b

小程序

阿里面试官内部题库,阿里发布2022年Java岗(正式版)面试题

程序知音

Java java面试 后端技术 秋招 Java面试八股文

小程序怎样影响传媒产业的数字化

Geek_99967b

小程序

概述服务网格的优劣势

穿过生命散发芬芳

服务网格 9月月更

Embedded SIG | 树莓派的UEFI支持和网络启动

openEuler

开源 树莓派 操作系统 openEuler

从规模化平台工程实践,我们学到了什么?

SOFAStack

22年程序员更卷了,金九银十“面试必备小册”最新开源

程序知音

Java 阿里 后端技术 秋招 Java面试题

开源实习 | 毕昇JDK发布国密算法实习任务

openEuler

开源 openEuler 毕昇 JDK

AI 编程冲击来袭,程序员怎么办?IDEA研究院张磊:底层系统能力才是护城河_生成式 AI_蔡芳芳_InfoQ精选文章