AICon 深圳站 Keynote 嘉宾官宣!共探AI价值转化的实践路径 了解详情
写点什么

AI 编程冲击来袭,程序员怎么办?IDEA 研究院张磊:底层系统能力才是护城河

  • 2025-07-14
    北京
  • 本文字数:6206 字

    阅读完需:约 20 分钟

AI 编程冲击来袭,程序员怎么办?IDEA研究院张磊:底层系统能力才是护城河

采访 | 霍太稳

整理 | 宇琪

编辑 | Tina、蔡芳芳


在人工智能迈向“多模态智能体”新时代的过程中,视觉理解的超高维度、空间智能的建模难题,以及将感知、认知与行动高效整合的挑战,仍如横亘在前的巨大鸿沟。如何让智能体真正实现“看懂、想透、做好”?当前最具可行性的应用突破口是什么?


在 6 月 27-28 日于北京举办的 AICon 全球人工智能开发与应用大会上,InfoQ 现场特别专访了 IDEA 研究院计算机视觉与机器人研究中心讲席科学家张磊。他在采访中剖析了从“半结构化”场景切入的务实落地路径,分享了在工业界如何平衡前沿探索与产品落地的独到见解,并对年轻一代如何在 AI 浪潮中筑牢根基、找准方向给出了恳切建议。


部分精彩观点如下:


  • 当前整个领域面临应用发展过快、而社会大众对应用落地的预期又过于乐观的局面;

  • 必须聚焦具有实际应用意义的真问题,而非仅具论文发表价值的工作;

  • 要踏实地夯实基础能力,通过与 AI 协作,提升自己的编程广度和深度,做出 AI 还无法替代的贡献。


AICon 全球人工智能开发与应用大会将于 8 月 22-23 日首次落地深圳!本次大会以 “探索 AI 应用边界” 为主题,聚焦 Agent、多模态、AI 产品设计等热门方向,围绕企业如何通过大模型降低成本、提升经营效率的实际应用案例,邀请来自头部企业、大厂以及明星创业公司的专家,带来一线的大模型实践经验和前沿洞察。欢迎关注,访问官网了解最新日程:https://aicon.infoq.cn/202508/shenzhen/schedule


以下内容基于采访速记整理,经不改变原意的删减。


多模态智能体的新时代


InfoQ:在实现智能体能够真正“看懂、想透、做好”的过程中,您认为哪些基础问题往往被忽视、但实际上至关重要?


张磊:“看懂”指理解输入信息,“想透”指思考过程,“做好”则是执行行动。这三者实际上涵盖了视觉、语言推理以及机器人的物理执行能力,本质上是一个典型的多模态过程,包含输入、输出及中间的思考环节。这三个环节都极具挑战性,可以说人工智能的持续发展正是围绕这三个方面推进。


过去几年,语言模型首先取得重大突破,机器人本体技术也发展迅猛——人形机器人和四足机器人都取得了显著成果,视觉技术同样进步巨大。然而,将这些环节有效整合仍是关键问题。 例如在具身智能领域,机器人常被认为缺乏“大脑”。人类大脑中有 50% 的皮层区域用于处理视觉信息,因此如果要为机器人构建“大脑”,那么一半的工作应该围绕视觉展开。视觉并不是被忽视了,而是因为它本身就非常复杂。


首先,视觉的输入维度极高,它是连续的空间信号,比如视频流;其次,它涉及对三维结构的理解,人类还具备大量与物体交互相关的通用知识。比如看到某个物体后,我们会知道应该用怎样的动作进行操作,这包括判断能否推动、能否拿起等,这些能力往往超出纯粹视觉的范畴,需要综合知识的支持。我们团队的研究方向一直聚焦于视觉领域,特别是物体层面的理解,过去几年也取得不少进展,但距离我理想中将视觉理解与机器人有效连接起来的目标,仍有大量工作要做。


我曾看到一位研究人员的观点,他提到一个关于“理解与生成是否需要统一”的问题,他认为生成同样需要理解能力。在生成模型的训练过程中,尤其是后训练阶段,往往会引入强化学习,而其中的 reward model,本质上是在判断生成内容的优劣。而判断生成质量,其实正是一种理解。因此,没有理解就无法评估生成的好坏。换句话说,生成模型训练过程中,必须依赖理解模型的辅助。这也说明理解与生成这两个问题之间并非割裂,而是深度耦合的。


InfoQ:现在很多研究者开始关注“空间智能”。在您看来,空间智能最重要的价值是什么?


张磊: 空间智能对机器人至关重要。设想机器人身处环境:首先需识别周围物体,其次判断物体距离,还需理解其结构形状以规划抓取方式。每一步都依赖强大的视觉理解能力,缺乏此能力将严重影响操作的精准度和成功率。


最近在机器人领域,有一些尝试基于端到端模型,如视觉 - 语言 - 行动模型(VLA),其研究思路是希望通过图像输入,直接决定机器人的手如何动作。然而,这类模型普遍缺乏对画面中物体的深入理解和精确定位。正因如此,当前 VLA 模型的实际操作成功率不尽如人意,远未达到实用水平。


要想在这一领域取得突破,需要研究人员不断迭代、分析问题,并逐步提升机器人的抓取和操作成功率,比如从 80% 提升至 90%,再到 95%。但即便达到 99%,在家庭场景中仍可能难以接受——想象让机器人抓取杯子,哪怕抓取 100 次掉落 1 次,已经足以导致用户退货。


空间理解本身就是一个极其复杂的问题,目前在研究领域中也尚未形成统一的建模方法。相比之下,语言模型的发展可以说是一个奇迹。语言序列化预测问题与 Transformer 架构完美契合后,主要依赖增加数据、参数和算力的工程化路径即可持续提升。自 GPT 诞生至今,其模型架构本质仍是 Transformer 的延续。而视觉领域,尤其是三维表示方法仍然没有定论。比如,对于机器人来说,我们希望它具备通用的物体理解能力,而不是只识别有限的几类物品。为了实现这种通用理解,模型该如何构建仍有争议。比如,模型内部的表征到底是用类似 token 的序列结构,还是应当嵌入三维物体的结构表示?这类问题在研究中仍有大量探讨空间。


例如斯坦福大学李飞飞教授便坚定主张:强调在世界模型中应采用三维的内部表示方式,只有这样,模型才能对问题进行正确建模,并在理解和预测上表现得更好。我认为 当前整个领域面临应用发展过快,而社会大众对应用落地的预期又过于乐观的局面。 这种乐观背后,实则需要研究人员脚踏实地,一轮轮填补技术鸿沟。


InfoQ:许多制造业企业对“AI+ 机器人”充满期待,也充满不确定性。您认为,当前最具可行性的应用突破口是什么?您是否看到一些“能规模化落地”的技术路径?


张磊: 要实现规模化落地,模型的通用能力和精准度都必须达到高水平。仅有通用性而精度不足,同样会面临巨大障碍。在此过程中,在这个过程中,虽然部分应用场景相对特定,但它们往往是传统方法难以胜任的问题。例如,当前许多机器人正尝试应用于汽车生产线的上下料环节,虽然现阶段它们的效率可能尚不及人类,但一旦能够进入这些场景,就有机会通过迭代不断优化,从而解决视觉识别、操作控制等关键问题。


这种在实际应用中进行闭环迭代的方式,是十分难得的机会。通过真实场景驱动,技术将获得有价值的进展。此外,人类危险操作或环境始终是机器人应用的理想方向。此类场景下,即使牺牲部分灵活性与智能,甚至采用遥操作结合少量智能,只要能落地应用,研究人员就有机会持续改进系统表现。


然而,要实现真正大规模通用化,例如进入家庭环境,则面临更大挑战。家庭是典型的开放场景:客厅、厨房的灶台或咖啡桌上物品往往杂乱堆放。这对人类轻而易举,但对机器人而言,要理解并清理这些物品,则是对视觉、语言推理及抓取灵活度的严峻考验。我认为这需要更长时间,可能超过 5 年。


目前,很多场景正从“结构化”走向“半结构化”。如生产线机械臂从 A 点抓取物体放置到 B 点,属于上一代技术,依赖高重复性作业。而现代产线需求多变,期望机器人能根据指令灵活操作。这种“半开放”环境介于结构化与全开放之间,为机器人技术的逐步切入提供了可行路径。


研究和产品的平衡


InfoQ:您过去在微软研究院和现在在 IDEA 研究院,都承担了大量基础研究和产品协同的工作。您如何看待工业界研究人员在“做研究”与“促落地”之间的角色定位?


张磊: 我长期在企业从事研究,有更多机会以研究员身份思考问题。我也直接指导博士生,带领他们写论文,同时我的团队也在不断尝试将研究成果应用于商业实践。在微软的经历也表明,最重要的认可就是你的研究成果真正被产品团队采用。因此,研究员在选题或评估工作价值时,常会构建一个坐标系:横轴代表研究价值,纵轴代表应用价值。最理想的状态是位于右上角——兼具研究与应用价值,而最应避免的则是左下角——既无研究价值也无应用价值。


对于工业界研究人员,务必摒弃简单的“论文思维”,研究目的不应仅为发表论文。 尽管对博士生而言,前期写论文是必要的训练过程,是提升逻辑思维和表达能力的重要手段,但在更长期的发展中,研究的目标应当更贴近实际问题的解决。研究人员需要对领域有深入理解,同时也要逐渐培养对问题的预判能力和直觉。这种直觉能帮助你判断哪些问题值得做、能做到什么程度,以及需要多长时间去实现,最终目标始终是解决实际问题。


举个例子,我们团队一直在做目标检测的研究。很多人认为,随着大模型的兴起,检测问题似乎已经解决了,但我们深知,要实现真正通用的检测与感知系统,依然面临巨大挑战。一旦突破,它将带来广泛的应用价值。我们对这个方向始终坚持不懈,持续推进。这种坚持来源于我们对问题本质的深刻理解与解决问题的强烈动机。有些问题可以通过简单的工程方法解决,而另一些问题则没有现成的方法可用,必须通过研究创新来突破。这不是为了研究而研究,而是在面对实际难题时自然产生的探索。


在微软亚洲研究院工作的十多年时间,对我也是极大的锻炼。我们需要真正理解产品团队在做什么,了解他们的痛点在哪里。当然,每个研究人员也都希望自己的工作具有一定的主导性,因此会倾向于选择那些与产品目标相符的研究方向。有时候,研究人员也可以反过来影响产品团队,比如提出一个非常有价值的新技术,然后去探索它是否能解决产品中存在的问题。这是一个双向互动的过程。实际上,很难用一个固定的范式来指导研究如何实现“右上角”的价值。这更多是一个“可遇而不可求”的过程,但如果目标是真正解决具有实际意义的应用问题,那就不应止步于“为发论文而研究”。


InfoQ:有观点认为,工业界研究者如果过于关注产品,很容易失去技术前沿性,从长远来看会削弱创新力。您是否认同这种看法?在您带领团队时,如何平衡这两者之间的关系的?


张磊: 产品开发与研究探索的节奏存在本质差异。产品周期通常以季度为单位,强调结果交付;而研究范式,尤其是在没有现成解决方案的情况下,它更像是在“无人区”中探索,是一种高度创新的过程,难以设定如“两周内必须解决”的硬性指标。


对于创新,一种是研究人员主导的高度创新型,另一种是像军队一样协调推进的产品开发型,这两者的运作节奏截然不同。将这两种人员强行混合在同一团队,往往会带来很大的痛苦,尤其是对研究人员来说更是如此。比如,每一两周就要交付、必须量化成果的节奏,会极大干扰他们的工作。研究本质上需要更开放的环境,更重要的是激发研究者内在的驱动力,让他们发自内心地去解决问题。要达到理想效果,节奏管控不宜过严,需给予研究人员探索空间。同时,也要确保他们研究的问题不脱离现实,不陷入“象牙塔”,而是和产品方向相关联。这要求管理者深刻理解两种模式,才能有效平衡二者关系。


以 OpenAI 发展为例:GPT-1、GPT-2 阶段基本是自由发散式研究,团队自身也无法预知哪条技术路径能成功。但在认识到 GPT 技术范式的巨大潜力后,内部迅速统一认知,果断调集资源集中攻关,此时研究范式便转向项目制。如今的 GPT 系列研发,更像是一种工程导向的模式,依赖迭代算力、系统架构和数据。而这种范式虽然强调工程能力,但同时也需要非常强的研究支撑,因为实验的基础依然是科学问题,只是通过工程手段不断验证和推进。


给年轻人的建议


InfoQ:对年轻研究者或工程师,您更看重哪些“底层能力”?在您看来,什么样的技术人更能在未来 AI 时代持续产生价值?


张磊: 我在深圳带领一支非常年轻的团队,平均年龄可能不到 30 岁。与团队中的年轻成员交流研究方向时,我发现不同年龄段有不同的焦虑。年轻人常担忧:“我们天天做这些工作,但没有接触大模型,会不会被淘汰?”我通常会跟他们解释,其实不是这样的。


以招聘为例,如果是我在为大模型团队挑人,我一定不会优先看他有没有大模型调参经验,而是看他是否具备扎实的计算机基础能力。这些基础能力包括对操作系统、体系结构、分布式系统的理解。例如,在大模型训练中,真正的挑战不是简单的模型调参,而是如何把上千张 GPU 卡联合起来训练,并确保系统稳定、不卡顿,这时候你对并行计算的掌握就变得至关重要。


如果你缺乏这类能力,只能在两三台机器上训练模型,那在实际项目中很可能会被具备系统能力的人取代。因为在一个快速推进的大团队中,最优先的任务往往是让千卡规模的训练稳定运行,而不是只在模型结构上做微调。有时候我会和学生或同事讲 FlashAttention 的故事。它本质上没有太高深的数学背景,只是作者非常理解 Transformer 中 attention 的计算过程,以及 GPU 架构的特性。他利用 GPU 中 L1 cache 的高速访问能力,把这部分计算效率提高了 2 到 3 倍。这种非常基础的优化,对整个领域的推动反而更大。


因此,我建议 不要停留在“调参侠”或“炼丹侠”层面——仅修改参数、运行实验,而要去思考这些实验背后的原理。比如并行计算是怎么实现的?为什么上千张 GPU 可以协同工作?如果训练变慢了,瓶颈在哪里?以 DeepSeek 的工作为例,不管是 V3 还是 R1,这些被广泛关注的成果,其实背后几乎都是系统级的突破。例如,他们如何将训练过程优化为 FP8 精度?如何让流水线并行把 GPU 的每个单元算力都榨干发挥出来?这都要求研究者对系统架构有非常深入的理解。


我给年轻人的建议是:无论你当前做的是哪一类工作,专注于把基础打牢。不要过度焦虑所谓的 35 岁危机,也不要因为没做过大模型就自我否定。只要你具备扎实的代码能力和系统理解,机会一定会出现。实际上,在我们招人时,真正有这些能力的人并不多,并不是随便具备一点经验就能胜任的。真正能把底层做扎实的人,始终是团队中最稀缺、最宝贵的。


InfoQ:AI 都可以写代码了,还要不要报考计算机专业?


张磊: 这与我的前述观点相关:所有工作都应先打好基础。对于即将报考志愿的高中毕业生,我建议优先选择基础学科专业,例如计算机科学。避免过早选择过于偏重应用的专业,因为应用方向会随时间变迁。 计算机领域自五六十年代发展至今,其底层逻辑——如 CPU/GPU 架构设计、操作系统原理——历经多轮迭代依然稳固。深入理解这些基础后,再学习人工智能会更有优势,而扎实的基础能让你走得更远。


报考志愿时不必过度焦虑人工智能带来的冲击,当前 AI 编程能力的发展,主要冲击的是从事基础编码工作的普通程序员。未来对大家的要求是成为更出色的程序员,能力需超越 AI。AI 应该成为我们的辅助工具,帮助我们编程,而不是取代我们。如果一个程序员只能写简单界面,而 AI 已经可以通过产品经理的自然语言指令生成这些界面,那他确实会被边缘化。因此,还是要踏实地夯实基础能力,通过与 AI 协作,提升自己的编程广度和深度,做出 AI 还无法替代的贡献。


今日好文推荐


16 年老程序员用 Claude Code 搞副业:我只手敲了 1000 行,剩下 95% 代码靠自动生成


180 天狠赚 5.7 亿,8 人团队全员财富自由,最大功臣是 Claude 和 Gemini


Cursor 搭 MCP,一句话就能让数据库裸奔!?不是代码bug,是MCP 天生架构设计缺陷


卷疯了!这个清华系Agent框架开源后迅速斩获1.9k stars,还要“消灭”Prompt?


会议推荐


首届 AICon 全球人工智能开发与应用大会(深圳站)将于 8 月 22-23 日正式举行!本次大会以 “探索 AI 应用边界” 为主题,聚焦 Agent、多模态、AI 产品设计等热门方向,围绕企业如何通过大模型降低成本、提升经营效率的实际应用案例,邀请来自头部企业、大厂以及明星创业公司的专家,带来一线的大模型实践经验和前沿洞察。一起探索 AI 应用的更多可能,发掘 AI 驱动业务增长的新路径!



2025-07-14 12:526821

评论 2 条评论

发布
用户头像
说的对,应用门槛低迭代迅速很快会过时,底层系统能力才是你的护城河
2025-07-20 13:02 · 浙江
回复
用户头像
看未来的发展,大模型是否具有取代程序员的能力
2025-07-15 09:42 · 四川
回复
没有更多了

多款顶级好用的 Vue 表单设计器测评推荐,可拖拽生成表单

蒋川

Vue Element 组件 表单设计 Ant Design

做了5年开源项目,我总结了以下提PR经验!

OpenHarmony开发者

OpenHarmony 开源生态

英伟达周锡健:设计到数字营销的最后一公里

阿里云弹性计算

vr XR 视觉计算

在线火星文转简体中文工具

入门小站

工具

小程序和App同时拥有?两者兼得的一种技术方案

Speedoooo

微信小程序 APP开发 小程序容器 小程序转app

在星云科技,我们使用 Zadig 实现多环境并行发布,上千次周部署

Zadig

DevOps 云原生 CI/CD 软件交付

天翼云成为“云优化能力提升计划”首批成员单位!

天翼云开发者社区

第一梯队,增速第一

天翼云开发者社区

混合办公首选轻薄本,华为MateBook的“三重变身”改变了什么?

脑极体

我们为什么选择使用分布式持续交付新星 Zadig ?

Zadig

DevOps 云原生 CI/CD 软件交付

Hoo研究院|区块链简报 20220523期

区块链前沿News

#区块链# Hoo 热点

前端食堂技术周刊第 38 期:Remix v1.5.0、Babel v7.18.0、前端部署十五章、Tree Shaking 问题排查指南、一文搞懂前端技术发展

童欧巴

前端 Remix 前端部署

一文学完Linux常用命令

编程攻略

Linux

天翼云通过DCMM 4级认证

天翼云开发者社区

为什么校招面试中“线程与进程的区别”老是被问到?我该如何回答?

宇宙之一粟

线程 进程 5月月更

人人皆为开发者?不可错过的低代码发展新趋势

云智慧AIOps社区

大前端 低代码 数据可视化

天翼云4.0创新成果发布!科技创新赋能安全普惠

天翼云开发者社区

创业、女性、数字化:后COVID-19世界的复苏“铁三角”

脑极体

linux之tar使用技巧

入门小站

Linux

IET 试水SiFL中文项目 为中国工程师“走出去”创造宝贵机遇

E科讯

10分钟,将微信小程序转换成App

Speedoooo

微信小程序 移动开发 小程序容器 小程序转app

Markdown语法简介

工程师日月

markdown语法 5月月更

企业引流和留存,“App+小程序”是较优技术策略

Speedoooo

微信小程序 APP开发 小程序容器 小程序转app

十、云原生网络架构

穿过生命散发芬芳

网络架构 5月月更

“双碳”大局中再看业务合同电子化

鲸品堂

节能 提效降本 双碳

使用 Provider 实现 Flutter 不相关页面状态数据共享

岛上码农

flutter ios 安卓开发 跨平台开发 5月月更

使用postMessage对iframe进行跨域数据传输

空城机

iframe postMessage 5月月更

【刷题第16天】数组中出现次数超过一半的数字

白日梦

5月月更

Java Core「3」volatile 关键字

Samson

学习笔记 5月月更 Java core

Apache ShenYu 网关正式支持 Dubbo3 服务代理

阿里巴巴中间件

阿里云 开源 微服务 云原生 dubbo

Apache SeaTunnel(Incubating)与计算引擎的解耦之道,重构API我们做了些什么

Apache SeaTunnel

Apache 大数据 开源 DolphinScheduler workflow

AI 编程冲击来袭,程序员怎么办?IDEA研究院张磊:底层系统能力才是护城河_生成式 AI_蔡芳芳_InfoQ精选文章