
作为一名 AI 团队管理者,Vivek Gupta 会保持对整体技术环境的广泛了解,以便更好地引导 AI 专家并推动团队前进。他在 InfoQ Dev Summit 波士顿站 的演讲《培养与打造高水平机器学习工程师》中提到,工程师既需要技术层面的反馈,也需要在人际协作方面获得指导。他强调,要为工程师留出学习时间,鼓励他们主动求助,并促进跨团队协作。同时,导师制度、数据管理能力以及“人参与决策”的验证机制,都是机器学习工程师取得成功的关键因素。
Gupta 表示,作为 AI 团队的管理者,他需要“什么都懂一点”。他必须对应用科学有足够的理解,也要至少能判断价值所在,并且持续跟进最新进展。真正深入钻研的是资深工程师,但管理者需要有自己的判断和想法,才能为团队指明方向。
工程师最迫切的需求之一是反馈。Gupta 解释说,很多工程师刚从学校毕业,习惯了用成绩衡量表现,因此很想知道自己还能如何改进:
反馈本身是非常多样的。有些反馈与代码质量相关,有些则是关于如何与他人合作、如何与正在一起工作的其他团队相处。
为了真正培养工程师,Gupta 认为必须给他们时间去学习、尝试新东西,并通过实践不断打磨能力。
他还提到,工程师往往不太主动提问,通常是在被问题卡住很久之后才寻求帮助。因此,需要有意识地鼓励他们尽早向资深工程师或管理者求助,甚至请对方帮忙介绍可能解决问题的人。
在他看来,推动跨学科、跨项目的交流同样重要:
很多时候,其他团队已经有现成的思路或成果,可以复用或共享,从而减少重复劳动。要鼓励这种协作,比如旁听其他团队的分享、项目设计评审,让工程师从中学习。
资深工程师可以在团队中承担导师角色。Gupta 指出,如果能对资深工程师进行如何指导他人的培训,就能让导师机制在组织中更具规模化效果。
在生产环境中从事机器学习工作的工程师,还需要理解数据科学家是如何开展 AI 和机器学习工作的。同时,他们必须掌握机器学习场景下的数据管理方式,这一点与传统系统并不相同:
你需要清楚记录哪些数据用于模型训练,哪些数据集用于验证;还要在不同系统之间迁移数据,必要时进行格式转换或聚合处理。
在训练数据管理方式上保持一致性非常重要。Gupta 建议通过构建训练流水线,实现频繁重训的自动化。
他还强调,人始终需要参与到系统中,对模型输出进行验证、检查生成的代码,或对不同方案进行比较。用户反馈是闭环中不可或缺的一环。点赞或点踩不仅是在评价结果好坏,更是在反馈模型当前的表现,以及哪些模型需要进一步调整。
InfoQ 还就“如何培养机器学习工程师”采访了 Vivek Gupta。
InfoQ:你通常如何帮助工程师学习新东西并进行尝试?
Vivek Gupta:我们会定期在团队内部举办黑客松,也会参加微软公司内部的年度黑客松活动。此外,每个迭代周期结束时,我们都会安排一天作为学习日(我们是两周一个 Sprint)。团队还会组织“午餐与学习”机会,分享各自的学习成果,或邀请外部嘉宾。最近,学习重点主要集中在智能体以及如何使用 AI 辅助编程上。每个人都在这些方向上积累经验,也都有机会展示自己新学到的东西。
当然,学习不仅仅局限于技术层面。我们也会帮助工程师了解职业发展,比如管理者或技术负责人在做什么,以及如何评估个人影响力。这通常通过邀请更资深的分享者、往届成员、与实习生的实践协作,或支持其他团队、担任 PR 评审或技术顾问等方式来实现。
InfoQ:你们团队中,资深工程师的协作方式是怎样的?
Gupta:对资深工程师来说,协作意味着了解其他团队在做什么,参与代码评审,参加各项目的设计评审,并为新成员主持学习分享。这有助于促进知识流动,也能自然地培养技术负责人。很多时候,初级工程师更愿意直接找资深工程师交流,而不是找管理者。
InfoQ:MLOps 在管理大语言模型方面能发挥什么作用?
Gupta:在大语言模型上,我们面临的问题和以往的传统模型其实很相似。现在我们会对模型进行微调,因此需要清楚记录用于微调的数据;需要有评估提示词效果的流水线;还要维护一个适用于不同模型的提示词库。尽管 LLM 的工作方式和过去不同,但 MLOps 的核心经验依然适用,能够帮助我们把面向生产环境的 LLM 系统做成真正工程化、可持续的方案。
原文链接:
https://www.infoq.com/news/2025/12/machine-learning-engineers/







评论