作为团队管理者，我在培养机器学习工程师过程中的一些心得

作为一名 AI 团队管理者，Vivek Gupta 会保持对整体技术环境的广泛了解，以便更好地引导 AI 专家并推动团队前进。他在 InfoQ Dev Summit 波士顿站的演讲《培养与打造高水平机器学习工程师》中提到，工程师既需要技术层面的反馈，也需要在人际协作方面获得指导。他强调，要为工程师留出学习时间，鼓励他们主动求助，并促进跨团队协作。同时，导师制度、数据管理能力以及“人参与决策”的验证机制，都是机器学习工程师取得成功的关键因素。

Gupta 表示，作为 AI 团队的管理者，他需要“什么都懂一点”。他必须对应用科学有足够的理解，也要至少能判断价值所在，并且持续跟进最新进展。真正深入钻研的是资深工程师，但管理者需要有自己的判断和想法，才能为团队指明方向。

工程师最迫切的需求之一是反馈。Gupta 解释说，很多工程师刚从学校毕业，习惯了用成绩衡量表现，因此很想知道自己还能如何改进：

反馈本身是非常多样的。有些反馈与代码质量相关，有些则是关于如何与他人合作、如何与正在一起工作的其他团队相处。

为了真正培养工程师，Gupta 认为必须给他们时间去学习、尝试新东西，并通过实践不断打磨能力。

他还提到，工程师往往不太主动提问，通常是在被问题卡住很久之后才寻求帮助。因此，需要有意识地鼓励他们尽早向资深工程师或管理者求助，甚至请对方帮忙介绍可能解决问题的人。

在他看来，推动跨学科、跨项目的交流同样重要：

很多时候，其他团队已经有现成的思路或成果，可以复用或共享，从而减少重复劳动。要鼓励这种协作，比如旁听其他团队的分享、项目设计评审，让工程师从中学习。

资深工程师可以在团队中承担导师角色。Gupta 指出，如果能对资深工程师进行如何指导他人的培训，就能让导师机制在组织中更具规模化效果。

在生产环境中从事机器学习工作的工程师，还需要理解数据科学家是如何开展 AI 和机器学习工作的。同时，他们必须掌握机器学习场景下的数据管理方式，这一点与传统系统并不相同：

你需要清楚记录哪些数据用于模型训练，哪些数据集用于验证；还要在不同系统之间迁移数据，必要时进行格式转换或聚合处理。

在训练数据管理方式上保持一致性非常重要。Gupta 建议通过构建训练流水线，实现频繁重训的自动化。

他还强调，人始终需要参与到系统中，对模型输出进行验证、检查生成的代码，或对不同方案进行比较。用户反馈是闭环中不可或缺的一环。点赞或点踩不仅是在评价结果好坏，更是在反馈模型当前的表现，以及哪些模型需要进一步调整。

InfoQ 还就“如何培养机器学习工程师”采访了 Vivek Gupta。

InfoQ：你通常如何帮助工程师学习新东西并进行尝试？

Vivek Gupta：我们会定期在团队内部举办黑客松，也会参加微软公司内部的年度黑客松活动。此外，每个迭代周期结束时，我们都会安排一天作为学习日（我们是两周一个 Sprint）。团队还会组织“午餐与学习”机会，分享各自的学习成果，或邀请外部嘉宾。最近，学习重点主要集中在智能体以及如何使用 AI 辅助编程上。每个人都在这些方向上积累经验，也都有机会展示自己新学到的东西。

当然，学习不仅仅局限于技术层面。我们也会帮助工程师了解职业发展，比如管理者或技术负责人在做什么，以及如何评估个人影响力。这通常通过邀请更资深的分享者、往届成员、与实习生的实践协作，或支持其他团队、担任 PR 评审或技术顾问等方式来实现。

InfoQ：你们团队中，资深工程师的协作方式是怎样的？

Gupta：对资深工程师来说，协作意味着了解其他团队在做什么，参与代码评审，参加各项目的设计评审，并为新成员主持学习分享。这有助于促进知识流动，也能自然地培养技术负责人。很多时候，初级工程师更愿意直接找资深工程师交流，而不是找管理者。

InfoQ：MLOps 在管理大语言模型方面能发挥什么作用？

Gupta：在大语言模型上，我们面临的问题和以往的传统模型其实很相似。现在我们会对模型进行微调，因此需要清楚记录用于微调的数据；需要有评估提示词效果的流水线；还要维护一个适用于不同模型的提示词库。尽管 LLM 的工作方式和过去不同，但 MLOps 的核心经验依然适用，能够帮助我们把面向生产环境的 LLM 系统做成真正工程化、可持续的方案。

原文链接：

https://www.infoq.com/news/2025/12/machine-learning-engineers/

创作场景

作为团队管理者，我在培养机器学习工程师过程中的一些心得