
InfoQ AI ML 趋势报告为读者全面呈现人工智能、机器学习和数据工程领域的新兴趋势和技术。本报告基于 InfoQ 编辑团队与外部嘉宾的播客,总结讨论了人工智能和机器学习技术的发展趋势,并展望未来十二个月的重点关注方向。与报告和趋势图一起,我们的配套播客节目也深入讨论了这些趋势,带来了独到的见解。
AI 和 ML 趋势图
趋势图是年度趋势报告的一个重要组成部分。它直观地显示了哪些趋势和主题进入了创新者类别,哪些被提升到了早期采用者和早期多数类别。这些类别来自 Geoffrey Moore 的著作《跨越鸿沟》。在 InfoQ,我们主要关注尚未跨越鸿沟的类别。以下是今年的趋势图:

自 ChatGPT 在 2022 年 11 月发布以来,生成式 AI 和大型语言模型(LLM)已经全面主导了 AI 技术领域。该领域的主要参与者持续推出了性能更优的新版语言模型。延续过去几年的爆发式增长态势,自 InfoQ 团队去年发布趋势报告(见下面的 2024 年趋势图)以来,AI 技术已经取得了重大的创新和发展。

本文重点展示了不同技术采用阶段的趋势图,并详细介绍了自去年趋势报告发布以来新增或更新的具体技术。我们还将探讨哪些技术和趋势在采用趋势图中有所提升。
以下是自去年的趋势报告发布以来的一些亮点变化。
创新者
采用趋势图的第一个类别是创新者,它今年新增加了一些主题。下文将进行详细讨论。
AI 代理
今年有重大发展的一个领域是 AI 代理程序。随着 Anthropic 近期发布 Claude Subagents、亚马逊云科技发布 Bedrock Agents,该领域正涌现出大量的创新成果。AI 代理正在从执行单个任务转变为执行复杂系统。它们在工作流中协调串联任务,负责决策以及基于上下文的适应。
这一类别还有其他的一些最新消息,包括:OpenAI 宣布 Generalist ChatGPT Agent,可以与基于电子表格和演示文稿的应用程序协同;亚马逊云科技开源 Strands Agents SDK,用于构建 AI 代理;NVIDIA 的Visual AI Agents可用于开发视频分析解决方案。
在今年的播客中,Daniel Dominguez 和 Anthony Alford 讨论了 AI 代理领域的最新发展:
Daniel Dominguez:
我认为,我们正在见证代理领域发生的重大转变——我们不再只是与聊天机器人互动,现在我们可以让 AI 帮助我们预订会议,更新数据库,启动云资源,做很多事情。
在这个领域,举例来说,亚马逊云科技的 Bedrock 代理就很有趣,因为它们使我们能够在任何基础模型之上构建生产就绪的代理,而无需管理基础设施。它们可以串联任务、AWS 服务,并安全地解释数据。基本上,这就将代理范式纳入了 AWS 生态系统,使企业更容易从实验转向现实世界的应用。允许创建生产就绪代理的不只 AWS 平台。据我了解,谷歌也允许创建这样的代理,Azure 也是。有很多平台支持从头开始创建代理。我认为,代理快速发展是好事,因为有这些易于部署的平台。
Anthony Alford:
是的,我真的认为这些代理,就像一切事物一样,是双刃剑,非常强大、非常有用,但也有点危险。一个基本的例子是,它是一个可以调用工具的 LLM。而它们能调用的工具包括文件系统操作这类功能。是的,它可能会尝试“rm -rf”——这种情况确实发生过,但这些工具本身非常实用。
它们什么都可以调用,你可以和它聊天,让它写一个 shell 脚本来完成什么事情,比如查找这个文件夹中的所有图片文件并放大它们,它就会按你说的做。对我来说,这非常有帮助,因为我永远记不住 shell 脚本语法之类的东西。不过,我们讨论 AI 安全问题已经很多年了。这个问题已经变得很重要。AI 可以擦除你的硬盘,访问你的银行账户,诸如此类,因此,安全问题已经变得极其重要。是的,它可以让我们生活的更轻松,但也可能让我们的生活变得非常不愉快。再说一次,我不认为有人对此已经有了答案。
多模态语言模型
语言模型已经实现了多模态化,也就是说它们现在使用多种数据类型进行训练——包括文本、图像、音频还有视频。这使它们能够更深入地理解和关联不同类型的数据,提供更丰富的洞察力和相关度更高、更准确、更有价值的结果。
物理人工智能(Physical AI)
今年,AI 技术领域的一个重要发展是物理人工智能(Physical AI),即 AI 在机器人中的实体化应用。设备端语言模型和机器人技术都取得了重大创新。InfoQ 团队认为,在未来几年,这一领域将发生更多重大的变化。谷歌发布了Gemma 3n,这是一个针对手机、笔记本电脑和平板电脑等设备做过优化的生成式 AI 模型。微软推出了Mu——一款专为 Windows 设置而设计的轻量级设备端小型语言模型。该模型会被卸载到神经处理单元(NPU),响应速度超过每秒一百个 Token,满足设置场景中智能助手严苛的用户体验要求。
同样,还有来自谷歌的Gemini Robotics On-Device,这是Gemini Robotics家族的最新版本。这是一个视觉语言行动(VLA)模型,专门做过优化,可在机器人设备本地运行。这就将 Gemini 2.0 的多模态推理和对现实世界的理解带入了物理世界。最后,同样重要的是,NVIDIA 为机器人领域带来了多项物理 AI 方面的创新。NVIDIA 的“三计算机解决方案”包括:用于 AI 训练的 NVIDIA DGX AI 超级计算机、用于模拟的 NVIDIA Omniverse 和 Cosmos on NVIDIA RTX PRO Servers,以及用于机器人推理的 NVIDIA Jetson AGX Thor,可以实现从训练到部署的完整物理 AI 系统开发流程。
我们的专家在播客中讨论了物理 AI。
Savannah Kunovsky:
我认为,当我们谈论回归用户需求时,关于边缘计算的讨论就尤其重要,这样可以知道人们希望在家里和日常空间中拥有怎样的体验。边缘计算赋予我们的能力在于:以信任为核心,精心设计用户与技术交互的方式,规范数据处理路径与存储位置。相较于数据被处理后发往未知的远方,这种设计让用户更安心。尤其当涉及物理 AI 时——当我们开始采集用户家中那些极具私密性与珍贵价值的数据时,这种设计理念显得尤为重要。
重要的是,我们创造产品和服务,尊重用户的需求和愿望,我们要知道,这些数据非常敏感,并且要谨慎处理。我认为,随着制造业的进步和机器人技术的竞争,会有更多这样的设备出现,带来可以为我们的日常生活提供帮助的先进技术。这非常令人兴奋。要真正实现这些技术的普及,唯一的途径就是采用诚实可靠且极具实用价值的方式去创造它们,毕竟人们要为此付费;同时,也要让人们乐意将其带回家,毕竟我们都希望保持相对私密的空间。
Anthony Alford:
推理语言模型似乎是在机器人技术中使用它们的一条路径。我为 InfoQ 写了几篇新闻,人们尝试让语言模型为机器人制定计划,比如让它去拿一个东西,然后带到这里。
Jim Fan 博士是 NVIDIA 的机器人总监。我最近看了他的一条推文。他说,他相信机器人领域的 GPT-1(通用人工智能的早期版本)其实早就已经存在于某篇论文中,只是我们尚未发现。他提出一个观点:若不实现实体化——即不将其植入机器人,人类就无法获得通用人工智能(AGI)。其实,这个理念由来已久。在二十世纪我从事机器人研究的时候,就有人提出过类似的主张。如今我们仍未实现,但或许终有一日能做到。
模型上下文协议(MCP)
MCP 这个概念是 2024 年 11 月在人类学中引入的。这是一个开放标准,旨在帮助前沿大型语言模型生成更好、相关度更高的响应。它提供了一个标准协议,用于在外部工具、系统和数据源与大型语言模型之间集成和共享数据,有效地消除了碎片化和定制集成的需求。像 OpenAI、微软和谷歌这样的主要参与者都已经宣布了将 MCP 支持集成到其产品的计划。
InfoQ 团队讨论了 MCP 在 AI 应用中将扮演的重要角色。
Anthony Alford:
无疑,MCP 已经获得了良好的发展势头并被广泛应用。我们谈论的所有编码工具都支持 MCP。MCP 可能是实现代理的关键技术。但它不是万能药。我想我们已经看过报道 MCP 服务器安全问题的头条新闻,但毋庸置疑的是,它们现在很有用。我认为,它们的实用性可能会受到模型上下文窗口的限制,因为 MCP 相关的所有输入、输出都会进入那个模型上下文。
所以你只能做这么多。我想我们肯定看过像 Playwright 这样的东西——一个用于运行测试的 MCP 服务器。那似乎是一个大赢家。还有一个用于 Figma 的。你可以让编码代理查看 Figma 中的原型并创建它。我认为,它有前景、有潜力,并且确实具备使用价值。至于究竟有什么局限性,还有待于观察。
Daniel Dominguez:
对我来说,MCP 令人兴奋的地方在于其互操作性。举例来说,有了 MCP,你就可以让 Anthropic Claude 模型使用谷歌搜索,或者让 OpenAI 使用你们公司的数据。现在,一切都将在同一个协议下工作。这让它变得可扩展,并使多代理系统成为可能。来自不同公司、使用不同数据源的不同代理通力合作,各尽所能。我认为这才是最令人兴奋的部分。
人机交互(HCI)
在代理 AI 和物理 AI 技术的帮助下,人机交互(HCI)领域也在经历重大的转型和创新。由于 AI 接口的出现,我们与软件的交互方式正在发生显著的变化。
Savannah Kunovsky:
基于她在 IDEO 组织工作的经验及其团队一直在进行的项目,Savannah Kunovsky 分享了她对 HCI 领域创新的看法:
要使用大型语言模型,你必须知道如何提示它,以及如何与计算机交谈,而不是按我们的习惯像与真人交谈那样。我认为,这是人们采用这些技术的阻碍之一。值得一提的是,当苹果发布他们的新型设计系统 Liquid Glass 时,设计界有很多讨论,并且有很多反对意见,因为人们觉得,它更像是进化而不是革命。但我认为,单是从 Liquid Glass 这个名字就可以看出,苹果试图告诉人们,可以将他们的技术视为具有更流畅界面的东西。实际上,MIT Media 实验室就有一个小组叫 Fluid Interfaces。
如果我们的家中、电脑上和生活中能拥有更多的交互界面,让我们能够把信息移动到真正需要的地方——比如在烹饪台上获取烹饪信息,而不是把笔记本电脑放在微波炉上——那该多好。或许只有我这么想,但我认为技术赋予我们的能力,正是将信息嵌入到我们需要它们存在的地方。
例如,当你走在街上时,不是一定要掏出手机停下脚步才能回复消息。为什么不能在不打断日常活动的情况下完成这些操作呢?因此,当我们探讨新兴技术中的人机交互时,核心目标应是将所有研究与工程目标映射到真实的人类需求,理解这些技术应该如何融入人们的生活场景,并据此进行设计。
她还从设计的角度谈论了 AI 技术:
在 IDEO,有很多正在进行的事情。我们有大概三十或四十种设计工艺。我们有传统的视觉平面设计师和交互设计师,负责界面设计或人机交互设计等工作;也有具备软件工程背景的商业设计师和软件设计师等各类人才。在不同的设计领域中,这些工具的应用方式千差万别。但它们有一个共同点:让特定领域的设计师能够以前所未有的方式表达创意。
例如,我们有一个名叫 Tomochini 的商业设计师,他做了一些有趣的实验。他正和孩子们一起研究,如何使用更可持续的材料制作儿童玩具。他通过制作短视频来说明他的想法,而不只是通过图片来给他们讲故事,或尝试描述想法,或向他们展示这些新材料可能是什么样子以及新玩具可能是什么样子。我认为这更有影响力,让我们能够更快、更高效地表达我们的意图和想法。他还把商业模式设计变成了游戏的形式。所以,他现在能通过这些应用程序将不同的商业模式进行对照分析。
我们今年还看到了其他趋势,并且正在将它们添加到创新者类别中,包括推理模型和 AI DevOps。
早期采用者
在早期采用者类别中,我们希望突出两个主要的主题:语言模型创新和 RAG。
语言模型创新
大型语言模型(LLM)是生成式 AI 技术的基础,在过去一年中有许多有趣的发展,包括视觉 LLM、小型语言模型(SLM)、推理模型和状态空间模型。以下是语言模型和 LLM 创新的两个亮点:
视觉 LLM(VLM):像 OpenAI Sora 这样的工具正在开拓生成式视频领域
在设备端推理、隐私保护应用以及成本敏感型部署领域,小型语言模型(SLMs)持续受到关注。
语言领域的其他发展包括状态空间模型(SSM)和扩散模型。
在播客中,Anthony Alford 和 Savannah Kunovsky 讨论了语言模型。
Anthony Alford:
我认为,近期最大的新闻可能是 OpenAI 发布了 GPT-5,他们可能会让一些人感到惊讶。他们发布了它,你就开始使用了,你没有选择。我认为,这会让一些人措手不及。他们还做了一些有趣的事情。他们为每个模型提供了不同的版本。他们会提供专业或完整的模型,也会提供更小更快的模型,你可以根据你的任务选择自己想要的。现在,GPT-5 完全是随心所欲地命名模型。说实话,我倒是挺欣赏这种做法。感觉之前 OpenAI 在命名上有点纠结——他们有个模型叫 4o,还有个叫 o4 的。虽然其中有迹可循,但有时候并不明显。所以我觉得这次的命名方式挺有意思。你怎么看?
Savannah Kunovsky:
我认为,他们这么做是为了简化界面。当我们试图将这些前沿技术推向大众时,往往会出现这样的情况:这些技术是在由工程师和科研人员主导的后方实验室和研发部门里诞生的——这本身是了不起的工作。有时,工程师们会误以为大众能理解我们的愿景,理解我们与事物交互的方式,以及那些以研究为导向的界面设计。
我认为,OpenAI 团队已经逐渐认识到,要打造真正能引起共鸣、对人们更有用的消费级产品,他们必须简化界面设计。我认为,随着大型语言模型等先进技术的日益普及,当我们理所当然地认为它们能实现各种创新功能时,界面设计以及如何帮助人们与这些技术互动,将成为企业最重要的差异化竞争点,也是推动技术普及的关键杠杆之一。
除这些新的创新外,我们还看到基于 RAG 的解决方案在企业应用中不断得到采用。
检索增强生成(RAG)
在过去一年中,基于 RAG 的应用开发取得了显著增长。它正逐渐成为一种商品,在采用曲线上不断攀升。
以下内容来自播客。
Anthony Alford:
如你所言,这类技术确实正变得越来越普及。或许还称不上普及,但在企业软件领域,它们无疑正在稳步发展。我认为,任何拥有庞大文档数据库、海量知识文章资源的企业,都将会关注这一趋势。
Savannah Kunovsky:
在我们的设计过程中,我观察到一个有趣的变化:过去,我们理解企业内部动态的方式通常包括走访企业内部人员、调研其运营状况、产品成果及重点发展方向,甚至研读 CEO 声明。但得益于 RAG 技术的存在,我们现在能够构建一个系统,在开始设计前就获取到海量的背景信息。
如果我们能获取更多能提供这类信息的文档,就能让设计师和设计团队基于可靠的信息开展工作,而非从零开始。有趣的是,这项最初以技术为核心的创新,如今正逐渐衍生出适用于非技术人员的应用场景,也正因如此,这类创新有望变得越来越容易被非技术人员所创造。我认为这不仅蕴含着各种商业机遇,还提供了丰富的数据可用性。
正在进入早期采用者类别的另一个领域是自动化机器学习。这些技术得到了广泛的开发和采用,现在已经被许多组织的各种应用程序所使用。
早期多数
我们将以下主题转移到早期多数类别,因为这些技术已经变得更加成熟,并被各种组织的软件开发团队广泛采用。
向量数据库
MLOps
合成数据
晚期多数
采用图谱中的最后一个类别是晚期多数。以下是这个类别中新增的一些主题,这些技术现在已被团队全面采用,并成为他们核心架构模式的一部分。
数据湖
流处理
分布式计算(Storm)
小结
随着人工智能技术从战术任务助手转变为解决现实世界复杂问题的可信合作伙伴,InfoQ 团队预测,人工智能技术将持续发展创新,包括那些我们尚未想到的领域和应用场景。以下是团队对明年的部分预测:
人工智能代理以及基于人工智能的编码和软件开发工具将继续发展。
我们将看到真正对人们有用的东西,而它们将作为先例为互联网奠定下一个基础。
另一个预测是关于视频 RAG。我们将迎来长视频,届时区分人类生成的视频和人工智能生成的视频将成为一项挑战。
我们将开始讨论人工智能泡沫,并不是因为技术不起作用,因为技术已经存在并将继续发展。这种讨论更多的是关于行业本身。
人工智能将继续成为我们生活中一个越来越微妙的组成部分。未来的交互将更注重情境感知,并更多地采用后台操作的方式。
原文链接:
https://www.infoq.com/articles/ai-ml-data-engineering-trends-2025/
评论