写点什么

美的 AI 实践再升级,探索大模型与 Agent 在家居场景融合

  • 2025-11-04
    北京
  • 本文字数:2656 字

    阅读完需:约 9 分钟

美的AI实践再升级,探索大模型与Agent在家居场景融合

在智能制造和智能家居加速融合的时代背景下,AI 技术正以前所未有的速度渗透到家电、工厂和企业管理的各个层面。作为全球领先的科技制造企业之一,美的集团正在通过大模型、具身智能、Agent 等前沿技术,推动 AI 能力在多样场景中的落地与重塑。

 

日前,在美的集团举办的第三届远见者大会上,美的集团 AI 研究院院长徐翼系统阐述了美的在信息智能与具身智能两大核心方向的技术路径、落地挑战与阶段成果。

 

徐翼指出,美的 AI 研究院当前聚焦的两大技术主线分别是以大模型和 Agent 为代表的信息智能技术,以及以 VAL(视觉-动作-语言融合模型)为核心的具身智能技术。两条路径既服务于家庭、工厂、企业等内部场景,也面向行业客户,形成了自研与落地相互促进的循环。


围绕智能家居,构建新的行为数据网络


在家庭信息智能方面,徐翼以“小美语音链路”和 COLMO AI 管家为例,展示了美的对于用户交互体验的探索。他强调,交互的深度与广度正因大模型的引入发生显著变化——从传统的“点击-播放-观看”浅层行为,扩展到多模态、长链条、高语义的深度协作。例如,在家庭聚会场景下,智能家居系统需协同控制灯光、窗帘、空调、清洁等多设备,才能完成用户的真实需求。

 

家电其实是新的流量入口”,徐翼将其比喻为“可构建行为数据网络的新节点”,并类比谷歌、亚马逊、Meta 等互联网巨头在行为网络构建上的技术积淀。他认为,智能家居中的人机交互将为美的构建以用户为中心的服务闭环提供全新抓手。

 

基于对现有家电系统“设备连接不全”“交互缺乏联动”“推理能力不足”“多模态感知未融合”等挑战,美的 AI 研究院正在推进一套覆盖连接、感知、推理、执行、记忆与优化的 Agentic 系统能力架构。演讲中,徐翼详细介绍了这一“多智能体协同架构”的设计思路:以 Chat Agent 为核心,配合控制、信息、记忆等功能型 Agent,实现类“大内总管”式的中枢交互能力。例如,借助三级记忆机制(短期、长期、用户画像),系统可支持显示性记忆与隐性偏好学习,增强个性化响应能力。

 

“我们希望突破的不只是技术本身,而是人机协作中的预期差。”徐翼表示,用户对家电的操作往往具有明确预期,如“一句‘关灯’可能指代多个不同语义”,缺乏澄清机制的系统容易被认为“智能不足”。为此,美的正通过引入多智能体推理能力,推动家电向具备“自主理解与多轮响应”能力演进。

家庭具身智能:端到端场景真正解放人力


在具身智能领域,徐翼介绍了美的 AI 研究院当前聚焦的典型家庭场景,包括收纳、洗护、烹饪、清洁与照护等大类,现阶段的技术探索主要集中在收纳与洗护两大任务方向。

 

他指出,团队以“性能(Performance)、能力(Capability)、泛化能力(Generalization)”为评估核心,从特定任务上的高成功率起步,逐步拓展泛化能力,是当前最可行的技术演进路径。

 

基于这一理念,美的联合学术团队发布了视觉-语言-动作模型 DexVLA,相关论文在今年已经发表。该框架旨在解决传统 VLA 模型中动作生成能力不足的问题,通过引入可插件化的扩散式动作专家模块(Plug-In Diffusion Expert),使模型在面对多种机器人配置与任务时,具备更强的泛化能力与执行能力。

 

徐翼在现场举例介绍了两项典型探索任务:

  • 洗护任务:从洗衣机中取出衣物,展开后完成折叠与整齐摆放;

  • 食材管理任务:识别冰箱中的食材,抓取后按类别完成分仓存储。

 

除了 DexVLA,徐翼透露团队还将在今年年底推出另一个具身智能大模型,计划于 NeurIPS 上公开发布。这一工作更进一步探索了端到端模型中推理能力的保留问题,并在架构与训练方法上做出多项创新:

  • 架构方面:采用 MoE(Mixture-of-Experts)设计,不同 Expert 分别专注于多模态理解与机器人动作生成;

  • 训练范式:采用二阶段流程,首先训练 MoE Expert,随后专门训练 open-world 场景下的 embodied reasoning;

  • 验证任务

  • 数学推理题(验证推理能力是否在端到端训练中保留);

  • 空间理解任务(如“将杯子放在架子的上方或下方”等空间动作计划)。

 

该模型的目标,是进一步解决当前端到端 VLA 架构中存在的推理能力弱化问题,延续 VLM 在语言-视觉预训练中所形成的理解能力,并将其有效迁移到具身任务中。

 

尽管在具身智能方向已实现多项原型能力展示,徐翼坦言,当前仍处于技术探索阶段,离真正走进家庭还有不小距离

 

“我们演示的层层操作任务,比如叠衣服、冰箱分拣,成功率仍不够稳定,要做到一百次不出错是很难的。”他指出,家庭场景的安全性要求远高于工业场景,“比如机器人开门时把洗衣机门拽坏了,或者操作失误造成物品摔落,甚至伤人,这些情况绝不允许发生。”

 

他判断,在技术上形成可预测性和泛化能力的大致能力曲线,大约还需两到三年时间。美的 AI 研究院也在评估“功能型机器人”与“家电融合体”的混合产品路径,以规避人形机器人所带来的系统复杂度与成本问题。

工厂智能:从大脑中枢到异构终端协同


除了家庭场景,美的在工厂智能的方向也在持续展开探索。

 

徐翼介绍,在工业侧,美的正以“工厂大脑”作为中枢,打通异构设备与具身终端的调度、控制与反馈体系。中枢系统能够统一指挥包括人形机器人、AI 眼镜、移动终端在内的多种智能设备,并整合虚拟智能体,如品质智能体、工艺智能体等,实现任务分派与状态交互。

 

在工厂端的具身智能方面,研究团队已推进多个关键任务:

  • 在美的洗衣机荆州工厂,美的部署了具备视觉检测与基本操作能力的巡检机器人,可识别洗衣机运行状态;

  • 在钣金上下料任务中,通过对原材料位置的视觉识别,实现一定泛化能力的分拣机器人,应对物体状态的随机变化;

  • 打螺丝任务中,展示了“双臂协作具身大模型”的应用,左臂通过视觉与力传感完成对孔定位,右臂进行螺栓安装,协同精度显著提升。

 

“这个双臂系统是我们具身智能皇冠上的明珠”,徐翼说,“它不仅具备协作能力,而且能实现一定程度的泛化,真正完成复杂装配任务。” 

用 AI 重构生产、客服与研发能力


在企业内部场景,美的 AI 研究院聚焦“高效生产”目标,推进多项智能化基础能力建设,包括 OCR 文档解析、客服 Agent 系统与代码大模型。

 

徐翼指出,对于制造型企业而言,OCR 是实现数据化的基础。“美的内部有大量流程图、复杂表格,这些信息如果无法结构化,就无法进一步智能化。”他透露,美的 OCR 大模型在复杂文档场景下的表现优于业内主流模型,在简单文档方面也位于前列。

 

在客服智能体系统上,美的构建了由对话模型与状态模型并行的 Agentic 架构,状态模型可调用大量 MCP Service,支持流程强耦合的业务交互。“这个系统不同于小美语音链路,必须和业务规则深度绑定,因此我们采取了多模型并行的方式。”

 

据悉,在代码智能方面,美的也在推进工程效率提升。

2025-11-04 10:345132

评论

发布
暂无评论
发现更多内容

如果非要在多线程中使用 ArrayList 会发生什么?(第二篇)

看山

Java 并发编程

推荐一个MySQL宝藏网站

Simon

MySQL 网站

ONLYOFFICE-基本组成及工作原理

一个需求

onlyoffice

趣谈Java类加载器

程序猿阿星

Java ClassLoader 类加载器

Linux之less命令

入门小站

Linux

内蒙古公安重点人员管控研判平台建设方案

基于 BDD 理论的 Nebula 集成测试框架重构(下篇)

NebulaGraph

分布式数据库 测试 图数据库 BDD

数据结构——顺序栈

若尘

数据结构 6月日更

浪潮云说丨浪潮云智能对话,想你所想,无限畅聊

Test

bobcatzoo

成为你想要看到的改变,首先就是让正确的事情持续的发生。

叶小鍵

研发管理工具 ONES 完成3亿人民币 B1 B2 轮融资,继续领跑研发管理赛道

万事ONES

项目管理 融资 研发管理工具 ONES

密码学系列之:twofish对称密钥分组算法

程序那些事

加密解密 密码学 程序那些事

[译] R8 优化: Lambda Groups

Antway

6月日更

【源码篇】Flutter Bloc背后的思想,一篇纠结的文章

小呆呆666

flutter ios android 大前端

【全球软件大会】华为前端工程师分享:华为云官网的智能化实践

华为云开发者联盟

算法 智能化 华为云官网 全球软件大会 内容分发

谈一谈Java的网络编程

CodeWithBuff

Java 网络io

anyRTC视频连麦demo上线啦!

anyRTC开发者

音视频 WebRTC 直播 视频直播 直播连麦

ZooKeeper实战

CodeWithBuff

Java zookeeper

项目案例--吃货联盟

加百利

Java 项目 案例 6月日更

百度关于EMP的探索:落地生产可用的微前端架构

百度Geek说

测量电压调节器输出纹波和开关瞬变的方法

不脱发的程序猿

硬件研发 输出纹波测量 开关瞬变测量 电源测试 测量电压调节器

Rust从0到1-函数式编程-迭代器

rust 函数式编程 Iterator 迭代器

过一过Java“锁”事

CodeWithBuff

Java 并发 同步

【源码篇】Flutter Provider的另一面(万字图文+插件)

小呆呆666

flutter ios android 大前端

react native实践总结与思考

碗盆

android 跨平台 React Native

Dapr:我不是Service Mesh!我只是长得很像

中原银行

云原生 Service Mesh istio Multi-Architecture dapr

我看 JAVA 之 线程同步(下)

awen

Java synchronized JOL 锁升级

扩展ADO.net实现对象化CRUD(.net core/framework)

Spook

.net ORM ado

python 连接钉钉传输工作数据监控

百里丶落云

美的AI实践再升级,探索大模型与Agent在家居场景融合_AI&大模型_罗燕珊_InfoQ精选文章