美的AI实践再升级，探索大模型与Agent在家居场景融合_AI&大模型_罗燕珊

2天时间，聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情 



 写点什么

在智能制造和智能家居加速融合的时代背景下，AI 技术正以前所未有的速度渗透到家电、工厂和企业管理的各个层面。作为全球领先的科技制造企业之一，美的集团正在通过大模型、具身智能、Agent 等前沿技术，推动 AI 能力在多样场景中的落地与重塑。

日前，在美的集团举办的第三届远见者大会上，美的集团 AI 研究院院长徐翼系统阐述了美的在信息智能与具身智能两大核心方向的技术路径、落地挑战与阶段成果。

徐翼指出，美的 AI 研究院当前聚焦的两大技术主线分别是以大模型和 Agent 为代表的信息智能技术，以及以 VAL（视觉-动作-语言融合模型）为核心的具身智能技术。两条路径既服务于家庭、工厂、企业等内部场景，也面向行业客户，形成了自研与落地相互促进的循环。

围绕智能家居，构建新的行为数据网络

在家庭信息智能方面，徐翼以“小美语音链路”和 COLMO AI 管家为例，展示了美的对于用户交互体验的探索。他强调，交互的深度与广度正因大模型的引入发生显著变化——从传统的“点击-播放-观看”浅层行为，扩展到多模态、长链条、高语义的深度协作。例如，在家庭聚会场景下，智能家居系统需协同控制灯光、窗帘、空调、清洁等多设备，才能完成用户的真实需求。

“家电其实是新的流量入口”，徐翼将其比喻为“可构建行为数据网络的新节点”，并类比谷歌、亚马逊、Meta 等互联网巨头在行为网络构建上的技术积淀。他认为，智能家居中的人机交互将为美的构建以用户为中心的服务闭环提供全新抓手。

基于对现有家电系统“设备连接不全”“交互缺乏联动”“推理能力不足”“多模态感知未融合”等挑战，美的 AI 研究院正在推进一套覆盖连接、感知、推理、执行、记忆与优化的 Agentic 系统能力架构。演讲中，徐翼详细介绍了这一“多智能体协同架构”的设计思路：以 Chat Agent 为核心，配合控制、信息、记忆等功能型 Agent，实现类“大内总管”式的中枢交互能力。例如，借助三级记忆机制（短期、长期、用户画像），系统可支持显示性记忆与隐性偏好学习，增强个性化响应能力。

“我们希望突破的不只是技术本身，而是人机协作中的预期差。”徐翼表示，用户对家电的操作往往具有明确预期，如“一句‘关灯’可能指代多个不同语义”，缺乏澄清机制的系统容易被认为“智能不足”。为此，美的正通过引入多智能体推理能力，推动家电向具备“自主理解与多轮响应”能力演进。

家庭具身智能：端到端场景真正解放人力

在具身智能领域，徐翼介绍了美的 AI 研究院当前聚焦的典型家庭场景，包括收纳、洗护、烹饪、清洁与照护等大类，现阶段的技术探索主要集中在收纳与洗护两大任务方向。

他指出，团队以“性能（Performance）、能力（Capability）、泛化能力（Generalization）”为评估核心，从特定任务上的高成功率起步，逐步拓展泛化能力，是当前最可行的技术演进路径。

基于这一理念，美的联合学术团队发布了视觉-语言-动作模型 DexVLA，相关论文在今年已经发表。该框架旨在解决传统 VLA 模型中动作生成能力不足的问题，通过引入可插件化的扩散式动作专家模块（Plug-In Diffusion Expert），使模型在面对多种机器人配置与任务时，具备更强的泛化能力与执行能力。

徐翼在现场举例介绍了两项典型探索任务：

洗护任务：从洗衣机中取出衣物，展开后完成折叠与整齐摆放；
食材管理任务：识别冰箱中的食材，抓取后按类别完成分仓存储。

除了 DexVLA，徐翼透露团队还将在今年年底推出另一个具身智能大模型，计划于 NeurIPS 上公开发布。这一工作更进一步探索了端到端模型中推理能力的保留问题，并在架构与训练方法上做出多项创新：

架构方面：采用 MoE（Mixture-of-Experts）设计，不同 Expert 分别专注于多模态理解与机器人动作生成；
训练范式：采用二阶段流程，首先训练 MoE Expert，随后专门训练 open-world 场景下的 embodied reasoning；
验证任务：
数学推理题（验证推理能力是否在端到端训练中保留）；
空间理解任务（如“将杯子放在架子的上方或下方”等空间动作计划）。

该模型的目标，是进一步解决当前端到端 VLA 架构中存在的推理能力弱化问题，延续 VLM 在语言-视觉预训练中所形成的理解能力，并将其有效迁移到具身任务中。

尽管在具身智能方向已实现多项原型能力展示，徐翼坦言，当前仍处于技术探索阶段，离真正走进家庭还有不小距离。

“我们演示的层层操作任务，比如叠衣服、冰箱分拣，成功率仍不够稳定，要做到一百次不出错是很难的。”他指出，家庭场景的安全性要求远高于工业场景，“比如机器人开门时把洗衣机门拽坏了，或者操作失误造成物品摔落，甚至伤人，这些情况绝不允许发生。”

他判断，在技术上形成可预测性和泛化能力的大致能力曲线，大约还需两到三年时间。美的 AI 研究院也在评估“功能型机器人”与“家电融合体”的混合产品路径，以规避人形机器人所带来的系统复杂度与成本问题。

工厂智能：从大脑中枢到异构终端协同

除了家庭场景，美的在工厂智能的方向也在持续展开探索。

徐翼介绍，在工业侧，美的正以“工厂大脑”作为中枢，打通异构设备与具身终端的调度、控制与反馈体系。中枢系统能够统一指挥包括人形机器人、AI 眼镜、移动终端在内的多种智能设备，并整合虚拟智能体，如品质智能体、工艺智能体等，实现任务分派与状态交互。

在工厂端的具身智能方面，研究团队已推进多个关键任务：

在美的洗衣机荆州工厂，美的部署了具备视觉检测与基本操作能力的巡检机器人，可识别洗衣机运行状态；
在钣金上下料任务中，通过对原材料位置的视觉识别，实现一定泛化能力的分拣机器人，应对物体状态的随机变化；
在打螺丝任务中，展示了“双臂协作具身大模型”的应用，左臂通过视觉与力传感完成对孔定位，右臂进行螺栓安装，协同精度显著提升。

“这个双臂系统是我们具身智能皇冠上的明珠”，徐翼说，“它不仅具备协作能力，而且能实现一定程度的泛化，真正完成复杂装配任务。”

用 AI 重构生产、客服与研发能力

在企业内部场景，美的 AI 研究院聚焦“高效生产”目标，推进多项智能化基础能力建设，包括 OCR 文档解析、客服 Agent 系统与代码大模型。

徐翼指出，对于制造型企业而言，OCR 是实现数据化的基础。“美的内部有大量流程图、复杂表格，这些信息如果无法结构化，就无法进一步智能化。”他透露，美的 OCR 大模型在复杂文档场景下的表现优于业内主流模型，在简单文档方面也位于前列。

在客服智能体系统上，美的构建了由对话模型与状态模型并行的 Agentic 架构，状态模型可调用大量 MCP Service，支持流程强耦合的业务交互。“这个系统不同于小美语音链路，必须和业务规则深度绑定，因此我们采取了多模型并行的方式。”

据悉，在代码智能方面，美的也在推进工程效率提升。

发布

暂无评论

创作场景

美的 AI 实践再升级，探索大模型与 Agent 在家居场景融合

围绕智能家居，构建新的行为数据网络

家庭具身智能：端到端场景真正解放人力

工厂智能：从大脑中枢到异构终端协同

用 AI 重构生产、客服与研发能力

评论

为了KPI，对APK进行极限优化！，大厂Android研发岗面试复盘

互联网寒冬下，原生Android开发的路该怎么走？，flutter代码扫描

互联网BAT大厂（百度、美团等，作为Android开发程序员

五年Android 开发大厂面经总结，详解系列文章

今日头条 Android '秒' 级编译速度优化，我的腾讯安卓面试经历分享

纯干货分享 | 研发效能提升——敏捷需求篇

为什么-Android-要采用-Binder-作为-IPC-机制？，android输入法开发源码

为什么有些大公司的技术，实在是弱爆了？，flutter教程dart

事件分发三连问：事件是如何从屏幕点击最终到达-Activity-的？CANCEL-事件什么时候会触发

五年开发经验杭州竟找不到工作：Android开发真等于废人？

人手必备的Jetpack操作手册来了！针对性解决Jetpack组件问题(1)

人手必备的Jetpack操作手册来了！针对性解决Jetpack组件问题

人都傻了！看完这份字节跳动师兄给我的程序员面试笔记，只能说一句牛啊

中年危机并不可怕，可怕的是你没有做好自己的规划，斗鱼Android开发二面被刷

为了弄懂Flutter的状态管理,-我用10种方法改造了counter-app(1)

为什么说Android开发一定要有身处安乐之窝，却逢乱世之感的觉悟？

五分钟搞定正则表达式，如果没搞定，再加两分钟，flutter小程序实现

二本渣渣6年开发面试字节跳动Android研发岗，被怼的有点惨---(1)

什么？这个天天使用的API竟然被废弃了？，android组件化和模块化区别

为什么Flutter是跨平台开发的终极之选，安卓framework开发

为什么高级Android程序员永远不必担心自己的技术过时？

二本渣渣6年开发面试字节跳动Android研发岗，被怼的有点惨---

京东技术中台的Flutter实践之路，android界面开发经典书籍

五分钟搞定正则表达式，如果没搞定，再加两分钟(1)，2021Android面试笔试总结

Vue进阶（幺陆贰）：vue render函数介绍

两年 Android 经验面经(有赞等公司)，请查收

为了弄懂Flutter的状态管理,-我用10种方法改造了counter-app

事件分发三连问：事件是如何从屏幕点击最终到达 Activity 的？CANCEL 事件什么时候会触发

互联网如今趋势，30岁的程序员如何应对？，PDF超过6000页,

中年程序员崩溃大哭：混不上管理层，加不动班，flutter游戏背包

天猫Java研发岗面经(技术三面):基础+算法+MySQL+Redis+秒杀架构

创作场景

美的 AI 实践再升级，探索大模型与 Agent 在家居场景融合

围绕智能家居，构建新的行为数据网络

家庭具身智能：端到端场景真正解放人力

工厂智能：从大脑中枢到异构终端协同

用 AI 重构生产、客服与研发能力

评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载