擎朗智能发布自研VLA模型KOM2.0，构建端到端具身行动智能的核心引擎_生成式 AI_李冬梅

如何 0 成本启动全员 AI 技能提升？戳> 了解详情 



 写点什么



大小：871.11K时长：04:57

随着今年具身人形 XMAN 系列的发布，擎朗智能正式升级并发布全球首个针对服务行业的 VLA 模型：KOM2.0（KEENON Operator Model2.0）。

擎朗 KOM2.0 模型采用了快-慢双系统架构，慢系统（K-Mind）基于 VLM 多模态大模型，通过擎朗构建的岗位服务场景数据集 K-Infinity（KEENON Infinity Dataset）实现对服务场景的环境感知、任务理解与规划，快系统（K-Act）采用 Action Expert（动作专家模型），利用大量真机数据进行训练，用于精细的动作生成。擎朗 KOM2.0 模型，已成为新一代擎朗机器人更具通用性的底座模型。

在 KOM 模型之上，擎朗开创新地提出并实践“岗位化”理念，倾力打造了岗位化垂域模型 KEENON ProS，该模型是面向具体服务岗位的深度专业化垂直领域模型，可有效提升通用具身大模型在特定垂直领域中的适用性和效率，使得擎朗具身服务机器人掌握餐饮、酒店、商超等场景中具体岗位的技能，实现“岗位化”的快速落地。

突破性架构创新+服务场景数据驱动进化

双系统架构（K-Mind + K-Act）异步协同

为了模仿人类的大小脑架构来实现效率最优，擎朗 KOM 模型采用了“快-慢双系统”架构。其中，“慢系统 K-Mind”是多模态的视觉语言模型，负责高层任务理解与规划。它通过对周围环境的感知和对自然语言的解析，结合多模型推理实现对复杂任务的规划与决策。“快系统 K-Act”是动作专家模型，负责生成具体的执行动作。它基于“K-Mind”的中间输出，结合机器人当前状态生成连续动作序列。“快-慢双系统”可以异步协同运行，实现高层任务规划的可靠性和低层运动执行的高效性。

岗位服务场景数据集 K-Infinity，飞轮效应驱动服务专业化

擎朗 KOM 模型的卓越性能根植于公司积累的数亿级场景数据资产，这些数据来源于在真实服务场景中运行的擎朗机器人。基于自主研发的多模态感知和环境重建技术，擎朗构建了高还原度的数字化服务场景，通过在数字化场景中进行物理仿真交互，为擎朗 KOM 模型训练与进化提供了大量珍贵的数据资产。

在此基础上结合部分真机数据，擎朗构建了服务场景数据集 K-Infinity（KEENON Infinity Dataset），该数据集具备极强的真实性、多样性和业务相关性，为模型鲁棒性与泛化能力提供坚实基础。

依托于此，擎朗 KOM 模型不仅具备通用适应能力，更对商用服务场景下的高频交互、突发干扰、高动态变化等特性展现出极强的鲁棒性与适应性。构筑了业内完整的 “数据采集-模型训练-场景部署-性能反馈-模型优化” 闭环系统，推动模型持续进化，形成飞轮效应。

擎朗 KOM 模型：让具身服务机器人更具通用性

值得一提的是，系统构建了四大核心能力，旨在实现从“功能机”到“智能体”的跃迁：

更深度的环境认知：突破传统识别局限，实现从物体感知到意图理解、行为预测与场景语义重构的跨越，让机器人真正“看懂世界”；

更敏捷的实时决策：毫秒级响应机制，轻松应对动态避障、临时任务插队、多机协同调度等高难度场景，保障流畅稳定的业务闭环；

更拟人的人机交互：支持拟人的安全运动与精准执行能力，提升用户体验，让机器人成为更贴心、更可靠的协作伙伴；

更高效的规模部署：凭借自适应能力，减少场景定制与人工调试需求，支持快速复制、灵活扩展，为规模化商业落地赋能。

擎朗垂域模型 ProS：让具身服务机器人更专业

擎朗智能基于对垂直行业需求的深度洞察，在擎朗 KOM 模型的基础上，以“岗位化”的战略理念，通过岗位驱动的知识嵌入与微调，融合了行业知识图谱，推出岗位化垂域模型 ProS，并覆盖了餐饮、酒店、医疗、零售等多个场景内，包括收银、收餐员、前台等不同岗位的深度专业化模型，成为擎朗行业理解力与商业价值的关键承载。在此基础之上，擎朗通用+专用的多形态具身服务机器人矩阵可实现跨场景任务迁移与泛化。

这些技术特性共同支撑了擎朗岗位化垂域模型 ProS 的核心价值：通过预置岗位专家能力，机器人能够在专岗任务中实现效率、精度和稳定性的显著提升；其深度场景渗透力可处理高动态、非结构化任务，并依托多机协作打通全业务流程闭环；同时，模型大幅缩短部署周期，降低启动成本，帮助客户快速实现高效运营。

未来，擎朗将继续打造“通用+专用”多形态具身服务机器人矩阵，持续迭代多模态大模型能力，与全球合作伙伴共同推动具身智能技术的规模化落地。

发布

暂无评论

创作场景

擎朗智能发布自研 VLA 模型 KOM2.0，构建端到端具身行动智能的核心引擎

突破性架构创新+服务场景数据驱动进化

双系统架构（K-Mind + K-Act）异步协同

岗位服务场景数据集 K-Infinity，飞轮效应驱动服务专业化

擎朗 KOM 模型：让具身服务机器人更具通用性

擎朗垂域模型 ProS：让具身服务机器人更专业

评论

OceanBase 社区版运维管控平台 OCP 功能解读

数字化时代下，智能运维全栈监控解决方案及案例盘点

喜讯！openGauss社区入选2021年 “科创中国”榜单

打造优质的车联网体验，仍需注意数据安全保护

盲盒风潮过后，中国收藏玩具市场该何去何从？

openGauss社区成立ReleaseManagement SIG

基于WEB快速开发平台的轻量ERP

被冰封的 Bug：Fishhook Crash 修复纪实

java培训：SpringBoot高频面试考点分享

JavaScript深入理解之闭包

大数据培训：Hadoop和MPP有什么区别

【51单片机】室友用一把王者时间，学会了去使用数码管

中国AI的下一站：从两会高地奔涌向产业河谷

hexo+github搭建个人博客前期部署工作

APICloud平台使用融云模块实现音视频通话实践经验总结分享

ICASSP 2022 | 前沿音视频成果分享：基于可变形卷积的压缩视频质量增强网络

【直播回顾】OpenHarmony知识赋能第四期直播——标准系统HDF开发

Jaeger docker部署实操

向工程腐化开炮 | Java代码治理

Gitlab-ci 替代 webhook 触发Jenkins job

低代码实现探索（三十七）业务的流程，开发的框架

如何进行数据挖掘？

实用机器学习笔记二十五：超参数优化

WebRTC 简单入门

移动域全链路可观测架构和关键技术

如何使用OKR管理团队？

云计算及国内主流云厂商概述

如何从头到脚彻底解决一个MySQL Bug？华为云数据库高级专家带你看

Go HTTP Server 基于OpenTelemetry 使用Jaeger - 代码实操

企业知识管理的目标是什么？

企业内PAAS建设的经验与教训

创作场景

擎朗智能发布自研 VLA 模型 KOM2.0，构建端到端具身行动智能的核心引擎

突破性架构创新+服务场景数据驱动进化

双系统架构（K-Mind + K-Act）异步协同

岗位服务场景数据集 K-Infinity，飞轮效应驱动服务专业化

擎朗 KOM 模型：让具身服务机器人更具通用性

擎朗垂域模型 ProS：让具身服务机器人更专业

评论

电子书

大厂实战PPT下载