如何 0 成本启动全员 AI 技能提升?戳> 了解详情
写点什么

擎朗智能发布自研 VLA 模型 KOM2.0,构建端到端具身行动智能的核心引擎

  • 2025-09-25
    北京
  • 本文字数:1691 字

    阅读完需:约 6 分钟

大小:871.11K时长:04:57
擎朗智能发布自研VLA模型KOM2.0,构建端到端具身行动智能的核心引擎

随着今年具身人形 XMAN 系列的发布,擎朗智能正式升级并发布全球首个针对服务行业的 VLA 模型:KOM2.0(KEENON Operator Model2.0)。


擎朗 KOM2.0 模型采用了快-慢双系统架构,慢系统(K-Mind)基于 VLM 多模态大模型,通过擎朗构建的岗位服务场景数据集 K-Infinity(KEENON Infinity Dataset)实现对服务场景的环境感知、任务理解与规划,快系统(K-Act)采用 Action Expert(动作专家模型),利用大量真机数据进行训练,用于精细的动作生成。擎朗 KOM2.0 模型,已成为新一代擎朗机器人更具通用性的底座模型。


在 KOM 模型之上,擎朗开创新地提出并实践“岗位化”理念,倾力打造了岗位化垂域模型 KEENON ProS,该模型是面向具体服务岗位的深度专业化垂直领域模型,可有效提升通用具身大模型在特定垂直领域中的适用性和效率,使得擎朗具身服务机器人掌握餐饮、酒店、商超等场景中具体岗位的技能,实现“岗位化”的快速落地。


突破性架构创新+服务场景数据驱动进化

双系统架构(K-Mind + K-Act)异步协同


为了模仿人类的大小脑架构来实现效率最优,擎朗 KOM 模型采用了“快-慢双系统”架构。其中,“慢系统 K-Mind”是多模态的视觉语言模型,负责高层任务理解与规划。它通过对周围环境的感知和对自然语言的解析,结合多模型推理实现对复杂任务的规划与决策。“快系统 K-Act”是动作专家模型,负责生成具体的执行动作。它基于“K-Mind”的中间输出,结合机器人当前状态生成连续动作序列。“快-慢双系统”可以异步协同运行,实现高层任务规划的可靠性和低层运动执行的高效性。

 

岗位服务场景数据集 K-Infinity,飞轮效应驱动服务专业化


擎朗 KOM 模型的卓越性能根植于公司积累的数亿级场景数据资产,这些数据来源于在真实服务场景中运行的擎朗机器人。基于自主研发的多模态感知和环境重建技术,擎朗构建了高还原度的数字化服务场景,通过在数字化场景中进行物理仿真交互,为擎朗 KOM 模型训练与进化提供了大量珍贵的数据资产。


在此基础上结合部分真机数据,擎朗构建了服务场景数据集 K-Infinity(KEENON Infinity Dataset),该数据集具备极强的真实性、多样性和业务相关性,为模型鲁棒性与泛化能力提供坚实基础。


依托于此,擎朗 KOM 模型不仅具备通用适应能力,更对商用服务场景下的高频交互、突发干扰、高动态变化等特性展现出极强的鲁棒性与适应性。构筑了业内完整的 “数据采集-模型训练-场景部署-性能反馈-模型优化” 闭环系统,推动模型持续进化,形成飞轮效应。 

擎朗 KOM 模型:让具身服务机器人更具通用性


值得一提的是,系统构建了四大核心能力,旨在实现从“功能机”到“智能体”的跃迁:


更深度的环境认知:突破传统识别局限,实现从物体感知到意图理解、行为预测与场景语义重构的跨越,让机器人真正“看懂世界”;


更敏捷的实时决策:毫秒级响应机制,轻松应对动态避障、临时任务插队、多机协同调度等高难度场景,保障流畅稳定的业务闭环;

 

更拟人的人机交互:支持拟人的安全运动与精准执行能力,提升用户体验,让机器人成为更贴心、更可靠的协作伙伴;

 

更高效的规模部署:凭借自适应能力,减少场景定制与人工调试需求,支持快速复制、灵活扩展,为规模化商业落地赋能。

 

擎朗垂域模型 ProS:让具身服务机器人更专业


擎朗智能基于对垂直行业需求的深度洞察,在擎朗 KOM 模型的基础上,以“岗位化”的战略理念,通过岗位驱动的知识嵌入与微调,融合了行业知识图谱,推出岗位化垂域模型 ProS,并覆盖了餐饮、酒店、医疗、零售等多个场景内,包括收银、收餐员、前台等不同岗位的深度专业化模型,成为擎朗行业理解力与商业价值的关键承载。在此基础之上,擎朗通用+专用的多形态具身服务机器人矩阵可实现跨场景任务迁移与泛化。


这些技术特性共同支撑了擎朗岗位化垂域模型 ProS 的核心价值:通过预置岗位专家能力,机器人能够在专岗任务中实现效率、精度和稳定性的显著提升;其深度场景渗透力可处理高动态、非结构化任务,并依托多机协作打通全业务流程闭环;同时,模型大幅缩短部署周期,降低启动成本,帮助客户快速实现高效运营。



未来,擎朗将继续打造“通用+专用”多形态具身服务机器人矩阵,持续迭代多模态大模型能力,与全球合作伙伴共同推动具身智能技术的规模化落地。

2025-09-25 14:125519
用户头像
李冬梅 加V:busulishang4668

发布了 1182 篇内容, 共 804.1 次阅读, 收获喜欢 1301 次。

关注

评论

发布
暂无评论

OceanBase 社区版 运维管控平台 OCP 功能解读

OceanBase 数据库

OCP oceanbase OceanBase 开源 OceanBase 社区版

数字化时代下,智能运维全栈监控解决方案及案例盘点

云智慧AIOps社区

运维 解决方案 场景应用 自动化运维 运维安全

喜讯!openGauss社区入选2021年 “科创中国”榜单

打造优质的车联网体验,仍需注意数据安全保护

FinClip

盲盒风潮过后,中国收藏玩具市场该何去何从?

易观分析

盲盒 潮玩

openGauss社区成立ReleaseManagement SIG

基于WEB快速开发平台的轻量ERP

雯雯写代码

ERP 快速开发平台

被冰封的 Bug:Fishhook Crash 修复纪实

声网

Dev for Dev fishhook

java培训:SpringBoot高频面试考点分享

@零度

JAVA开发 springboot

JavaScript深入理解之闭包

锋享前端

大数据培训:Hadoop和MPP有什么区别

@零度

hadoop MPP 大数据开发

【51单片机】室友用一把王者时间,学会了去使用数码管

謓泽

3月月更

中国AI的下一站:从两会高地奔涌向产业河谷

脑极体

hexo+github搭建个人博客前期部署工作

静Yu

Hexo

APICloud平台使用融云模块实现音视频通话实践经验总结分享

YonBuilder低代码开发平台

前端开发 APP开发 APICloud 融云 跨端开发

ICASSP 2022 | 前沿音视频成果分享:基于可变形卷积的压缩视频质量增强网络

阿里云CloudImagine

阿里云 计算机视觉 音视频 视频编码 视频云

【直播回顾】OpenHarmony知识赋能第四期直播——标准系统HDF开发

OpenHarmony开发者

直播 HDF OpenHarmony

Jaeger docker部署实操

非晓为骁

Docker Jaeger Go 语言 http client

向工程腐化开炮 | Java代码治理

阿里巴巴终端技术

Java android JVM 代码治理

Gitlab-ci 替代 webhook 触发Jenkins job

网易云信

gitlab

低代码实现探索(三十七)业务的流程,开发的框架

零道云-混合式低代码平台

如何进行数据挖掘?

郑州埃文科技

数据挖掘 数据库

实用机器学习笔记二十五:超参数优化

打工人!

学习笔记 超参数调优 机器学习算法 3月月更

WebRTC 简单入门

ZEGO即构

WebRTC 动手实践 音视频开发 即构科技

移动域全链路可观测架构和关键技术

阿里巴巴终端技术

架构 App 移动端 体验优化

如何使用OKR管理团队?

优秀

云计算及国内主流云厂商概述

穿过生命散发芬芳

3月月更

如何从头到脚彻底解决一个MySQL Bug?华为云数据库高级专家带你看

华为云数据库小助手

bug GaussDB 华为云数据库 GaussDB(for MySQL)

Go HTTP Server 基于OpenTelemetry 使用Jaeger - 代码实操

非晓为骁

Go Docker Trace Jaeger OpenTelemetry

企业知识管理的目标是什么?

小炮

企业内PAAS建设的经验与教训

Crazy

中间件 PaaS 经验 云原生应用

擎朗智能发布自研VLA模型KOM2.0,构建端到端具身行动智能的核心引擎_生成式 AI_李冬梅_InfoQ精选文章