
随着今年具身人形 XMAN 系列的发布,擎朗智能正式升级并发布全球首个针对服务行业的 VLA 模型:KOM2.0(KEENON Operator Model2.0)。
擎朗 KOM2.0 模型采用了快-慢双系统架构,慢系统(K-Mind)基于 VLM 多模态大模型,通过擎朗构建的岗位服务场景数据集 K-Infinity(KEENON Infinity Dataset)实现对服务场景的环境感知、任务理解与规划,快系统(K-Act)采用 Action Expert(动作专家模型),利用大量真机数据进行训练,用于精细的动作生成。擎朗 KOM2.0 模型,已成为新一代擎朗机器人更具通用性的底座模型。
在 KOM 模型之上,擎朗开创新地提出并实践“岗位化”理念,倾力打造了岗位化垂域模型 KEENON ProS,该模型是面向具体服务岗位的深度专业化垂直领域模型,可有效提升通用具身大模型在特定垂直领域中的适用性和效率,使得擎朗具身服务机器人掌握餐饮、酒店、商超等场景中具体岗位的技能,实现“岗位化”的快速落地。

突破性架构创新+服务场景数据驱动进化
双系统架构(K-Mind + K-Act)异步协同
为了模仿人类的大小脑架构来实现效率最优,擎朗 KOM 模型采用了“快-慢双系统”架构。其中,“慢系统 K-Mind”是多模态的视觉语言模型,负责高层任务理解与规划。它通过对周围环境的感知和对自然语言的解析,结合多模型推理实现对复杂任务的规划与决策。“快系统 K-Act”是动作专家模型,负责生成具体的执行动作。它基于“K-Mind”的中间输出,结合机器人当前状态生成连续动作序列。“快-慢双系统”可以异步协同运行,实现高层任务规划的可靠性和低层运动执行的高效性。
岗位服务场景数据集 K-Infinity,飞轮效应驱动服务专业化
擎朗 KOM 模型的卓越性能根植于公司积累的数亿级场景数据资产,这些数据来源于在真实服务场景中运行的擎朗机器人。基于自主研发的多模态感知和环境重建技术,擎朗构建了高还原度的数字化服务场景,通过在数字化场景中进行物理仿真交互,为擎朗 KOM 模型训练与进化提供了大量珍贵的数据资产。
在此基础上结合部分真机数据,擎朗构建了服务场景数据集 K-Infinity(KEENON Infinity Dataset),该数据集具备极强的真实性、多样性和业务相关性,为模型鲁棒性与泛化能力提供坚实基础。
依托于此,擎朗 KOM 模型不仅具备通用适应能力,更对商用服务场景下的高频交互、突发干扰、高动态变化等特性展现出极强的鲁棒性与适应性。构筑了业内完整的 “数据采集-模型训练-场景部署-性能反馈-模型优化” 闭环系统,推动模型持续进化,形成飞轮效应。
擎朗 KOM 模型:让具身服务机器人更具通用性
值得一提的是,系统构建了四大核心能力,旨在实现从“功能机”到“智能体”的跃迁:
更深度的环境认知:突破传统识别局限,实现从物体感知到意图理解、行为预测与场景语义重构的跨越,让机器人真正“看懂世界”;
更敏捷的实时决策:毫秒级响应机制,轻松应对动态避障、临时任务插队、多机协同调度等高难度场景,保障流畅稳定的业务闭环;
更拟人的人机交互:支持拟人的安全运动与精准执行能力,提升用户体验,让机器人成为更贴心、更可靠的协作伙伴;
更高效的规模部署:凭借自适应能力,减少场景定制与人工调试需求,支持快速复制、灵活扩展,为规模化商业落地赋能。

擎朗垂域模型 ProS:让具身服务机器人更专业
擎朗智能基于对垂直行业需求的深度洞察,在擎朗 KOM 模型的基础上,以“岗位化”的战略理念,通过岗位驱动的知识嵌入与微调,融合了行业知识图谱,推出岗位化垂域模型 ProS,并覆盖了餐饮、酒店、医疗、零售等多个场景内,包括收银、收餐员、前台等不同岗位的深度专业化模型,成为擎朗行业理解力与商业价值的关键承载。在此基础之上,擎朗通用+专用的多形态具身服务机器人矩阵可实现跨场景任务迁移与泛化。
这些技术特性共同支撑了擎朗岗位化垂域模型 ProS 的核心价值:通过预置岗位专家能力,机器人能够在专岗任务中实现效率、精度和稳定性的显著提升;其深度场景渗透力可处理高动态、非结构化任务,并依托多机协作打通全业务流程闭环;同时,模型大幅缩短部署周期,降低启动成本,帮助客户快速实现高效运营。

未来,擎朗将继续打造“通用+专用”多形态具身服务机器人矩阵,持续迭代多模态大模型能力,与全球合作伙伴共同推动具身智能技术的规模化落地。
评论