50万奖金+官方证书,深圳国际金融科技大赛正式启动,点击报名 了解详情
写点什么

面向运维的大模型!中国信通院“智域”大模型开放下载,为系统“治未病、愈顽疾”!

  • 2025-08-21
    北京
  • 本文字数:1942 字

    阅读完需:约 6 分钟

大小:600.90K时长:03:25
面向运维的大模型!中国信通院“智域”大模型开放下载,为系统“治未病、愈顽疾”!

随着数字化转型加速深入与 AI 技术的广泛渗透,大模型正逐渐成为智能运维建设的重要基石。与此同时,面对大模型应用需求的日益迫切,如何有效收集、优化和使用企业现有运维数据,构建出适用于企业运维场景的专属大模型,仍是行业普遍面临的挑战。


在此背景下,中国信息通信研究院(以下简称中国信通院)依托“稳定性保障实验室”,联合蚂蚁、腾讯、移动云、福建移动、咪咕、华为云、百度、美图、小米、趣丸、速云、嘉为等单位,基于团队在 SRE 领域的研究基础,以 Qwen3-32B 模型作为基础模型,推出 SRE 领域大模型——智域,促进智能化运维建设,推动大模型赋能稳定性保障工作。

详解运维大模型“智域”

一、数据构建


1、数据采集


中国信通院筛选了以下 6 类数据作为“智域”模型训练的数据来源,如图 1 所示。同时依托“稳定性保障实验室”构建了适配每类数据的生产/收集、审核治理、筛选/增强工具管线,并持续更新训练数据。


1)领域公开知识:SRE 领域公开书籍、论文、行业报告、白皮书等, 如《SRE 实践白皮书》


2)人工运维经验:稳定性保障实验室 SRE 专家提供的高质量运维经验数据,主要面向故障诊断过程


3)通用组件文档:通用组件的使用、运维文档,以强化大模型对于组件(尤其是国产化组件)的使用和维护能力


4)真实故障案例:包含故障概要、业务背景、故障轨迹、根因分析、处置动作、优化方案 6 个内容版块的高质量故障数据


5)运维平台提取:企业运维平台提取的真实操作类数据,供大模型学习 SRE 的工作流程、工具使用规范


6)强化学习生成:构建 SRE 专项能力(如故障排查)的模拟环境,在环境中强化学习的过程中,生成高质量训练数据


图 1. “智域”训练数据分布图


2、数据生成


为提高大模型训练效率、加速模型收敛,“智域”采用差异化方式构建数据:针对重要的企业人工运维经验和真实故障案例数据,采用人工编写;对于领域公开知识、运维通用组件技术文档等,则借助大模型生成。最终将这些数据统一转化为 QA 问答对形式,形成约 60 亿词元(token)的 SRE 领域语料35 万条高质量运维领域问答对,两者后续将被分别用于增量预训练和模型微调。


3、数据清洗


为保证大模型训练数据的精准性、一致性与可靠性。“智域”采取了包含格式规范化、质量评级、数据审核、内容过滤、去重、一致性重写在内的多种数据清洗方式,通过构建困惑度、分布一致性等多维度数据分析指标,实现对数据有效性的量化分析,去除数据中无效及干扰内容,如图 2 所示。



图 2. “智域”数据预处理示意图


4、数据增强


为确保运维领域知识被充分学习,“智域” 会针对高质量数据开展数据增强:对于人工经验数据,依据质量标准划分为 A 到 D 四个等级,为质量较高的 A、B 两级数据增加权重;对于企业真实故障案例数据,则实施针对性增强处理(具体增强权重详见表 1)。


表 1. “智域”数据增强统计表

二、模型训练


模型训练基于 Qwen3 32B 模型,分为增量预训练、微调与强化学习后再训练共 3 个阶段。通过增量预训练与监督微调完成领域知识学习,通过微调与强化学习完成领域专业技能训练,最后通过强化学习 DPO 完成关键通用能力的提升,如图 3 所示。


图 3. “智域”模型训练流程图


1、模型预训练


为强化运维领域知识的落地效果、提升大模型对批量运维通用知识的吸收效率,“智域” 采用分层训练策略:针对领域公开知识、通用组件文档等基础内容,通过预训练环节实现知识前置注入;对于专家经验、运维实战案例、真实运维 SQL 等场景化数据,则通过领域核心知识与技能的定向微调,强化其场景化表达能力。


2、模型微调


SRE 工作对于信息确定性的高要求,“智域”对上下文推理能力、SRE 领域知识使用、运维 sql 生成能力做了专项优化。“智域”以 Search-R1 的“多轮迭代检索”为框架,通过 PPO 算法训练模型,使其在多轮 RAG 工具调用中能自主决策、动态优化检索行为;依托专家经验、运维实战案例、真实运维 SQL 等高质量运维数据,通过领域核心知识与技能的定向微调,强化模型运维专属能力。


在奖励计算上,“智域”同时使用了基于格式的奖励和基于最终结果正确性的奖励。经过以上训练过程,模型在抑制幻觉的拒答、自主多轮知识检索以及基于上下文知识的生成能力方面都有所提升。


3、强化学习后再训练


在模型训练过程中,我们观察到一个共性现象:无论是预训练阶段的增量学习,还是微调阶段的定向优化,对模型参数的调整均会导致其通用能力出现一定程度的衰减。为此,“智域” 在完成运维领域模型的转型训练后,专门开展了全面的通用能力评估,并针对性实施了二次增强方案。

三、部署指引


为推动运维大模型领域交流和发展,中国信通院正式公开发布运维大模型“智域”,大模型支持 NVIDIA VLLM 昇腾 VLLM 部署方式。目前大模型已上传至“魔搭”社区。


后续中国信通院将依托稳定性保障实验室持续开展“智域”大模型优化和更新工作,“智域”大模型最新版本也会持续发布,欢迎下载并使用。

2025-08-21 10:228807
用户头像
李冬梅 加V:busulishang4668

发布了 1170 篇内容, 共 785.9 次阅读, 收获喜欢 1293 次。

关注

评论

发布
暂无评论

2023-06-12:如果一个正整数自身是回文数,而且它也是一个回文数的平方,那么我们称这个数为超级回文数。 现在,给定两个正整数 L 和 R (以字符串形式表示), 返回包含在范围 [L, R] 中

福大大架构师每日一题

算法、 福大大架构师每日一题

如今做泛娱乐出海,你需要融云《社交泛娱乐出海作战地图》

融云 RongCloud

产品 互联网 融云 泛娱乐 出海

高能预警!融云WICC发布《社交泛娱乐出海作战地图》

融云 RongCloud

互联网 地图 融云 即时通信 出海

提升用户体验:在小程序环境中充分利用Ionic框架

FinFish

Ionic 跨端开发 小程序容器 跨端框架 小程序容器技术

KW 新闻 | KaiwuDB 发布智慧矿山解决方案

KaiwuDB

智慧矿山 KaiwuDB 世界智能大会

KW 喜报 | KaiwuDB 斩获 2023 数博会“优秀科技成果”奖

KaiwuDB

KaiwuDB 离散制造业解决方案 2023数博会

KW 新闻 | KaiwuDB 受邀亮相 IOTE 2023 第十九届国际物联网展

KaiwuDB

工业物联网 KaiwuDB IOTE

C语言编程—可变参数

芯动大师

C语言 可变参数 6 月 优质更文活动

扬帆启航丨九科信息亮相2023全球数字经济大会(GDEC)新加坡分会场

九科Ninetech

出海如何从0到1?融云《社交泛娱乐出海作战地图》实战经验揭秘

融云 RongCloud

互联网 社交 融云 泛娱乐 出海

Postman Runner 中的参数自增技巧

Liam

Java Postman API 接口开发 接口工具

中盐集团:以财务共享为基础,引领盐行业数智化转型

用友BIP

财务共享

快速掌握Kubernetes中的核心概念

穿过生命散发芬芳

k8s 6 月 优质更文活动

中企出海,海外商旅费控的关键点是什么?

用友BIP

中企出海

OpenHarmony工程模板和开发语言

坚果

OpenHarmony 6 月 优质更文活动

如何在 Jupyter Notebook 用一行代码启动 Milvus?

Zilliz

Jupyter Notebook 非结构化数据 Colab AIGC 向量数据库

社交泛娱乐出海如何抓住AIGC?我在融云WICC上看到了答案

融云 RongCloud

社交 融云 泛娱乐 出海 通讯

飞桨AI4S污染物扩散快速预测模型,亮相全国数据驱动计算力学研讨会

飞桨PaddlePaddle

飞桨 #人工智能

DevStudio编辑器使用技巧

坚果

OpenHarmony3.2 6 月 优质更文活动

瓴羊Quick BI:可视化大屏让数据呈现更直观

夜雨微澜

把钢铁侠战衣交给Z世代,没想到联想商用PC可以这么炫酷!

脑极体

联想 PC

助力金融业数字化转型,原点安全将出席“2023 中国金融业数字化转型发展大会”

原点安全

数据安全 金融行业 uDSP 消费者个人信息保护

专注开发者体验 | GitOps 实现 Kuberentes 持续部署

亚马逊云科技 (Amazon Web Services)

云原生

你会怎样设计云原生场景下的IOC框架?

M

原创 云原生 ioc spring ioc

智能人才发现,帮助企业精准找人,快速识人

用友BIP

数智人力

开源共建下一代智能终端操作系统根社区 OpenHarmony携手伙伴聚力前行

科技汇

​“前端已死”甚嚣尘上,全栈工程师卷到起飞

引迈信息

前端 低代码 全栈 JNPF

使用containerd从0搭建k8s(kubernetes)集群

tiandizhiguai

k8s

聊聊数科公司如何与现有数智平台厂商协同作战

用友BIP

数科公司 数智平台 数智平台白皮书

Last Week in Milvus

Zilliz

非结构化数据 Milvus Zilliz 向量数据库 zillizcloud

揭秘阿里云 Flink 智能诊断利器——Flink Job Advisor

Apache Flink

大数据 flink 实时计算

面向运维的大模型!中国信通院“智域”大模型开放下载,为系统“治未病、愈顽疾”!_生成式 AI_信通院_InfoQ精选文章