【ArchSummit】如何通过AIOps推动可量化的业务价值增长和效率提升?>>> 了解详情
写点什么

腾讯做大模型:要拼技术细节、用内部业务“磨刀”

  • 2023-09-12
    北京
  • 本文字数:1926 字

    阅读完需:约 6 分钟

大小:1.03M时长:06:01
腾讯做大模型:要拼技术细节、用内部业务“磨刀”

腾讯混元大模型从第一个 token 开始从零训练。”腾讯集团副总裁蒋杰说道。9 月 7 日,腾讯正式对外开放了全链路自研的通用大模型——混元大模型,这也意味着腾讯正式加入了“百模大战”之中。

 

在已经有首批 8 家企业机构的大模型产品通过《生成式人工智能服务管理暂行办法》备案准备正式上线开放后,腾讯的通用大模型才刚刚发布,这个时间并不算早。那么,腾讯的大模型之路将如何走下去?

做大模型要“拼细节”

 

“混元”不是腾讯推出的第一个大模型。从 2018 年开始探索大模型相关技术,腾讯先后推出了多个千万/亿参数大模型:2021 年-2022 年推出了多个千亿和万亿参数规模的大模型。

 

腾讯混元大模型平台架构、模型、算法能力等整个体系都是纯自研的,而构建腾讯混元的技术能力都得益于这些年大模型能力的积累。像今天的锯齿状注意力、探真等都是技术循序渐进的产物。

 

“现在国内外有很多开源的大模型,很多企业也是基于开源模型来做,但是如果不从头自研的话,就没办法完全掌握这个技术。”蒋杰说道。

 

腾讯对大模型的期望是先给企业内部业务带来突破,这要求大模型必须更好融入到腾讯的技术栈中,但很多开源架构并不适合腾讯业务场景。比如,幻觉是每一个大模型厂商都会面临的重要问题,业内普遍会用知识图谱甚至搜索外挂让大模型的检索支持能力变得更强,但是这些方式不适用腾讯的场景占比很高,于是腾讯使用了自研的“探真”技术来降低幻觉出现的比例。

 

混元大模型目前还是聚焦在国内市场,中文创作是其主要攻破的能力之一,支持文学创作、文本摘要、角色扮演等。通用大模型的逻辑推理能力非常关键,而大模型如何可靠地执行是腾讯最关注的。

 

混元大模型拥有超千亿参数规模,预训练语料超 2 万亿 tokens。腾讯的内容产品为混元大模型提供了大规模、高质量、多样化的语料库,混元大模型能从中学习到各类应用场景中丰富的语言知识和语境理解能力。

 

面对海量数据,腾讯使用了 AngelPTM 训练框架,优化算法,改进了注意力机制。而在逻辑推理方面,腾讯则使用了 AngelHCF 推理框架,开发了思维链(Chain-of-Thought,CoT)新算法。腾讯表示,通过自研机器学习框架 Angel 使训练速度相比业界主流框架提升 1 倍,推理速度比业界主流框架提升 1.3 倍。

 

注:思维链指的是一系列有逻辑关系的思考步骤形成一个完整的思考过程,用的是离散式 token,能自动构建问题、推理步骤和样例。但思维链必须在模型规模足够大时才能涌现。

 

在蒋杰看来,业内做强化学习的方法大体相似,腾讯要做的就是“拼细节”。“未来几个头部厂商大模型的评分可能仅仅是 1 分、2 分的差距,这个厂家版本高 1 分,另外厂家的下一个版本就会比它再高 1 分,就是这样一个不断博弈和循序渐进的过程。而大家投入的资源不一样、抠的细节不一样,大模型的差异才会最终显露出来。” 

先做内部业务的“倍增器”

 

在通用大模型上,腾讯确实走得不急。腾讯强调,研发大模型的目标不是在评测上获得高分,而是将技术应用到实际场景中。腾讯 6 月份发布行业大模型后,一直努力将能力拓展到更多领域,腾讯内部的海量业务场景也成了混元大模型的“磨刀石”。

 

众所周知,腾讯业务特别广泛,混元大模型能在内部各种场景上很好地应用就很不容易。比如,to C 的腾讯会议、腾讯文档在使用大模型时就有很大的差异。混元大模型的文字总结能力能与文档环境天然很好地结合,但会议场景强实时交互,需要会议团队和混元团队一起探索如何将混元大模型的基础指令理解能力、文字总结能力与会议内容生成结合起来。

 

“像会议、文档这样的场景,单纯将一个大模型直接融合进去短期内不一定能够给业务带来很大提升,因此一定要针对具体的业务需求做专门优化和提效,才能达到更好的效果。”腾讯机器学习平台部副总经理王迪说道。



在腾讯看来,提效是大模型更有商业价值的地方,腾讯希望混元大模型成为业务的“倍增器”。

 

目前,腾讯内部所有的应用都会基于混元大模型做智能化研发,混元大模型将作为基础设施去支持腾讯的各种产品和应用能力。腾讯会议基于腾讯混元大模型打造了 AI 小助手,只需要简单的自然语言指令,就能完成会议信息提取、内容分析等复杂任务,会后还能生成智能总结纪要。混元大模型支持数十种文本创作场景,在腾讯文档推出的智能助手功能中已有应用。

 

与之前技术产品的商业化路径相似,腾讯大模型也会先服务腾讯内部业务,然后再通过腾讯云对外开放,服务外部客户。

结束语

 

在蒋杰看来,大模型的天花板现在还没有完全碰触到的技术体系和演进上,行业不仅需要技术突破,还需要语料的完整度、数据的标注能力、后续的纠错能力等,单点的技术突破无法带来大模型的最终效果。

 

“未来,混元大模型还要做更多的数据标注、更多的框架、训练更多的数据,这才是我们团队工作的真正核心。”蒋杰说道,“腾讯混元永远在路上。”

 

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2023-09-12 17:284065

评论 1 条评论

发布
用户头像
到底做了点啥,这啥也没说,忽悠人呢吧
2023-09-14 09:48 · 北京
回复
没有更多了
发现更多内容

第十周总结

孤星

Code Review实践

Albert

Code Review 七日更

第八周-学习总结

Mr_No爱学习

第 10 周 系统架构总结

心在那片海

第 10 周作业

Steven

行业寒冬:程序员怎样优雅度过35岁中年危机?跳槽薪资翻倍

欢喜学安卓

android 程序员 面试 移动开发

讲的真透彻!Android开发了解这些自然无惧面试,成功入职阿里

欢喜学安卓

android 程序员 面试 移动开发

提问开启创新-激发团队创新的提问法

Alan

个人成长 创新 团队文化 七日更 28天写作

NO.002-Java并发编程之多核硬件架构

葛一凡

操作系统 设计原则 硬件架构

第十周作业

孤星

TypeScript | 第七章:配置文件说明

梁龙先森

typescript 大前端 编程语言 七日更

架构训练营第九周作业

一期一会

微服务 dubbo

工具词典:数据

lidaobing

数据 28天写作

第 10 周 系统架构作业

心在那片海

第五周 技术选型作业

简简单单

第五章学习总结

简简单单

计算机专业必看!记录一次腾讯Android岗面试笔试总结,讲的明明白白!

欢喜学安卓

android 程序员 面试 移动开发

训练营第十周总结

大脸猫

极客大学架构师训练营

日本准备推行AI婚配,年轻人会为“爱情算法”买单吗?

脑极体

架构师训练营第二期 Week 10 总结

bigxiang

极客大学架构师训练营

训练营第十周作业

大脸猫

极客大学架构师训练营

Flink比Spark好在哪?

数据社

flink spark 七日更

Spring 源码学习 10:prepareBeanFactory 和 postProcessBeanFactory

程序员小航

spring 源码 源码阅读

第八周-作业1

Mr_No爱学习

冰河是谁?到底是干嘛的?

冰河

程序员 程序人生 架构师 冰河 冰河技术

七周七并发模型

田维常

并发

代理模式

soolaugust

设计模式 代理模式 七日更

架构师训练营第十四周课程笔记及心得

Airs

wildfly 21中应用程序的部署

程序那些事

程序那些事 wildfly wildfly21 应用程序部署 应用程序配置

架构师训练营第二期 Week 10 作业

bigxiang

极客大学架构师训练营

Dubbo 微服务调用过程

梧桐

腾讯做大模型:要拼技术细节、用内部业务“磨刀”_腾讯_褚杏娟_InfoQ精选文章