NVIDIA 初创加速计划,免费加速您的创业启动 了解详情
写点什么

腾讯做大模型:要拼技术细节、用内部业务“磨刀”

  • 2023-09-12
    北京
  • 本文字数:1926 字

    阅读完需:约 6 分钟

大小:1.03M时长:06:01
腾讯做大模型:要拼技术细节、用内部业务“磨刀”

腾讯混元大模型从第一个 token 开始从零训练。”腾讯集团副总裁蒋杰说道。9 月 7 日,腾讯正式对外开放了全链路自研的通用大模型——混元大模型,这也意味着腾讯正式加入了“百模大战”之中。

 

在已经有首批 8 家企业机构的大模型产品通过《生成式人工智能服务管理暂行办法》备案准备正式上线开放后,腾讯的通用大模型才刚刚发布,这个时间并不算早。那么,腾讯的大模型之路将如何走下去?

做大模型要“拼细节”

 

“混元”不是腾讯推出的第一个大模型。从 2018 年开始探索大模型相关技术,腾讯先后推出了多个千万/亿参数大模型:2021 年-2022 年推出了多个千亿和万亿参数规模的大模型。

 

腾讯混元大模型平台架构、模型、算法能力等整个体系都是纯自研的,而构建腾讯混元的技术能力都得益于这些年大模型能力的积累。像今天的锯齿状注意力、探真等都是技术循序渐进的产物。

 

“现在国内外有很多开源的大模型,很多企业也是基于开源模型来做,但是如果不从头自研的话,就没办法完全掌握这个技术。”蒋杰说道。

 

腾讯对大模型的期望是先给企业内部业务带来突破,这要求大模型必须更好融入到腾讯的技术栈中,但很多开源架构并不适合腾讯业务场景。比如,幻觉是每一个大模型厂商都会面临的重要问题,业内普遍会用知识图谱甚至搜索外挂让大模型的检索支持能力变得更强,但是这些方式不适用腾讯的场景占比很高,于是腾讯使用了自研的“探真”技术来降低幻觉出现的比例。

 

混元大模型目前还是聚焦在国内市场,中文创作是其主要攻破的能力之一,支持文学创作、文本摘要、角色扮演等。通用大模型的逻辑推理能力非常关键,而大模型如何可靠地执行是腾讯最关注的。

 

混元大模型拥有超千亿参数规模,预训练语料超 2 万亿 tokens。腾讯的内容产品为混元大模型提供了大规模、高质量、多样化的语料库,混元大模型能从中学习到各类应用场景中丰富的语言知识和语境理解能力。

 

面对海量数据,腾讯使用了 AngelPTM 训练框架,优化算法,改进了注意力机制。而在逻辑推理方面,腾讯则使用了 AngelHCF 推理框架,开发了思维链(Chain-of-Thought,CoT)新算法。腾讯表示,通过自研机器学习框架 Angel 使训练速度相比业界主流框架提升 1 倍,推理速度比业界主流框架提升 1.3 倍。

 

注:思维链指的是一系列有逻辑关系的思考步骤形成一个完整的思考过程,用的是离散式 token,能自动构建问题、推理步骤和样例。但思维链必须在模型规模足够大时才能涌现。

 

在蒋杰看来,业内做强化学习的方法大体相似,腾讯要做的就是“拼细节”。“未来几个头部厂商大模型的评分可能仅仅是 1 分、2 分的差距,这个厂家版本高 1 分,另外厂家的下一个版本就会比它再高 1 分,就是这样一个不断博弈和循序渐进的过程。而大家投入的资源不一样、抠的细节不一样,大模型的差异才会最终显露出来。” 

先做内部业务的“倍增器”

 

在通用大模型上,腾讯确实走得不急。腾讯强调,研发大模型的目标不是在评测上获得高分,而是将技术应用到实际场景中。腾讯 6 月份发布行业大模型后,一直努力将能力拓展到更多领域,腾讯内部的海量业务场景也成了混元大模型的“磨刀石”。

 

众所周知,腾讯业务特别广泛,混元大模型能在内部各种场景上很好地应用就很不容易。比如,to C 的腾讯会议、腾讯文档在使用大模型时就有很大的差异。混元大模型的文字总结能力能与文档环境天然很好地结合,但会议场景强实时交互,需要会议团队和混元团队一起探索如何将混元大模型的基础指令理解能力、文字总结能力与会议内容生成结合起来。

 

“像会议、文档这样的场景,单纯将一个大模型直接融合进去短期内不一定能够给业务带来很大提升,因此一定要针对具体的业务需求做专门优化和提效,才能达到更好的效果。”腾讯机器学习平台部副总经理王迪说道。



在腾讯看来,提效是大模型更有商业价值的地方,腾讯希望混元大模型成为业务的“倍增器”。

 

目前,腾讯内部所有的应用都会基于混元大模型做智能化研发,混元大模型将作为基础设施去支持腾讯的各种产品和应用能力。腾讯会议基于腾讯混元大模型打造了 AI 小助手,只需要简单的自然语言指令,就能完成会议信息提取、内容分析等复杂任务,会后还能生成智能总结纪要。混元大模型支持数十种文本创作场景,在腾讯文档推出的智能助手功能中已有应用。

 

与之前技术产品的商业化路径相似,腾讯大模型也会先服务腾讯内部业务,然后再通过腾讯云对外开放,服务外部客户。

结束语

 

在蒋杰看来,大模型的天花板现在还没有完全碰触到的技术体系和演进上,行业不仅需要技术突破,还需要语料的完整度、数据的标注能力、后续的纠错能力等,单点的技术突破无法带来大模型的最终效果。

 

“未来,混元大模型还要做更多的数据标注、更多的框架、训练更多的数据,这才是我们团队工作的真正核心。”蒋杰说道,“腾讯混元永远在路上。”

 

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2023-09-12 17:284040

评论 1 条评论

发布
用户头像
到底做了点啥,这啥也没说,忽悠人呢吧
2023-09-14 09:48 · 北京
回复
没有更多了
发现更多内容

改进了编排控制并增强了推理的可视性,Agents for Amazon Bedrock 现已上市

亚马逊云科技 (Amazon Web Services)

API re:Invent Amazon Bedrock

企业网络新阶段:SD-WAN在云时代的关键作用

Ogcloud

云计算 网络 SD-WAN 云时代 WAN

教你使用Prometheus-Operator进行K8s集群监控

不在线第一只蜗牛

k8s K8s 多集群管理 多集群 集群监控

3分钟搞懂什么是Docker

伤感汤姆布利柏

Docker 镜像

软件测试/人工智能丨人工智能系统中,大数据模块发挥怎样的作用

测试人

人工智能 软件测试

AI浪潮下,大模型如何在音视频领域运用与实践?

阿里云视频云

云计算 视频云

Python内存管理:从入门到精通的完全指南

技术冰糖葫芦

API 接口

多云网络互通问题怎么解决——SD-WAN

Ogcloud

云计算 网络 多云服务 多云架构 SD-WAN

某公司案例分析

尚思卓越

运维 堡垒机

5个值得推荐的Vue后台管理框架

高端章鱼哥

Vue 后台管理系统

纯粹+享受,独立开发者成功踏上HarmonyOS“新大陆”

最新动态

小红书基于零信任 SASE 办公安全解决方案,斩获 “IDC 中国 20 大杰出安全项目”

小红书技术REDtech

大数据 网络安全 安全

基于 Webpack5 Module Federation 的业务解耦实践

快乐非自愿限量之名

Web 技术栈 核心技术栈

NFT开发:NFT 令牌门控Web3中的变革性品牌体验

区块链软件开发推广运营

dapp开发 区块链开发 链游开发 NFT开发 公链开发

Milvus 老友汇|AI、云原生与向量数据库的精彩碰撞回顾!

Zilliz

云原生 Milvus AIGC KubeBlocks

学习Motoko:开启加密编程世界的全新篇章

TinTinLand

区块链 编程

Navicat Premium for Mac v16.3.4中文激活版下载

iMac小白

浅析JAVA日志中的几则性能实践与原理解释

阿里技术

Java 原理 性能实践

“2024杭州人工智能展会·杭州智博会”推进人工智能产业创新发展

AIOTE智博会

智博会 人工智能展 智慧城市展 杭州智博会

Kosmos实战系列:MySQL Operator有状态服务的跨AZ集群平滑迁移

畅聊云原生

深入学习 C++编程,数据结构与算法关系

高端章鱼哥

c++ 数据结构 算法结构

基于 Flink 构建实时数据湖的实践

字节跳动云原生计算

大数据 数据湖 云原生 flink 实战

E往无前 | get正确使用姿势!腾讯云大数据ES日志场景优化案例回顾

腾讯云大数据

ES

最后一天!龙智DevSecOps研讨会年终专场“如何打好DevOps基础、赋能创新”即将截止报名

龙智—DevSecOps解决方案

软件测试/人工智能丨神经网络的概念,它与深度学习是什么关系

测试人

人工智能 软件测试

AI人工智能与云原生:创新科技的完美结合

EquatorCoco

人工智能 AI 云原生 技术 优化体系

软件测试/人工智能丨卷积神经网络,与普通的神经网络有何不同

测试人

人工智能 软件测试

拍卖直播电商平台的终局之战:开发拍品增值服务功能

软件开发-梦幻运营部

企业用户混合云组网的新方式——SD-WAN

Ogcloud

网络 SD-WAN 混合云 混合云架构 组网

NFT卡牌DAPP质押系统开发丨详情开发

l8l259l3365

Solidity之旅(十)OOP-抽象合约

BSN研习社

腾讯做大模型:要拼技术细节、用内部业务“磨刀”_腾讯_褚杏娟_InfoQ精选文章