硬核干货——《中小企业 AI 实战指南》免费下载! 了解详情
写点什么

腾讯做大模型:要拼技术细节、用内部业务“磨刀”

  • 2023-09-12
    北京
  • 本文字数:1926 字

    阅读完需:约 6 分钟

大小:1.03M时长:06:01
腾讯做大模型:要拼技术细节、用内部业务“磨刀”

腾讯混元大模型从第一个 token 开始从零训练。”腾讯集团副总裁蒋杰说道。9 月 7 日,腾讯正式对外开放了全链路自研的通用大模型——混元大模型,这也意味着腾讯正式加入了“百模大战”之中。

 

在已经有首批 8 家企业机构的大模型产品通过《生成式人工智能服务管理暂行办法》备案准备正式上线开放后,腾讯的通用大模型才刚刚发布,这个时间并不算早。那么,腾讯的大模型之路将如何走下去?

做大模型要“拼细节”

 

“混元”不是腾讯推出的第一个大模型。从 2018 年开始探索大模型相关技术,腾讯先后推出了多个千万/亿参数大模型:2021 年-2022 年推出了多个千亿和万亿参数规模的大模型。

 

腾讯混元大模型平台架构、模型、算法能力等整个体系都是纯自研的,而构建腾讯混元的技术能力都得益于这些年大模型能力的积累。像今天的锯齿状注意力、探真等都是技术循序渐进的产物。

 

“现在国内外有很多开源的大模型,很多企业也是基于开源模型来做,但是如果不从头自研的话,就没办法完全掌握这个技术。”蒋杰说道。

 

腾讯对大模型的期望是先给企业内部业务带来突破,这要求大模型必须更好融入到腾讯的技术栈中,但很多开源架构并不适合腾讯业务场景。比如,幻觉是每一个大模型厂商都会面临的重要问题,业内普遍会用知识图谱甚至搜索外挂让大模型的检索支持能力变得更强,但是这些方式不适用腾讯的场景占比很高,于是腾讯使用了自研的“探真”技术来降低幻觉出现的比例。

 

混元大模型目前还是聚焦在国内市场,中文创作是其主要攻破的能力之一,支持文学创作、文本摘要、角色扮演等。通用大模型的逻辑推理能力非常关键,而大模型如何可靠地执行是腾讯最关注的。

 

混元大模型拥有超千亿参数规模,预训练语料超 2 万亿 tokens。腾讯的内容产品为混元大模型提供了大规模、高质量、多样化的语料库,混元大模型能从中学习到各类应用场景中丰富的语言知识和语境理解能力。

 

面对海量数据,腾讯使用了 AngelPTM 训练框架,优化算法,改进了注意力机制。而在逻辑推理方面,腾讯则使用了 AngelHCF 推理框架,开发了思维链(Chain-of-Thought,CoT)新算法。腾讯表示,通过自研机器学习框架 Angel 使训练速度相比业界主流框架提升 1 倍,推理速度比业界主流框架提升 1.3 倍。

 

注:思维链指的是一系列有逻辑关系的思考步骤形成一个完整的思考过程,用的是离散式 token,能自动构建问题、推理步骤和样例。但思维链必须在模型规模足够大时才能涌现。

 

在蒋杰看来,业内做强化学习的方法大体相似,腾讯要做的就是“拼细节”。“未来几个头部厂商大模型的评分可能仅仅是 1 分、2 分的差距,这个厂家版本高 1 分,另外厂家的下一个版本就会比它再高 1 分,就是这样一个不断博弈和循序渐进的过程。而大家投入的资源不一样、抠的细节不一样,大模型的差异才会最终显露出来。” 

先做内部业务的“倍增器”

 

在通用大模型上,腾讯确实走得不急。腾讯强调,研发大模型的目标不是在评测上获得高分,而是将技术应用到实际场景中。腾讯 6 月份发布行业大模型后,一直努力将能力拓展到更多领域,腾讯内部的海量业务场景也成了混元大模型的“磨刀石”。

 

众所周知,腾讯业务特别广泛,混元大模型能在内部各种场景上很好地应用就很不容易。比如,to C 的腾讯会议、腾讯文档在使用大模型时就有很大的差异。混元大模型的文字总结能力能与文档环境天然很好地结合,但会议场景强实时交互,需要会议团队和混元团队一起探索如何将混元大模型的基础指令理解能力、文字总结能力与会议内容生成结合起来。

 

“像会议、文档这样的场景,单纯将一个大模型直接融合进去短期内不一定能够给业务带来很大提升,因此一定要针对具体的业务需求做专门优化和提效,才能达到更好的效果。”腾讯机器学习平台部副总经理王迪说道。



在腾讯看来,提效是大模型更有商业价值的地方,腾讯希望混元大模型成为业务的“倍增器”。

 

目前,腾讯内部所有的应用都会基于混元大模型做智能化研发,混元大模型将作为基础设施去支持腾讯的各种产品和应用能力。腾讯会议基于腾讯混元大模型打造了 AI 小助手,只需要简单的自然语言指令,就能完成会议信息提取、内容分析等复杂任务,会后还能生成智能总结纪要。混元大模型支持数十种文本创作场景,在腾讯文档推出的智能助手功能中已有应用。

 

与之前技术产品的商业化路径相似,腾讯大模型也会先服务腾讯内部业务,然后再通过腾讯云对外开放,服务外部客户。

结束语

 

在蒋杰看来,大模型的天花板现在还没有完全碰触到的技术体系和演进上,行业不仅需要技术突破,还需要语料的完整度、数据的标注能力、后续的纠错能力等,单点的技术突破无法带来大模型的最终效果。

 

“未来,混元大模型还要做更多的数据标注、更多的框架、训练更多的数据,这才是我们团队工作的真正核心。”蒋杰说道,“腾讯混元永远在路上。”

 

2023-09-12 17:285606

评论 1 条评论

发布
用户头像
到底做了点啥,这啥也没说,忽悠人呢吧
2023-09-14 09:48 · 北京
回复
没有更多了
发现更多内容

九年程序员生涯,我的一些经验教训,offer来了java面试百度云版

Java 程序员 后端

京东面试,这个问题让我与50万擦肩而过,帮忙看看,mysql下载教程window10

Java 程序员 后端

今年,我在字节跳动面试了九次【已意向书,mongodb入门pdf

Java 程序员 后端

从 0 到 1,带你解剖 MVP 的神秘之处,并自己动手实现 MVP !

Java 程序员 后端

为什么要谨慎使用Arrays-asList、ArrayList的subList?

Java 程序员 后端

Vue进阶(幺伍伍):vue-resource 拦截器 interceptors 使用

No Silver Bullet

Vue vue-resource 10月月更

京东十年T8架构师手撕MySQL:手写666页核心知识,超85,java在线编译器实现原理

Java 程序员 后端

人到中年的焦虑,Java面试第一问就是做过什么最有难度的项目

Java 程序员 后端

什么?这个岗位薪资秒杀一众程序员?,java技术面试常见问题

Java 程序员 后端

互联网寒冬下!疫情又遭滑铁卢!从裁员到斩获新offer我经历了什么

Java 程序员 后端

什么神仙笔记!阿里P9用39实例+1项目讲明白了Spring Cloud家族

Java 程序员 后端

为什么建议大家使用 Linux 开发?爽(外加七个感叹号,java高级编程实训总结

Java 程序员 后端

为什么阿里巴巴不建议在for循环中使用”+,java编程技术开发题库和答案

Java 程序员 后端

二十不惑的年纪,竟4面拿下字节跳动offer,我简直走了,jdk和jre区别面试题

Java 程序员 后端

二叉树的各种算法面试题及答案解析,linux基础教程第二版pdf

Java 程序员 后端

五位阿里大牛联手撰写的《深入浅出Java多线程》,java开发视频直播

Java 程序员 后端

五分钟看穿Java并发相关概念,并发原来如此简单,linux学习步骤

Java 后端

为什么大公司要使用微服务?(建议收藏),java基础案例教程第二版答案

Java 程序员 后端

五分钟带你了解Seata分布式事务,java基础菜鸟教程txt

Java 程序员 后端

京东前端面经(123面详细),进阶学习工作最全指南

Java 程序员 后端

为什么说简历很重要?怎么才能写出一份完美的简历?这篇文章你值得拥有

Java 程序员 后端

互联网架构“高并发”到底怎么玩,用Elasticsearch搞定日均1亿订单查询

Java 程序员 后端

京东T9裂墙力荐的82万字spring cloud微服务和分布式系统实践文档

Java 程序员 后端

人工智能 - 语音识别的技术原理是什么,Java理论知识思维导图

Java 程序员 后端

人性的弱点-读书笔记,java面试题大汇总小山博客

Java 程序员 后端

什么是 MySQL 全局锁、表锁、行锁,Java高级开发岗必问知识点

Java 程序员 后端

今日头条一面:十道经典面试题解析,Redis如何实现高可扩展

Java 程序员 后端

京东三面被惨虐:索引+数据库,kafka入门与实践epub

Java 程序员 后端

什么是接口的幂等性,如何实现接口幂等性?,java微服务架构视频下载

Java 程序员 后端

二面余额宝(交叉面),mybatis功能架构

Java 程序员 后端

京东T7架构师手写的10万字Spring Boot详细学习笔记+源码免费下载

Java 程序员 后端

腾讯做大模型:要拼技术细节、用内部业务“磨刀”_腾讯_褚杏娟_InfoQ精选文章