50万奖金+官方证书,深圳国际金融科技大赛正式启动,点击报名 了解详情
写点什么

全面拥抱大模型!腾讯正式开放全自研通用大模型:参数规模超千亿、预训练语料超 2 万亿 tokens

  • 2023-09-07
    北京
  • 本文字数:1055 字

    阅读完需:约 3 分钟

大小:564.16K时长:03:12
全面拥抱大模型!腾讯正式开放全自研通用大模型:参数规模超千亿、预训练语料超2万亿tokens

9 月 7 日,2023 腾讯全球数字生态大会上,腾讯集团高级执行副总裁、云与智慧产业事业群 CEO 汤道生正式发布全链路自研的通用大语言模型:混元大模型。混元大模型具备强大的中文创作能力、复杂语境下的逻辑推理能力,以及可靠的任务执行能力。


汤道生表示:“以大模型生成技术为核心,人工智能正在成为下一轮数字化发展的关键动力,也为解决产业痛点带来了全新的思路。大模型需要基于产业场景,与企业数据融合,才能释放出最大的价值。”

 

据悉,腾讯混元大模型参数规模超千亿,预训练语料超 2 万亿 tokens,当前版本的知识截止到 2023 年 7 月。混元大模型基于 Transformer,首先进行大规模自监督预训练,之后进行有监督精调,最后通过强化学习进行优化,同时具有一定调用外部插件工具的能力。

 

混元大模型推理能力展示

 

腾讯集团副总裁蒋杰表示,开源大模型并不适应腾讯海量高并发场景,自研才能完全掌握技术内核,将大模型更好地融入到腾讯的技术栈中。据悉,混元大模型以腾讯强大的算力基础设施为基础,腾讯掌握从模型算法到机器学习框架再到 AI 基础设施的全链路自研技术,包括从大规模、高质量、多样化的语料库,到创新的大模型算法,再到自研 Angel 机器学习框架和创新性的训练方法等研发能力。

 

针对大模型容易“胡言乱语”的问题,腾讯通过自研“探真”算法进行事实修正,让混元大模型的幻觉相比主流开源大模型降低了 30%-50%;通过强化学习的方法,让模型学会识别陷阱问题,对安全诱导问题的拒答率提高了 20%;通过位置编码优化,提高了超长文的处理效果和性能;提出思维链的新策略,强化模型对问题拆解和分布思考的趋向,让大模型能够像人一样结合实际的应用场景进行推理和决策。此外,腾讯还自研了机器学习框架 Angel,使训练速度相比业界主流框架提升 1 倍,推理速度比业界主流框架提升 1.3 倍。

 

混元大模型测评数据

 

蒋杰表示,混元大模型已经成为腾讯的业务底座。目前,腾讯云、腾讯广告、腾讯游戏、腾讯金融科技、腾讯会议、腾讯文档、微信搜一搜、QQ 浏览器等 50 多个腾讯内部业务和产品,已经接入腾讯混元大模型测试并取得初步效果。

 

 

混元大模型在腾讯文档的应用示范

 

据了解,混元大模型将作为腾讯云 MaaS(Model-as-a-Service)服务的底座,客户不仅可以直接通过 API 调用混元,也可以将混元作为基底模型,为不同产业场景构建专属应用。

 

据悉,从 2018 年开始,腾讯开始探索大模型相关技术,先后推出了多个千万/亿参数大模型:2019 年,腾讯推出了广告推荐 MoE 大模型,单模型参数超千亿;2021 年,腾讯推出了千亿规模的 NLP 大模型;2022 年,腾讯推出万亿参数的 NLP 稀疏大模型。

 

2023-09-07 11:216669

评论

发布
暂无评论
发现更多内容

1024程序员:算法&仓鼠&创业

博文视点Broadview

Python代码阅读(第44篇):寻找符合条件的元素的位置

Felix

Python 编程 Code Programing 阅读代码

实现服务器和客户端数据交互,Java Socket有妙招

华为云开发者联盟

socket 进程 服务器 客户端 java

拆分电商系统为微服务

Yina🌝很浪🌊

收藏这36个正则表达式,开发效率提高80%

Tom弹架构

Java 正则表达式

架构实战营模块六作业 - 拆分电商系统为微服务

李焕之

电商系统微服务系统设计

Imaginary

2021年秋季明道云伙伴大会,邀您参与!

明道云

1024程序员节的正确打开方式

云智慧AIOps社区

程序员 开源技术 1024我在现场 飞鱼 云智慧

模块一:为何架构设计能力难以提升? --学习总结

小鹿

第 23 章 -《Linux 一学就会》- expect - 正则表达式-sed-cut的使用

学神来啦

Linux Shell linux运维 linux云计算 linux一学就会

谐云边缘计算大规模落地实践,带你见证边缘的力量!

谐云

云计算 边缘计算

云图说 | 分布式缓存服务DCS—站在开源Redis前辈的肩膀上,扬帆起航

华为云开发者联盟

redis 缓存 分布式 华为云 DCS

华为在HDC2021发布全新HMS Core 6 宣布跨OS能力开放

叶落便知秋

netty系列之:netty对http2消息的封装

程序那些事

Java Netty 程序那些事 http2

顶会VLDB'22论文解读:多元时序预测算法METRO

华为云开发者联盟

数据库 华为云 多元时序预测算法 VLDB'22 华为云数据库创新Lab

新征程、新时势、新聚变——2021一亩地儿合作伙伴大会在京成功举办

基于 RocketMQ 的基金数字化陪伴体系的架构实践

阿里巴巴云原生

阿里云 RocketMQ 云原生 消息队列 金融场景

【KubeMeet 上海站回顾】 探索云原生应用管理与交付新解法

阿里巴巴云原生

阿里云 开源 云原生 KubeMeet

go-zero 实战之 blog 系统

万俊峰Kevin

golang 微服务 go-zero

Vue进阶(幺伍零):巧用 key 提升页面渲染性能及触发生命周期函数

No Silver Bullet

Vue 渲染性能 10月月更

华为首次采用数字人全程实时手语直播,并宣布全面开放手语服务能力

叶落便知秋

极客时间架构实战营作业六

jjn0703

架构实战营

架构实战训练营模块 6 作业

Sonichen

爱奇艺联合WSDM发起用户留存预测挑战赛

爱奇艺技术产品团队

零信任能力成熟度模型白皮书发布!内附下载资源

华为云开发者联盟

安全 隐私保护 华为云 网络架构 零信任

vivo AI 计算平台的 ACK 混合云实践

阿里巴巴云原生

阿里云 云原生 ACK Vivo

架构设计六 如何设计业务的微服务架构

nydia

微服务 架构设计

0 基础架构入门 - 6(电商系统微服务架构)

felix

架构实战营 0 基础架构入门

推荐7款超实用的推特推特下载器,包括电脑和手机上使用(小伙伴们快快收藏起来)

So...

twitter 推特视频下载 推特 x x视频下载

美团的动态线程池,不依赖中间件可以实现么?

马丁玩编程

Spring Boot ThreadPoolExecutor

全面拥抱大模型!腾讯正式开放全自研通用大模型:参数规模超千亿、预训练语料超2万亿tokens_腾讯_褚杏娟_InfoQ精选文章