NVIDIA 初创加速计划,免费加速您的创业启动 了解详情
写点什么

全面拥抱大模型!腾讯正式开放全自研通用大模型:参数规模超千亿、预训练语料超 2 万亿 tokens

  • 2023-09-07
    北京
  • 本文字数:1055 字

    阅读完需:约 3 分钟

大小:564.16K时长:03:12
全面拥抱大模型!腾讯正式开放全自研通用大模型:参数规模超千亿、预训练语料超2万亿tokens

9 月 7 日,2023 腾讯全球数字生态大会上,腾讯集团高级执行副总裁、云与智慧产业事业群 CEO 汤道生正式发布全链路自研的通用大语言模型:混元大模型。混元大模型具备强大的中文创作能力、复杂语境下的逻辑推理能力,以及可靠的任务执行能力。


汤道生表示:“以大模型生成技术为核心,人工智能正在成为下一轮数字化发展的关键动力,也为解决产业痛点带来了全新的思路。大模型需要基于产业场景,与企业数据融合,才能释放出最大的价值。”

 

据悉,腾讯混元大模型参数规模超千亿,预训练语料超 2 万亿 tokens,当前版本的知识截止到 2023 年 7 月。混元大模型基于 Transformer,首先进行大规模自监督预训练,之后进行有监督精调,最后通过强化学习进行优化,同时具有一定调用外部插件工具的能力。

 

混元大模型推理能力展示

 

腾讯集团副总裁蒋杰表示,开源大模型并不适应腾讯海量高并发场景,自研才能完全掌握技术内核,将大模型更好地融入到腾讯的技术栈中。据悉,混元大模型以腾讯强大的算力基础设施为基础,腾讯掌握从模型算法到机器学习框架再到 AI 基础设施的全链路自研技术,包括从大规模、高质量、多样化的语料库,到创新的大模型算法,再到自研 Angel 机器学习框架和创新性的训练方法等研发能力。

 

针对大模型容易“胡言乱语”的问题,腾讯通过自研“探真”算法进行事实修正,让混元大模型的幻觉相比主流开源大模型降低了 30%-50%;通过强化学习的方法,让模型学会识别陷阱问题,对安全诱导问题的拒答率提高了 20%;通过位置编码优化,提高了超长文的处理效果和性能;提出思维链的新策略,强化模型对问题拆解和分布思考的趋向,让大模型能够像人一样结合实际的应用场景进行推理和决策。此外,腾讯还自研了机器学习框架 Angel,使训练速度相比业界主流框架提升 1 倍,推理速度比业界主流框架提升 1.3 倍。

 

混元大模型测评数据

 

蒋杰表示,混元大模型已经成为腾讯的业务底座。目前,腾讯云、腾讯广告、腾讯游戏、腾讯金融科技、腾讯会议、腾讯文档、微信搜一搜、QQ 浏览器等 50 多个腾讯内部业务和产品,已经接入腾讯混元大模型测试并取得初步效果。

 

 

混元大模型在腾讯文档的应用示范

 

据了解,混元大模型将作为腾讯云 MaaS(Model-as-a-Service)服务的底座,客户不仅可以直接通过 API 调用混元,也可以将混元作为基底模型,为不同产业场景构建专属应用。

 

据悉,从 2018 年开始,腾讯开始探索大模型相关技术,先后推出了多个千万/亿参数大模型:2019 年,腾讯推出了广告推荐 MoE 大模型,单模型参数超千亿;2021 年,腾讯推出了千亿规模的 NLP 大模型;2022 年,腾讯推出万亿参数的 NLP 稀疏大模型。

 

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2023-09-07 11:214209

评论

发布
暂无评论
发现更多内容

【Nacos源码之配置管理 十】客户端长轮询监听服务端变更数据

石臻臻的杂货铺

nacos 10月月更

技术解读:现代化工具链在大规模 C++ 项目中的运用 | 龙蜥技术

OpenAnolis小助手

c++ 开源 龙蜥技术 优化技术 ThinLTO

使用 Scrapy 框架来爬取数据

智趣匠

spider scrapy框架 10月月更

面试官:你是怎样进行react组件代码复用的

beifeng1996

React

sql注入--通过修改数据完成注入--一文详细讲解

贤鱼很忙

Web SQL注入 10月月更

融云 uni-app 原生插件,生态丰富、高效集成

融云 RongCloud

sdk 集成 uri app

一天梳理完react面试高频题

beifeng1996

React

得物 × StarRocks:潮流网购社区的极速 OLAP 实践

StarRocks

数据库、

软件工程基础知识总结

老张

软件工程

跟着卷卷龙一起学Camera--RGBNIR sensor 02

卷卷龙

ISP camera 10月月更

【愚公系列】2022年10月 Go教学课程 025-递归函数

愚公搬代码

10月月更

Dapr简介-分布式应用运行时

久歌

架构 servicemesh 技术架构 dapr

Vue组件入门(二)props和emit

Augus

Vue3 10月月更

阿里云块存储团队卓越工程实践

阿里技术

经验分享 语言 & 开发

什么是数字体验平台(DXP)?

Baklib

客户体验 数字体验

【Nacos源码之配置管理 十一】服务端LongPollingService推送变更数据到客户端

石臻臻的杂货铺

nacos 10月月更

MySQL高级--性能优化之索引

Java学术趴

10月月更

【一Go到底】第十一天---流程控制

指剑

Go golang 10月月更

跟着卷卷龙一起学Camera--夜景拍照01

卷卷龙

ISP camera 10月月更

【网络安全篇】php伪协议-漏洞及其原理

贤鱼很忙

php 网络安全 Web 10月月更

JFrog Xray 与 Amazon Security Hub 集成

亚马逊云科技 (Amazon Web Services)

安全 DevSecOps

明道云伙伴大会2022/秋,免费门票限量领

明道云

低代码 零代码 aPaaS

使用rust实现的持久kv存储

杨光跃

rust KV存储引擎

MySQL高级--性能优化开篇

Java学术趴

10月月更

MySQL高级--性能优化之索引使用

Java学术趴

10月月更

公司合同管理软件有哪些?

优秀

合同管理软件

Spring Boot「03」使用 Maven 管理并构建项目

Samson

Java spring Spring Boot 学习笔记 10月月更

SAAS公司的金额续费率怎么算

久歌

企业架构 SaaS 数字化

MySQL高级--性能优化之Explain分析SQL

Java学术趴

10月月更

企业集成方案

久歌

企业架构 企业集成

跟着卷卷龙一起学Camera--RGBNIR sensor 01

卷卷龙

ISP camera 10月月更

全面拥抱大模型!腾讯正式开放全自研通用大模型:参数规模超千亿、预训练语料超2万亿tokens_腾讯_褚杏娟_InfoQ精选文章