大咖直播-鸿蒙原生开发与智能提效实战!>>> 了解详情
写点什么

全面拥抱大模型!腾讯正式开放全自研通用大模型:参数规模超千亿、预训练语料超 2 万亿 tokens

  • 2023-09-07
    北京
  • 本文字数:1055 字

    阅读完需:约 3 分钟

大小:564.16K时长:03:12
全面拥抱大模型!腾讯正式开放全自研通用大模型:参数规模超千亿、预训练语料超2万亿tokens

9 月 7 日,2023 腾讯全球数字生态大会上,腾讯集团高级执行副总裁、云与智慧产业事业群 CEO 汤道生正式发布全链路自研的通用大语言模型:混元大模型。混元大模型具备强大的中文创作能力、复杂语境下的逻辑推理能力,以及可靠的任务执行能力。


汤道生表示:“以大模型生成技术为核心,人工智能正在成为下一轮数字化发展的关键动力,也为解决产业痛点带来了全新的思路。大模型需要基于产业场景,与企业数据融合,才能释放出最大的价值。”

 

据悉,腾讯混元大模型参数规模超千亿,预训练语料超 2 万亿 tokens,当前版本的知识截止到 2023 年 7 月。混元大模型基于 Transformer,首先进行大规模自监督预训练,之后进行有监督精调,最后通过强化学习进行优化,同时具有一定调用外部插件工具的能力。

 

混元大模型推理能力展示

 

腾讯集团副总裁蒋杰表示,开源大模型并不适应腾讯海量高并发场景,自研才能完全掌握技术内核,将大模型更好地融入到腾讯的技术栈中。据悉,混元大模型以腾讯强大的算力基础设施为基础,腾讯掌握从模型算法到机器学习框架再到 AI 基础设施的全链路自研技术,包括从大规模、高质量、多样化的语料库,到创新的大模型算法,再到自研 Angel 机器学习框架和创新性的训练方法等研发能力。

 

针对大模型容易“胡言乱语”的问题,腾讯通过自研“探真”算法进行事实修正,让混元大模型的幻觉相比主流开源大模型降低了 30%-50%;通过强化学习的方法,让模型学会识别陷阱问题,对安全诱导问题的拒答率提高了 20%;通过位置编码优化,提高了超长文的处理效果和性能;提出思维链的新策略,强化模型对问题拆解和分布思考的趋向,让大模型能够像人一样结合实际的应用场景进行推理和决策。此外,腾讯还自研了机器学习框架 Angel,使训练速度相比业界主流框架提升 1 倍,推理速度比业界主流框架提升 1.3 倍。

 

混元大模型测评数据

 

蒋杰表示,混元大模型已经成为腾讯的业务底座。目前,腾讯云、腾讯广告、腾讯游戏、腾讯金融科技、腾讯会议、腾讯文档、微信搜一搜、QQ 浏览器等 50 多个腾讯内部业务和产品,已经接入腾讯混元大模型测试并取得初步效果。

 

 

混元大模型在腾讯文档的应用示范

 

据了解,混元大模型将作为腾讯云 MaaS(Model-as-a-Service)服务的底座,客户不仅可以直接通过 API 调用混元,也可以将混元作为基底模型,为不同产业场景构建专属应用。

 

据悉,从 2018 年开始,腾讯开始探索大模型相关技术,先后推出了多个千万/亿参数大模型:2019 年,腾讯推出了广告推荐 MoE 大模型,单模型参数超千亿;2021 年,腾讯推出了千亿规模的 NLP 大模型;2022 年,腾讯推出万亿参数的 NLP 稀疏大模型。

 

2023-09-07 11:216680

评论

发布
暂无评论
发现更多内容

Android源码分析笔记:(2021-3-13)事件分发

Geek_416be1

打造技术人创作利器:Typora+PicGo+Github+Jsdelivr 组合拳

Viktor

创作 GitHub Pages 工具软件

通过使用终端(iTerm2&Oh my ZSH)来提高您的生产率 John 易筋 ARTS 打卡 Week 41

John(易筋)

ARTS 打卡计划 iterm2 myzsh

Web安全之XSS

架构精进之路

Web 安全 3月日更

团队开发工具之一——Wiki

吴脑的键客

wiki

爱赢才会拼——目标梯度效应

Justin

心理学 28天写作 游戏设计

大作业(一)

Binary

甲方日常 93

句子

工作 随笔杂谈 日常

《精通比特币》学习笔记(第十章)

棉花糖

区块链 学习 3月日更

(28DW-S8-Day22) 《流程型组织》学习笔记:金字塔

mtfelix

28天写作

Zookeeper.02 - API

insight

zookeeper 3月日更

Wireshark数据包分析学习笔记Day10

穿过生命散发芬芳

Wireshark 数据包分析 3月日更

2021年金三银四全新版互联网大厂Java面试题,分类65份PDF,累计2340页

Java 架构 面试

源码分析 -Netty:多线程在Netty中的应用

程序员架构进阶

Java 源码分析 Netty 28天写作 3月日更

《精通比特币》学习笔记(第九章)

棉花糖

区块链 学习 3月日更

HR14问

我是程序员小贱

面试 3月日更

redis分布式锁实现

Sakura

28天写作 3月日更

《3%法则》读书笔记

boshi

读书笔记 七日更

第一天(VBA, Python最最最基础入门)

橙橙橙橙汁丶

自学 办公自动化 python excel IT蜗壳教学 vba

Mac Os下搭建Hadoop运行环境

白贺BaiHe

大数据 数仓 hadoo

如何使用标准稳压器输出几百毫伏极低直流电压?

不脱发的程序猿

28天写作 电路设计 3月日更 电源电路 标准稳压器

翻译:《实用的Python编程》05_02_Classes_encapsulation

codists

Python

复盘读书笔记

lenka

3月日更

Wireshark数据包分析学习笔记Day11

穿过生命散发芬芳

Wireshark 数据包分析 3月日更

GO GC知识点整理

非晓为骁

垃圾回收 GC算法 Go 语言

第六次作业

秦挺

冒泡插入选择排序以及PHP实现

一个大红包

3月日更

对产品经理的一些思考

ES_her0

28天写作 3月日更

算法攻关 - 从上到下打印二叉树2 (O(n))_offer32

小诚信驿站

刘晓成 小诚信驿站 28天写作 算法攻关 从上到下打印二叉树

滚雪球学 Python 之作用域下的 global 和 nonlocal 关键字

梦想橡皮擦

28天写作 3月日更

软件工程任务排期方法

steve_lee

全面拥抱大模型!腾讯正式开放全自研通用大模型:参数规模超千亿、预训练语料超2万亿tokens_腾讯_褚杏娟_InfoQ精选文章