写点什么

0 开源依赖,任度大模型双网络架构实现数推分离

传神语联

  • 2024-11-14
    北京
  • 本文字数:2233 字

    阅读完需:约 7 分钟

大小:1.13M时长:06:35
0开源依赖,任度大模型双网络架构实现数推分离

在大模型技术发展浪潮中,ScalingLaw(尺度定律)曾是业界遵循的重要法则。然而,知名科技媒体《TheInformation》报道称 OpenAI 下一代旗舰模型 Orion 训练效果或远不及预期,与 GPT-4 相比,Orion 性能提升也许微乎其微。这引发了业界对大模型技术发展路径的深度思考:ScalingLaw 是不是大模型的唯一方向?


基于 ScalingLaw 的大模型落地面临重大瓶颈。一方面,大模型成本高昂且技术同质化严重。同时,如何让大模型有效学习客户数据并成为客户业务领域专家,是一个挑战。若将数据提供给大模型服务商进行训练,数据安全难以保障;若企业自行训练,不仅算力和人才成本高,而且微调模式还可能削弱大模型通用能力。另一方面,采用基于向量检索的模式难以保障输出结果的准确性。


近日,传神语联网网络科技股份有限公司董事长何恩培先生在公开场合发表了《基于双网络架构数推分离大模型的探索与实践》主题演讲,并提出:大模型正在从 ScalingLaw 时代进入“实时学习”时代,回答大

模型沿着什么样的技术路径能满足客户应用落地、为技术探索开辟新的思路,引发了业内专家们的热烈讨论。

双网络架构实现数推分离,走出技术沙漠


在 ScalingLaw 指引下,大模型厂商为提升模型能力,不断扩大预训练数据、训练算力并扩大模型参数规模。但其背后争议在于资源需求庞大,如 GPT-4 已使用约 2 万多张显卡,未来模型算力需求可能达数十万甚至上百万张显卡,引发对资源消耗的担忧,也带来过高的探索成本。


面对技术路线问题,何恩培认为,ScalingLaw 曾在过去为人工智能发展立下汗马功劳,但单纯依赖它进行集中式暴力训练已显露诸多弊端。大模型追求的是“聪明”,在实际场景中发挥作用,而非参数越来越大。因此,集中式预训练模式值得重新审视,实时学习和训练模式更具探索价值。


实际上,在大模型的三要素中,算法占主导地位,它决定训练数据规模和训练算力消耗,算法的同质化必然导致数据规模和训练算力的同质化,最终造成输出能力的趋同。


因此大模型在相同参数下,如果模型的算法和架构更先进,则需要的训练算力越小,训练数据也越少,且不影响模型的能力,甚至在部分指标上可以超越常规架构大参数的模型。相比之下这种采用高效算法和架构的小参数模型更适合商业落地,而且也可以满足通用场景的需求。


传神的任度大模型走了一条算法突破之路,以双网络架构实现数推分离,将推理网络与数据学习网络分离,走出了技术沙漠。


企业数据学习网络如同人类左脑,专注于数据的动态管理与迭代训练,持续为模型注入知识养分;推理网络则如同人类右脑,作为经大量数据预训练的基础网络,具备不错的推理和泛化能力。双网络协同工作显著降低了训练算力成本,有效避免微调训练造成的基座模型能力退化和泛化能力减弱等问题。数据学习网络可以让数据不出域,在企业现场学习历史数据和业务运营中的新数据,解除了企业对数据安全的担忧。


何恩培将数据训练过程类比于人类的知识学习,任度采用了数推分离技术架构,在预训练阶段仅需要适量训练数据,正如人类通过阅读几百本书就能获得一定的智慧。


同时,数推分离的双网络架构突破了常规大模型技术架构限制,上下文输入长度不受限,可将 1 亿字数据压缩到神经网络中实现深度知识理解。任度大模型可以大大降低训练和推理的硬件投入成本,实现极为接近实时的数据学习效果,哪怕企业只有极少量数据更新,也能快速上传并完成数据压缩。


在数推分离模式下,更新数据的网络压缩对推理网络影响微乎其微,能广泛适应各种场景,灵活处理各类数据操作,训练时间可缩短至分钟级。

全栈根原创,实现 0 开源依赖


任度大模型的数推分离双网络架构,最大的意义在于,从底层算法框架到上层应用都是全技术栈自主研发的成果,未使用任何开源代码和框架。


“我们自主研发了机器学习算法框架和模型架构,这使得我们的任何想法和创新都可以不受限制地去实践,让任度大模型具备实时学习客户数据的能力。在国内外,能做到这一点的企业为数不多。”何恩培强调。


任度大模型目前拥有 2.1B 和 9B 两个版本,其中多模态 9B 参数版本在全球评测中,已跻身全球大模型行业第一梯队。在多项国内外评测中,任度 9B 模型与百亿千亿参数大模型的对比中脱颖而出,以更少参数实现领先性能。同时,2.1B 参数版本在 2024 年 9 月的 MMLU 评估中,综合评分超越了 Gemma-7B、LLaMA2-34B 等知名大模型,性参比更是超越了包括 GPT-4o、Phi-3、Qwen2-7B、Llama3.1 等国际顶尖大模型,以小参数实现了与百亿、千亿级别模型相媲美的性能。


任度大模型在训练与推理过程中的算力成本显著降低,仅为同等大型模型的 1/5—1/10 以及 1/2—1/4。

“双脑”大模型一体机,一小时成为专属业务专家


目前,双网络架构的数推分离大模型已应用在任度“双脑”大模型一体机中,即将投放市场,解决大模型落地痛点。


何恩培表示,数推分离的双脑模式,解决了企业数据离场训练、向量效果有限以及人才投入高等难题,实现本地实时学习,一小时就能成为专属业务专家。企业数据在本地训练,无需上传至公有云,保障了数据隐私安全。根原创和高性参比,解决了企业在应用大模型中的高硬件投入、高能耗以及技术安全和软件漏洞等顾虑。


预训练之后的模型如何实现少量数据实时学习和训练模式,是全球大模型领域都在苦苦探索的课题。任度大模型独辟蹊径,何恩培坦言:“我们侥幸走通了这条路。我们没有从主流大模型发展遇到的问题中寻找突破机会,而是从公司诞生起就走在这条路上,走了 20 多年,也曾感到孤独和不自信,但看到大家都向这个方向走来,才确信自己走的没错,直到我们大模型评测进入第一梯队,才知道我们的技术路线也不差。”

2024-11-14 18:089017

评论

发布
暂无评论
发现更多内容

为什么我就面试阿里P6,好不容易过2面,3面来个架构师来吊打我?

小Q

Java 学习 程序员 架构 面试

多线程并发主题-ThreadLocalRandom类

公众号:程序猿成神之路

Java 并发编程 线程

什么?还不懂c++vector的用法,你凭什么勇气来的!

良知犹存

c++

云图说|多模态AI开发套件HiLens Kit:超强算力彰显云上实力

华为云开发者联盟

人工智能 开发者 物联网 机器人 华为云

阿里大牛说:你凭什么搞不懂SpringBoot,Cloud,Nginx与Docker

小Q

Java 学习 编程 架构 面试

亲测三遍!8步搭建一个属于自己的网站

华为云开发者联盟

MySQL Linux 开发者 网站 华为云

Github标星67.9k的微服务架构以及架构设计模式笔记我真的爱了

Java架构之路

Java 程序员 架构 面试 编程语言

加快脑动脉瘤检测,AI来了

华为云开发者联盟

人工智能 学习 算法 华为云 医疗AI

【Swift实现代码】iOS架构模式之MVP

码爷

ios swift 架构

轻松云上揽胜中华,靠的就是这份聪明的“地图”!

华为云开发者联盟

MySQL 数据库 postgresql AI 地图

java-File对象

Isuodut

“双11”购物狂欢节,所有女生走进了谁的直播间?

博睿数据

APM AIOPS 拨测 直播 用户体验

C++多元组tuple使用方法?你熟悉吗?快来看看吧

良知犹存

c++

区块链有了几个新“标准”!

CECBC

区块链 版权保护

企业级软件的核心价值

Philips

敏捷开发 企业应用

Flutter Bloc模式

码爷

flutter ios 程序员

手把手教你本地 k8s 集群搭建云原生 Tekton CICD 流水线

比伯

Java 大数据 编程 架构 计算机

IMC总决赛精彩对战应接不暇,英特尔酷睿极致性能燃爆比赛现场!

E科讯

Teambition 网盘 VS 阿里云盘:阿里这个浓眉大眼的也开始玩赛马了?

郭旭东

阿里云 阿里云网盘

微众银行大数据平台建设方案

康月牙

大数据 开源 金融 平台 微众银行

《迅雷链精品课》第三课:区块链主流框架分析

迅雷链

区块链 区块链方案 区块链+ 区块链应用

JVM真香系列:方法区、堆、栈之间到底有什么关系

田维常

Java JVM 堆栈 方法区 Java虚拟机

《精通Tomcat:Java Web应用开发、框架分析与案例实战》.pdf

田维常

tomcat

美国区块链政策大盘点

CECBC

区块链 政策 货币

DeFi质押挖矿系统开发技术

薇電13242772558

区块链 defi

数据结构与算法系列之递归(GO)

书旅

数据结构与算法 Go 语言

数字投票时代即将到来

CECBC

数字投票

【涂鸦物联网足迹】涂鸦云平台接口列表

IoT云工坊

人工智能 接口 物联网 API 智能家居

高交会科技盛宴:“科技改变生活,创新驱动发展”

13530558032

LeetCode题解:剑指 Offer 22. 链表中倒数第k个节点,双指针,JavaScript,详细注释

Lee Chen

算法 大前端 LeetCode

握草!美团P8整理的280页超详细Docker实战文档简直太香了,让你对如日中天的Docker有更深入的了解。

Java架构之路

Java 程序员 架构 面试 编程语言

0开源依赖,任度大模型双网络架构实现数推分离_生成式 AI_InfoQ精选文章