写点什么

0 开源依赖,任度大模型双网络架构实现数推分离

传神语联

  • 2024-11-14
    北京
  • 本文字数:2233 字

    阅读完需:约 7 分钟

大小:1.13M时长:06:35
0开源依赖,任度大模型双网络架构实现数推分离

在大模型技术发展浪潮中,ScalingLaw(尺度定律)曾是业界遵循的重要法则。然而,知名科技媒体《TheInformation》报道称 OpenAI 下一代旗舰模型 Orion 训练效果或远不及预期,与 GPT-4 相比,Orion 性能提升也许微乎其微。这引发了业界对大模型技术发展路径的深度思考:ScalingLaw 是不是大模型的唯一方向?


基于 ScalingLaw 的大模型落地面临重大瓶颈。一方面,大模型成本高昂且技术同质化严重。同时,如何让大模型有效学习客户数据并成为客户业务领域专家,是一个挑战。若将数据提供给大模型服务商进行训练,数据安全难以保障;若企业自行训练,不仅算力和人才成本高,而且微调模式还可能削弱大模型通用能力。另一方面,采用基于向量检索的模式难以保障输出结果的准确性。


近日,传神语联网网络科技股份有限公司董事长何恩培先生在公开场合发表了《基于双网络架构数推分离大模型的探索与实践》主题演讲,并提出:大模型正在从 ScalingLaw 时代进入“实时学习”时代,回答大

模型沿着什么样的技术路径能满足客户应用落地、为技术探索开辟新的思路,引发了业内专家们的热烈讨论。

双网络架构实现数推分离,走出技术沙漠


在 ScalingLaw 指引下,大模型厂商为提升模型能力,不断扩大预训练数据、训练算力并扩大模型参数规模。但其背后争议在于资源需求庞大,如 GPT-4 已使用约 2 万多张显卡,未来模型算力需求可能达数十万甚至上百万张显卡,引发对资源消耗的担忧,也带来过高的探索成本。


面对技术路线问题,何恩培认为,ScalingLaw 曾在过去为人工智能发展立下汗马功劳,但单纯依赖它进行集中式暴力训练已显露诸多弊端。大模型追求的是“聪明”,在实际场景中发挥作用,而非参数越来越大。因此,集中式预训练模式值得重新审视,实时学习和训练模式更具探索价值。


实际上,在大模型的三要素中,算法占主导地位,它决定训练数据规模和训练算力消耗,算法的同质化必然导致数据规模和训练算力的同质化,最终造成输出能力的趋同。


因此大模型在相同参数下,如果模型的算法和架构更先进,则需要的训练算力越小,训练数据也越少,且不影响模型的能力,甚至在部分指标上可以超越常规架构大参数的模型。相比之下这种采用高效算法和架构的小参数模型更适合商业落地,而且也可以满足通用场景的需求。


传神的任度大模型走了一条算法突破之路,以双网络架构实现数推分离,将推理网络与数据学习网络分离,走出了技术沙漠。


企业数据学习网络如同人类左脑,专注于数据的动态管理与迭代训练,持续为模型注入知识养分;推理网络则如同人类右脑,作为经大量数据预训练的基础网络,具备不错的推理和泛化能力。双网络协同工作显著降低了训练算力成本,有效避免微调训练造成的基座模型能力退化和泛化能力减弱等问题。数据学习网络可以让数据不出域,在企业现场学习历史数据和业务运营中的新数据,解除了企业对数据安全的担忧。


何恩培将数据训练过程类比于人类的知识学习,任度采用了数推分离技术架构,在预训练阶段仅需要适量训练数据,正如人类通过阅读几百本书就能获得一定的智慧。


同时,数推分离的双网络架构突破了常规大模型技术架构限制,上下文输入长度不受限,可将 1 亿字数据压缩到神经网络中实现深度知识理解。任度大模型可以大大降低训练和推理的硬件投入成本,实现极为接近实时的数据学习效果,哪怕企业只有极少量数据更新,也能快速上传并完成数据压缩。


在数推分离模式下,更新数据的网络压缩对推理网络影响微乎其微,能广泛适应各种场景,灵活处理各类数据操作,训练时间可缩短至分钟级。

全栈根原创,实现 0 开源依赖


任度大模型的数推分离双网络架构,最大的意义在于,从底层算法框架到上层应用都是全技术栈自主研发的成果,未使用任何开源代码和框架。


“我们自主研发了机器学习算法框架和模型架构,这使得我们的任何想法和创新都可以不受限制地去实践,让任度大模型具备实时学习客户数据的能力。在国内外,能做到这一点的企业为数不多。”何恩培强调。


任度大模型目前拥有 2.1B 和 9B 两个版本,其中多模态 9B 参数版本在全球评测中,已跻身全球大模型行业第一梯队。在多项国内外评测中,任度 9B 模型与百亿千亿参数大模型的对比中脱颖而出,以更少参数实现领先性能。同时,2.1B 参数版本在 2024 年 9 月的 MMLU 评估中,综合评分超越了 Gemma-7B、LLaMA2-34B 等知名大模型,性参比更是超越了包括 GPT-4o、Phi-3、Qwen2-7B、Llama3.1 等国际顶尖大模型,以小参数实现了与百亿、千亿级别模型相媲美的性能。


任度大模型在训练与推理过程中的算力成本显著降低,仅为同等大型模型的 1/5—1/10 以及 1/2—1/4。

“双脑”大模型一体机,一小时成为专属业务专家


目前,双网络架构的数推分离大模型已应用在任度“双脑”大模型一体机中,即将投放市场,解决大模型落地痛点。


何恩培表示,数推分离的双脑模式,解决了企业数据离场训练、向量效果有限以及人才投入高等难题,实现本地实时学习,一小时就能成为专属业务专家。企业数据在本地训练,无需上传至公有云,保障了数据隐私安全。根原创和高性参比,解决了企业在应用大模型中的高硬件投入、高能耗以及技术安全和软件漏洞等顾虑。


预训练之后的模型如何实现少量数据实时学习和训练模式,是全球大模型领域都在苦苦探索的课题。任度大模型独辟蹊径,何恩培坦言:“我们侥幸走通了这条路。我们没有从主流大模型发展遇到的问题中寻找突破机会,而是从公司诞生起就走在这条路上,走了 20 多年,也曾感到孤独和不自信,但看到大家都向这个方向走来,才确信自己走的没错,直到我们大模型评测进入第一梯队,才知道我们的技术路线也不差。”

2024-11-14 18:088924

评论

发布
暂无评论
发现更多内容

flowjo 10破解版图文教程 flowjo 10 mac专业的细胞分析工具

Rose

mac软件下载 流式细胞分析软件 FlowJo 10下载 FlowJo 10破解版

keyshot2023怎么保存低版本(keyshot2023下载安装教程)

Rose

KeyShot2023pro安装包 keyshot2023下载

霍格沃兹测试开发学社,全方位的测试解决方案提供商

霍格沃兹测试开发学社

人工智能如何让测试更智能更高效?

霍格沃兹测试开发学社

抢先一步,获取最全测试开发岗求职攻略

霍格沃兹测试开发学社

Yummy FTP Pro for mac中文直装版 最可靠的ftp文件传输工具

Rose

Mac软件 文件传输工具 ftp传输 Yummy FTP Pro 破解版 Yummy FTP Pro 下载

达芬奇调色软件破解版 davinci resolve 18.6.6最新中文安装包

Rose

DaVinci Resolve 破解 DaVinci Resolve18下载 达芬奇下载 达芬奇视频调色

全智能深度演进,一键成片让视频创作颠覆式提效

阿里云CloudImagine

云计算 媒体 云剪辑

AI力量:如何让测试更智能更高效

测试人

软件测试

cURL 命令全面解析:提高工作效率

Apifox

程序员 前端 后端 API curl

工业物联网App开发:连接未来智能制造的关键

天津汇柏科技有限公司

数字化转型 工业物联网

Puppeteer实践:复杂的问题简单化

南城FE

JavaScript 前端 nodejs puppeteer

低代码无法取代程序员,但为什么很多程序员却反感低代码?

天津汇柏科技有限公司

程序员 低代码 数字化转型

Hype 4 Pro:打造惊艳HTML5动画与交互设计的全能之选

Rose

html5 网页制作 交互设计工具 Hype 4 Pro破解版 Hype 4 Pro下载

章文嵩等技术大咖共同探讨企业数据治理和降本增效策略运用!

AutoMQ

#云原生 KubeBlocks #Kafka #OceanBase #AutoMQ

教你用python爬取『京东』商品数据,原来这么简单!

技术冰糖葫芦

API 接口

苹果电脑3D壁纸屏保 Screen Wonders动态壁纸

Rose

动态壁纸 Screen Wonders壁纸 苹果电脑屏保 mac屏保

源码解析丨一次慢SQL排查

GreatSQL

慢查询

在 GraalVM 静态编译下无侵入实现可观测探索

阿里巴巴云原生

Java 阿里云 云原生

Puppet 2024年度报告:平台工程发掘 DevOps 无限潜质

SEAL安全

DevOps 平台工程 puppet

SnailSVN Mac版:从 Finder 的上下文菜单中快速访问各种最常用的 SVN 功能

Rose

Mac软件 SVN客户端 SnailSVN Pro下载 Subversion(SVN)客户端

【干货】需求驱动的配货

第七在线

想在Mac电脑上畅玩Windows游戏,那就试试CrossOver 24虚拟机吧!

Rose

CrossOver 24 CrossOver 24虚拟机 如何在Mac运行win 苹果电脑虚拟机软件

苹果电脑软件开发工具:Xcode 15全新发布

Rose

编程开发 Xcode Mac版 Xcode 15

IntelliJ IDEA 2023:智能编码,让开发更高效!

Rose

ide 编程开发 IntelliJ IDEA 2023破解 IntelliJ IDEA 2023 IDEA 2023激活码

如何使用 NFTScan NFT API 在 Blast 网络上开发 Web3 应用

NFT Research

API NFT\ NFTScan

0开源依赖,任度大模型双网络架构实现数推分离_生成式 AI_InfoQ精选文章