写点什么

两行代码解决大模型对话局限,港中文贾佳亚团队联合 MIT 发布超长文本扩展技术

  • 2023-10-09
    北京
  • 本文字数:2155 字

    阅读完需:约 7 分钟

大小:1.17M时长:06:48
两行代码解决大模型对话局限,港中文贾佳亚团队联合MIT发布超长文本扩展技术

近日,贾佳亚团队联合 MIT 发布了一项名为 LongLoRA 的新技术,只需两行代码、一台 8 卡 A100 机器,便可将 7B 模型的文本长度拓展到 100k tokens、70B 模型的文本长度拓展到 32k tokens。同时,该研究团队还发布了首个拥有 70B 参数量的长文本对话大语言模型 LongAlpaca。

LongLoRA 如何解决大模型对话缺陷

 

“上下文越长大模型越笨”是典型的大语言模型对话缺陷。在长文本处理过程中,之前大语言模型计算量的主要开销集中在自注意力机制(self-attention),其开销随着文本长度成平方次地增加。针对这个问题,研究团队提出 LongLoRA 技术,并用分组和偏移的方式来对全局自注意力机制进行模拟。

 


简单来说,就是将长文本对应的 tokens 拆分成不同的组,在每组内部做自注意力计算,而分组的方式在不同注意力头 (attention head) 上有所偏移。这样的方式既可以大幅度节约计算量,又可以维持全局感受野的传递。而这个实现方法也非常简洁,仅两行代码即可完成。



LongLoRA 还探索了低秩训练的方式。原有的低秩训练方式,如 LoRA [5],无法在文本长度迁移上取得良好的效果。而 LongLoRA 在低秩训练的基础上,引入嵌入层 (Embedding layer 和 Normalization layers) 进行微调,从而达到可以和全参数微调 (Full fine-tune) 逼近的效果。



进行不同长度文本扩展和训练时,LongLoRA、LoRA 和全参数微调不同技术的具体表现如下:

 

  • 在 Perplexity-困惑度上,原有 LoRA 方法的性能在不断恶化,而 LongLoRA 和全参数微调都能在各种文本长度下维持很好的效果;

  • 在显存消耗上,相比于全参数微调,LongLoRA 和原有 LoRA 都有大幅度的节省。例如,对于 8k 长度的模型训练,相比于全参数微调,LongLoRA 将显存消耗从 46.3GB 降低到 25.6GB;

  • 在训练时间上,对于 64k 长度的模型训练,相比于常规 LoRA,LongLoRA 将训练时间从 90~100 小时左右降低到 52.4 小时,而全参数微调超过 1000 小时。


目前,相关技术与模型已全部开源:

 

代码和 Demo 地址:https://github.com/dvlab-research/LongLoRA

论文地址:https://arxiv.org/pdf/2309.12307.pdf

 

长篇小说读后分析,LongAlpaca 完胜 Llama2

 

LongAlpaca 大语言模型,利用 LongLoRA 技术解决了对话缺陷问题。但大语言模型处理长文本问题的一大难点还在于缺少公开的长文本对话数据。

 

为此,研究团队特意收集了 9k 条长文本问答语料对,包含针对名著、论文、深度报道甚至财务报表的各类问答,此外还挑选了 3k 的短问答语料与 9K 的长问答语料混合训练,让长文本大模型同时具备短文本对话能力。这个完整的数据集被称为 LongAlpaca-12k,目前已经开源。

 

在 LongAlpaca-12k 数据集基础上,研究团队对不同参数大小 7B、13B、70B 进行了训练和评测,开源模型包括 LongAlpaca-7B、LongAlpaca-13B 和 LongAlpaca-70B。下面是 LongLoRA 技术叠加 12K 问答语料的大模型 LongAlpaca 在论文方面表现:



让系统新读一篇论文,并根据 ICLR 的审查指南,对其提出修改意见,从而提升该论文的接收率。

 

LongAlpaca 的意见是:通过更精确地阐明新颖性,提供更严格和更有对比性的实验结果(包括具体的数据集和指标)、更广泛的应用和未来发展方向,重点呈现关键贡献和影响,论文被接受的机会将得到提高。



让系统读两篇新的不同的论文,让 LongAlpaca 概括 ICLR 和 CVPR 两个会议之间的风格区别。

 

LongAlpaca 总结认为,CVPR 论文倾向更具结构性和实验性的风格,专注于实用性和技术性。而 ICLR 的论文风格更加灵活,侧重关键的理论分析和数学推导,而非标准格式。

 

可以看出,经过训练的 LongAlpaca 模型已经可以很轻松地接受新的长篇学术论文,在学术相关问题的回答上相当精准。

 

LongAlpaca 在颇高阅读和理解门槛的经济领域的解读表现:




根据国际货币基金组织从 2012 年到 2023 年的全球经济展望的概述合集,对经济形势进行逐年总结以及对未来经济趋势进行预测。

 

LongAlpaca 表示,2023 年全球经济形势不明朗,跟 2022 年相比,增长预计放缓;未来几年,全球经济扩张速度偏温和并将低于预期,而地缘政治紧张、金融市场波动等大的挑战依然存在,需通过多边合作和结构性改革小心应对。

 

13B 参数的 LongAlpaca 和 Llama2 在读完长篇小说后的内容分析对比:



名著《西游记》中,为什么孙悟空在大闹天宫时很厉害,但取经路上却屡屡受挫?

 

LongAlpaca 给出了 5 点原因,大概可总结为: “孙悟空的不成熟、强大的对手、力量的限制、敌人的欺骗、最初缺少同伴等因素导致了他在旅途中的失败。但随着时间推移,他获得了智慧、经验和战友,使他最终战胜了最强大的敌人。”

 

而 Llama2 的回答较为简单:“虽然他确实大闹天宫,但说他代表着不败的力量并不一定准确。事实上,他最终在西游记中被强大的唐三藏打败。”Llama2 没有给出正确答案,并且还提出需要更多的内容信息。



让系统新读一次《三体》,然后问第一部中,叶文洁为什么要联系外星人,而后期又为什么后悔?

 

LongAlpaca 认为,叶文洁最初接触外星人是出于理想主义和复仇,但随着时间的推移,她对人类的看法发生了变化,意识到自己可能给全人类带来的危险,她的悔恨与日俱增。

 

而 Llama2 的回答则是,“通过与外星人的互动,她希望能更深入地了解宇宙的本质,以及自己在宇宙中的位置。叶文洁逐渐意识到,外星人和他们的技术并不能解决她的问题。”

 

从模型给出的答案可看出,一些模型如 Llama2,可能在预训练过程中见过相关小说,但如果在提问时进行仅根据小说题目进行短文本提问的话,回答并不理想。

2023-10-09 14:075923

评论

发布
暂无评论
发现更多内容

通过实战总结的 使用Go的小技巧

王中阳Go

Go golang 高效工作 学习方法 11月月更

Go定时任务源码 - robfig/cron

人生如梦

Go 定时任务 cron

元器件科普|变压器的分类及形状构造

元器件秋姐

元器件采购 华秋商城 变压器 电感器 电压

不懂Hybird开发,感觉错过一个亿~

FinFish

小程序 前端框架 APP开发 APP软件开发、 混合开发

【Ajax进阶】跨域和JSONP的学习

坚毅的小解同志

ajax 11月月更

OpenHarmony 3.2 Beta多媒体系列——音视频播放框架

OpenHarmony开发者

OpenHarmony

旺链科技肖慧荣登超级账本2022年第三季度中国贡献榜

旺链科技

区块链 产业区块链 VoneBaaS 企业号十月PK榜

5分钟搭建图片压缩应用

华为云开发者联盟

云计算 后端 华为云 函数工作流

传输线路动态巡检探索

鲸品堂

网络 传输网络

提升80%上云集成效率, TA是如何做到的

华为云开发者联盟

云计算 后端 华为云 云集成

Bigkey问题的解决思路与方式探索

vivo互联网技术

redis dba bigkey

【愚公系列】2022年11月 微信小程序-应用生命周期和全局变量

愚公搬代码

11月月更

鸿蒙系统ARKUI框架对于分布式计算和请求API的实战研究

恒山其若陋兮

前端 11月月更

度量BGP监测源数量对AS可见性的影响

郑州埃文科技

AS IP地址 BGP数据源

【web 开发基础】PHP 变量的作用范围 (29)

迷彩

作用域 静态变量 全局变量 局部变量 11月月更

【Ajax】全面了解http协议

坚毅的小解同志

HTTP 11月月更

“如何实现高效的应用交付”鲁班会开发者训练营厦门站进行时

华为云开发者联盟

云计算 软件开发 华为云 应用集成

一个宁静祥和没有bug的下午和SqlSession的故事

京东科技开发者

mybatis sql Spring Boot CLI SQLSession

算法题学习---删除有序链表中重复的元素-II

桑榆

算法题 11月月更

API安全设计5A原则

阿泽🧸

11月月更 API安全

深度解析KubeEdge EdgeMesh 高可用架构

华为云开发者联盟

云计算 云原生 后端 华为云

基于Spring-AOP的自定义分片工具

京东科技开发者

aop 数据分片 spring aop 配置文件

2022年中国电商平台市场洞察

易观分析

电商 报告

SpringBoot之用拦截器避免重复请求

okokabcd

Spring Boot

计算机网络:数据链路层设备

timerring

计算机网络 11月月更 网桥

大模型狂欢背后:AI基础设施的“老化”与改造工程

OneFlow

人工智能 深度学习 大模型

【Ajax】如何通过axios发起Ajax请求

坚毅的小解同志

ajax 11月月更

【Ajax】如何通过axios发起Ajax请求

坚毅的小解同志

ajax 11月月更

信用卡评测系列——阳光惠生活APP深化服务客户品牌理念,焕新升级7.0版

易观分析

金融 银行 信用卡

ArkUI框架基于鸿蒙系统的Scroll和Scroller和自定义组件之插槽的实战案例心得

恒山其若陋兮

前端 11月月更

基于鸿蒙系统的ArkUI框架的公共剪切类属性和多态样式在前后端分离项目中的表现

恒山其若陋兮

11月月更

两行代码解决大模型对话局限,港中文贾佳亚团队联合MIT发布超长文本扩展技术_生成式 AI_褚杏娟_InfoQ精选文章