【AICon】AI 基础设施、LLM运维、大模型训练与推理,一场会议,全方位涵盖! >>> 了解详情
写点什么

超越 GPT-4!加州大学伯克利分校与微软研究院合作开源大型语言模型 Gorilla

作者:Anthony Alford

  • 2023-08-02
    北京
  • 本文字数:1385 字

    阅读完需:约 5 分钟

超越GPT-4!加州大学伯克利分校与微软研究院合作开源大型语言模型Gorilla

来自加州大学伯克利分校微软研究院的研究人员开源了Gorilla,这是一个可以编写 API 调用代码的大型语言模型(LLM)。在度量代码生成准确性的实验中,Gorilla 优于包括 GPT-4 在内的几个基线模型。

 

Gorilla 被描述为“LLM 的 API 应用商店”。它基于开源大型语言模型LLaMA。这个 LLM 在 APIBench 上做了调优。APIBench 是一个新的 ML 模型 API 描述数据集,托管在HuggingFaceTorchHubTensorHub上。Gorilla 还可以调用 API 定义的外部文档数据库,让它在访问新的 API 时无需重新训练。借助 Gorilla,开发人员可以创建问题的自然语言描述,例如“调用图像分类模型,参数个数不多于 10M,但 ImageNet 准确性至少要达到 70%。”然后,Gorilla 将输出 Python 代码,调用具有适当选项的 ML 模型。按照作者的说法:


在各个领域,LLM 正迅速普及。我们重点关注的是那些可以提高 LLM 在特定任务中 API 识别准确性的技术——这是这项技术发展中一个重要但经常被忽视的方面。作为一种通用语言,API 函数能够实现各种系统间的有效通信。正确使用 API 可以提高 LLM 与更广阔世界中的工具进行交互的能力。

 

GPT-4这样的 LLM 在包括生成代码在内的各种任务上都有出色的表现。然而,它们的 API 知识在训练时被“固定”了,因此,无法生成代码来调用更新的 API。此外,它们经常会产生幻觉——在代码生成时,它们输出的代码可能会调用不存在的 API。InfoQ 之前报道过人们近来为解决这些问题所做的努力,例如,Meta的Toolformer可以调用外部服务 API,ChatGPT的插件系统可以利用外部资源来增强 LLM。

 

不过,伯克利团队指出,那些方法是利用 API 调用的例子来提示 LLM。相比之下,Gorilla 的方法侧重于“系统化地评估并构建一个可供未来使用的管道”。首先,研究人员构建了 APIBench 数据集。他们从 HuggingFace 模型中心、PyTorch 中心和 TensorFlow 中心收集了所有的模型卡。经过过滤之后,获得了一个包含 1645 个 API 调用的集合。对于其中的每一个调用,研究人员使用 GPT-4 生成了一个指令-API 对数据集,用于对 Gorilla 进行调优。

 

在对 Gorilla 的输出进行评价时,一个主要的挑战是识别幻觉。首先,团队将幻觉定义为模型输出调用了在 API 定义外部数据库中不存在的 API。这与错误不同,错误是指模型输出错误地调用了“真实存在”的 API。团队使用所生成代码的抽象语法树(AST)来匹配数据库中的 API 和用于评估的测试集。在零样本任务中使用 AST 准确性度量,Gorilla 比 GPT-4 高了 20.43%。

 

Gorilla 的主要作者Shishir Patil参加了黑客新闻关于这项工作的讨论,并回答了几个问题。当被问及该模型的许可是否允许商业使用时,Patil 指出,Gorilla 有三个版本,基于 LLaMA 的版本没有商业应用许可,但基于 MPT-7 base 和 Falcon-7B 的版本可以。还有一位用户问,Gorilla 与LangChain相比怎么样。Patil 回答说:


Langchain 是一个很棒的项目,它试图教代理如何利用提示来使用工具。我们对此的看法是,如果你想在数以千计的 API 之间做出选择,那么提示不具有可扩展性。而 Gorilla 作为一个 LLM,可以帮你挑选 API 并编写语义、语法正确的 API 调用!它可以方便地替代 Langchain!

 

Gorilla 的代码和模型文件托管在 GitHub 上。这里还有一个在谷歌 Colab 笔记本中的模型演示。

 

原文链接:

https://www.infoq.com/news/2023/07/microsoft-gorilla/


相关阅读:

比Bing更早将LLM集成到搜索引擎中,这家由谷歌前高管创立的公司为什么还是失败了?

马斯克等人热捧:高薪缺人,但要懂全栈懂LLM,一个全新职业正在兴起!

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2023-08-02 10:524356

评论

发布
暂无评论
发现更多内容

国际顶会SC23收录唯一区块链论文,微众银行技术实力受学术界认可

新消费日报

Zookeeper简述

数新网络官方账号

zookeeper 后端 ZooKeeper原理

Masks Person面具人MAR现在值得参与吗

币离海

Linux 可执行文件瘦身指令 strip 使用示例

互联网工科生

Linux 资源

公链项目开发 哪条公链生态好

西安链酷科技

DAPP智能合约交易系统开发 DAPP系统开发 开发软件

亚信科技AntDB数据库携“U8C+AntDB联合产品”亮相“2023全球商业创新大会”,开启生态合作新篇章

亚信AntDB数据库

数据库 AntDB AntDB数据库

通过一流的NFT开发提升您的数字形象

区块链软件开发推广运营

数字藏品开发 dapp开发 区块链开发 链游开发 NFT开发

木鱼一敲烦恼丢掉,一个恢复内心平静的赛博空间

荣耀开发者服务平台

小程序 前端 安卓 组件 服务卡片

2023年中国信通院铸基计划“文本图像篡改检测系统技术规范”研讨会成功召开

合合技术团队

中国信通院 文本 合合信息 研讨会 图像篡改

Python 套接字编程完整指南

3D建模设计

Python

Solr数据迁移ES

腾讯云大数据

ES

你折腾一天都装不上的插件,函数计算部署 Stable Diffusion 都内置了

Serverless Devs

Serverless 模型

企业大数据传输的四类方式及镭速解决方案

镭速

大数据传输

哈希游戏开发、哈希尾数、单双竞猜游戏开发

西安链酷科技

哈希算法 区块链游戏 web3

跨平台.NET IDE集成开发 Rider 激活码破解版

mac大玩家j

开发环境 Mac软件

解锁项目管理神器——低代码开发平台

力软低代码开发平台

three.js 纹理

3D建模设计

three.js 纹理处理

安全大文件传输对行业重要性

镭速

大文件传输 传输大文件 安全大文件传输

OpenAI 函数调用教程

3D建模设计

openai ChatGPT

堆叠大陆 Stacklands for Mac(卡牌游戏)v1.3.4中文原生版

mac

堆叠大陆 苹果mac 村庄建设游戏 Stacklands 卡牌游戏

828 B2B企业节:ROMA Connect探究数字化转型之道

华为云PaaS服务小智

云计算 软件开发 华为云

区块链交易所开发, 币币交易系统搭建

V\TG【ch3nguang】

开发一条以太坊公链需要多久

西安链酷科技

区块链技术开发 公链开发 联盟链开发 公链团队

dapp软件开发需要多少钱

西安链酷科技

DAPP智能合约交易系统开发 链游开发

交易所开发源码,数字货币永续合约交易平台搭建

V\TG【ch3nguang】

交易所开发

使用 WebGL 为 HTML5 游戏创建逼真的地形

3D建模设计

WebGL 地形

人工智能的优势:使用 GPT 和扩散模型生成图像

3D建模设计

人工智能 生成式AI

选择正确的框架:探索 Spring Cloud 和 Dubbo

Liam

程序员 微服务 Spring Cloud dubbo 后端

数据库顶会 VLDB 2023 论文解读:字节跳动如何解决超大规模流式任务运维难题

字节跳动云原生计算

flink 流式计算 VLDB

文心一言 VS 讯飞星火 VS chatgpt (87)-- 算法导论8.2 4题

福大大架构师每日一题

福大大架构师每日一题

中东、新加坡资本来华“淘宝”,AI、新能源成追逐赛道

TE智库

新能源 能源经济

超越GPT-4!加州大学伯克利分校与微软研究院合作开源大型语言模型Gorilla_生成式 AI_InfoQ精选文章