【AICon】AI 基础设施、LLM运维、大模型训练与推理,一场会议,全方位涵盖! >>> 了解详情
写点什么

端侧模型 OctopusV3 发布:手机上的超级助理,性能媲美 GPT-4V 和 GPT-4 的组合?

  • 2024-04-24
  • 本文字数:1362 字

    阅读完需:约 4 分钟

大小:663.34K时长:03:46
端侧模型 OctopusV3 发布:手机上的超级助理,性能媲美 GPT-4V 和 GPT-4 的组合?

根据一张图片,能完成什么任务?


想吃菠萝了?迅速跳转 Instacart 商城界面,各种菠萝任君挑选。



想给家里添置一台吸尘器?没问题,立马来到 Amazon。



想了解路过大桥的历史?好的,Google 搜索给你想要的答案。



想发个邮件?OK,识别图片大意,填写收件人、标题、正文,发送!



想重新装修下客厅?Done!



上述功能都来自 Nexa AI 团队近日推出的 OctopusV3。据介绍,OctopusV3 流利掌握英语和中文,能够熟练破译文本和图像任务目标,并实现功能调用,制定复杂的动作序列、生成可执行代码,安卓和 IOS 系统都可用。


值得注意的是,OctopusV3 参数量不到 10 亿,但拥有可媲美 GPT-4V 和 GPT-4 组合起来的性能。由此,Nexa AI 称其为“一个体积最小、性能最强大的多模态 On-Device AI 模型”。


据悉,Nexa AI 成立于 2023 年,是一家致力于研究端侧 AI 代理的初创公司。它的创始人兼 CEO Wei Chen、联合创始人兼 CTO Zhiyuan Li 分别是斯坦福大学的博士和硕士,斯坦福大学副教授 Charles (Chuck) Eesley 担任该公司顾问。


OctopusV3 是如何做到的?


根据论文,OctopusV3 开发中最关键的两点是整合图像、文本输入以及优化模型预测行动的能力。为此, Nexa AI 主要采用了视觉信息编码、功能标记、多阶段训练技术。


在图像处理中,有许多方法可以对视觉信息进行编码,其中常用的是来自隐藏层的嵌入、图像标记化等。团队研究评估各种图像编码技术后,决定采用 CLIP 模型的方法。


与应用于自然语言和图像的标记化一样,特定的功能也可以封装到 token 中。Nexa AI 为这些标记引入了一种训练策略,用于管理未见术语。这种方法类似于 word2vec 方案,即通过上下文环境来丰富标记的含义。


例如,高级语言模型最初可能很难处理 PEGylation 和 Endosomal Escape 等复杂的化学术语。然而,这些模型能够通过因果语言建模获得这些术语,尤其是在包含这些术语的数据集上进行训练时。同样,模型也可以使用并行策略来获取功能性标记。Nexa AI 的研究表明,定义功能标记的潜力是无限的,因此可以标记任何特定功能。


OctopusV3 采用了一种将因果语言模型与图像编码器整合在一起的模型架构,这种迭代训练方法增强了模型有效处理和整合多模态信息的能力。


该模型的训练过程分为多个阶段。首先,团队分别对因果语言模型和图像编码器进行训练,以建立基础基准模型;随后合并这些组件,并对模型进行对齐训练,以同步图像和文本处理能力;之后,训练采用在上一个版本 OctopusV2 框架中应用的方法,促进新版本功能标记的学习。在训练的最后阶段,这些能够与环境互动的功能标记提供反馈,用于进一步完善和优化模型。


除了上文提到的简单应用,Octopus V3 还可以针对特定领域,量身定制出高度专业化的 AI 代理。如此,在医疗保健、金融和客户服务等行业中,用人工智能驱动的解决方案显著提高效率和用户体验。


未来,Nexa AI 还会逐步开发出可容纳音频、视频等其他数据模式的训练框架。此外,他们发现视觉输入可能会带来相当大的延迟,因此正在优化推理速度。


Nexa AI 还提到:“希望这个模型可以对自动驾驶和机器人领域产生帮助,也能够在终端设备上开启无限可能。期待有更多的开发者参与使用这个框架,能看到大家的创意和应用。”


参考链接:


https://arxiv.org/pdf/2404.11459.pdf


https://www.nexa4ai.com/

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2024-04-24 15:005612

评论

发布
暂无评论

Week11 安全稳定

evildracula

学习 架构

第 11 周 系统架构作业

心在那片海

第 11 周 系统架构总结

心在那片海

呃?!!!我彻底忘了这件事😂

Nydia

UDP连接要不要发起connect

kof11321

网络编程

极客时间架构师培训 1 期 - 大作业二

Kaven

极客时间架构师培训 1 期 - 大作业一

Kaven

消息队列优化(2) -- 几种基本实现

1412

消息队列 workflow srpc 异步调度 并行计算

史上最强鸿蒙教程来袭!2021年最新Android面试精讲,赶紧收藏!

欢喜学安卓

android 程序员 面试 移动开发

架构师 01 期,大作业一

子文

console.log也能插图!!!

德育处主任

CSS html 大前端 Web js

消息队列优化(1) -- 鶸的介绍篇

1412

消息队列 workflow srpc 异步调度 并行计算

谁说明天上线,这货压根不知道开发流程!

小傅哥

Java 小傅哥 架构设计 开发流程 开发规范

我画了 40 张图就是为了让你搞懂计算机网络层

cxuan

计算机网络 IP 网络层 ipv6 ipv4

这样规范写代码,同事直呼“666”

xcbeyond

Java 代码规范 规范

Week1 作业

oooh-la

微服务缓存原理与最佳实践

万俊峰Kevin

缓存 缓存穿透 缓存并发 go-zero Go 语言

第十一周学习总结

晴空万里

万字长文聊缓存(上)

Silently9527

Java nginx HTTP

Week 11 作业

evildracula

架构师训练营第2期 第11周总结

月下独酌

十一、高可用

Geek_28b526

第六周学习总结

Binary

与前端训练营的日子 --Week10

SamGo

学习

消息队列优化(3) -- grpc MPMCQueue 简介及各队列性能对比

1412

消息队列 workflow srpc 异步调度 并行计算

判断回文数字算法,swift 5初始化详解,时间管理计划落地,swift5 多线程高级用法 John 易筋 ARTS 打卡 Week 33

John(易筋)

ARTS 打卡计划 算法回文数字判断 时间管理计划落地 swift5 初始化详解 swift5多线程高级用法

关于一个梦(自我的死亡)

Yuchen

身心健康 心理 自我

2020年国内前端团队都做了些什么?

徐小夕

大前端 技术栈 2021

架构师第一周总结



江苏民丰 x mPaaS | 县域小银行,技术团队就12人,却找到了数字化转型的秘籍

蚂蚁集团移动开发平台 mPaaS

银行数字化转型 mPaaS

架构师训练营第2期 第11周命题作业

月下独酌

端侧模型 OctopusV3 发布:手机上的超级助理,性能媲美 GPT-4V 和 GPT-4 的组合?_AI&大模型_傅宇琪_InfoQ精选文章