端侧模型 OctopusV3 发布：手机上的超级助理，性能媲美 GPT-4V 和 GPT-4 的组合？_AI&大模型_傅宇琪

阿里云飞天发布时刻，领先大模型限免，超7000万 tokens免费体验了解详情 



 写点什么



1.0x 

大小：663.34K时长：03:46

端侧模型 OctopusV3 发布：手机上的超级助理，性能媲美 GPT-4V 和 GPT-4 的组合？

根据一张图片，能完成什么任务？

想吃菠萝了？迅速跳转 Instacart 商城界面，各种菠萝任君挑选。

想给家里添置一台吸尘器？没问题，立马来到 Amazon。

想了解路过大桥的历史？好的，Google 搜索给你想要的答案。

想发个邮件？OK，识别图片大意，填写收件人、标题、正文，发送！

想重新装修下客厅？Done！

上述功能都来自 Nexa AI 团队近日推出的 OctopusV3。据介绍，OctopusV3 流利掌握英语和中文，能够熟练破译文本和图像任务目标，并实现功能调用，制定复杂的动作序列、生成可执行代码，安卓和 IOS 系统都可用。

值得注意的是，OctopusV3 参数量不到 10 亿，但拥有可媲美 GPT-4V 和 GPT-4 组合起来的性能。由此，Nexa AI 称其为“一个体积最小、性能最强大的多模态 On-Device AI 模型”。

据悉，Nexa AI 成立于 2023 年，是一家致力于研究端侧 AI 代理的初创公司。它的创始人兼 CEO Wei Chen、联合创始人兼 CTO Zhiyuan Li 分别是斯坦福大学的博士和硕士，斯坦福大学副教授 Charles (Chuck) Eesley 担任该公司顾问。

OctopusV3 是如何做到的？

根据论文，OctopusV3 开发中最关键的两点是整合图像、文本输入以及优化模型预测行动的能力。为此， Nexa AI 主要采用了视觉信息编码、功能标记、多阶段训练技术。

在图像处理中，有许多方法可以对视觉信息进行编码，其中常用的是来自隐藏层的嵌入、图像标记化等。团队研究评估各种图像编码技术后，决定采用 CLIP 模型的方法。

与应用于自然语言和图像的标记化一样，特定的功能也可以封装到 token 中。Nexa AI 为这些标记引入了一种训练策略，用于管理未见术语。这种方法类似于 word2vec 方案，即通过上下文环境来丰富标记的含义。

例如，高级语言模型最初可能很难处理 PEGylation 和 Endosomal Escape 等复杂的化学术语。然而，这些模型能够通过因果语言建模获得这些术语，尤其是在包含这些术语的数据集上进行训练时。同样，模型也可以使用并行策略来获取功能性标记。Nexa AI 的研究表明，定义功能标记的潜力是无限的，因此可以标记任何特定功能。

OctopusV3 采用了一种将因果语言模型与图像编码器整合在一起的模型架构，这种迭代训练方法增强了模型有效处理和整合多模态信息的能力。

该模型的训练过程分为多个阶段。首先，团队分别对因果语言模型和图像编码器进行训练，以建立基础基准模型；随后合并这些组件，并对模型进行对齐训练，以同步图像和文本处理能力；之后，训练采用在上一个版本 OctopusV2 框架中应用的方法，促进新版本功能标记的学习。在训练的最后阶段，这些能够与环境互动的功能标记提供反馈，用于进一步完善和优化模型。

除了上文提到的简单应用，Octopus V3 还可以针对特定领域，量身定制出高度专业化的 AI 代理。如此，在医疗保健、金融和客户服务等行业中，用人工智能驱动的解决方案显著提高效率和用户体验。

未来，Nexa AI 还会逐步开发出可容纳音频、视频等其他数据模式的训练框架。此外，他们发现视觉输入可能会带来相当大的延迟，因此正在优化推理速度。

Nexa AI 还提到：“希望这个模型可以对自动驾驶和机器人领域产生帮助，也能够在终端设备上开启无限可能。期待有更多的开发者参与使用这个框架，能看到大家的创意和应用。”

参考链接：

https://arxiv.org/pdf/2404.11459.pdf

https://www.nexa4ai.com/

发布

暂无评论

创作场景

端侧模型 OctopusV3 发布：手机上的超级助理，性能媲美 GPT-4V 和 GPT-4 的组合？

OctopusV3 是如何做到的？

评论

2024年加密市场的突破与展望：以太坊与Solana的崛起

揭秘如何用Monaco Editor打造功能强大的日志查看器

奋进2025 | 用友BIP乘风破浪，大有可为！

a16z：小模型 + 边缘 AI 将定义 2025；音效模型 TangoFlux：3 秒钟生成 30 秒音频丨RTE 开发者日报

2000道面试必问的Java面试八股文及答案整理（2025版）

大佬带你一周刷完Java面试八股文，比刷视频效果好多了

周亚辉投资笔记：机器人时代的社会结构模型与十年后中国首富预测

【技术深度】CSP_WHITELIST：精细化控制Web安全的新策略

做TikTok直播可以选择哪些网络方案？

说出与 IoTDB 的故事：温暖有你，祝福有礼！

JVM实战—如何分析jstat统计来定位GC

自主可控，体验跃升丨恒拓高科亮相“HDD·广东鸿蒙生态伙伴论坛”

【连载 09】atomic包原子类

一颗光谱芯片的AI辉光

LED显示屏能耗与运营成本解析

数字货币支付系统开发搭建：构建未来的区块链支付生态

非凸科技再次斩获多项行业殊荣，感谢认可

小小的我，大大的AI

PyTorch中运行时间的测量与对比

用友BIP联合华为完成鲲鹏原生开发技术认证，加速信创发展！

日志聚类算法 Drain 的实践与改良

直播预告丨社区年度交流会& 《RTE 和 AI 融合生态洞察报告 2024》发布

Easysearch Java SDK 2.0.x 使用指南（三）

创作场景

端侧模型 OctopusV3 发布：手机上的超级助理，性能媲美 GPT-4V 和 GPT-4 的组合？

OctopusV3 是如何做到的？

评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载