大厂Data+Agent 秘籍:腾讯/阿里/字节解析如何提升数据分析智能。 了解详情
写点什么

非 Transformer 架构大模型公司岩芯数智 RockAl 走通类脑机制:端侧 AI 也可以很智能|WAIC 专题报道

  • 2024-07-05
    北京
  • 本文字数:1998 字

    阅读完需:约 7 分钟

大小:1017.08K时长:05:47
非Transformer架构大模型公司岩芯数智RockAl走通类脑机制:端侧AI也可以很智能|WAIC专题报道

7 月 4 日-7 月 7 日,2024 世界人工智能大会(WAIC)在上海举行,来自国内外的数百款大模型集体亮相,呈现了 AI 大模型智能涌现、赋能千行百业的生动场景。在各色技术及应用的创新体验区中,一个具备高度交互能力的多模态机器人引起了人们的注意。


它就是来自岩芯数智 RockAI,搭载了树莓派 5 代芯片的“小智”,在极低算力的设备上实现了强大的多模态能力。



继年初推出超强性能的 Yan1.0 云端大模型后,RockAI 再次突破了端侧 AI“原生无损”门槛,并在这款机器人上部署了此次首发的 Yan 1.2 大模型。


与传统的自动控制机器人不同,小智具备多模态认知能力,能够基于 Yan 1.2 的语音和视觉处理能力,准确理解用户的模糊指令和意图,并据此控制其机械躯体完成各类复杂任务。随着这款智能机器人在各种模糊指令下描述“视觉”场景、展现“四步成诗”,一场关于端侧 AI 的全新想象也铺展开来。


端侧 AI 打响突围赛

端侧 AI 通常指在终端设备上直接运行和处理人工智能算法的技术,其优势在于可以直接利用设备的计算能力进行数据处理,不需要将数据发送到云端或服务器进行处理,从而降低对云端计算资源的依赖。且无论网络环境如何都能即时生成响应,确保用户数据安全性的同时,减少了相关算力成本开支。


自去年下半年以来,随着大模型的竞争从技术驱动过渡到市场驱动,端侧 AI 以其广泛的应用场景备受青睐,开始释放出全新的发展价值。全球范围内各大模型厂商纷纷通过各种技术手段,尝试将大模型在物理意义上融入终端。


但受制于端侧 AI 落地的算力和功耗等挑战,传统轻量化部署往往均以性能损失为代价。如目前大热的 AIPC 是把 Transformer 架构的模型通过量化压缩部署到个人电脑,仅 70 亿参数的大模型还需要额外定制 PC 芯片为其提供算力。而此前在微型电脑主板树莓派 5 上打出“1.89tokens 每秒速度运行、支持 8K 上下文窗口”战绩的 Llama3 8B,同样止步于“有损压缩”。压缩后的模型不仅性能大打折扣,还会失去再训练、再学习的能力,成为无法定时更新底层知识的“一次性 AI”。

基于仿生神经元驱动的选择算法,Yan 1.2 更专注于端侧设备

RockAI 此次首发的 Yan 1.2 大模型,可以“原生无损”地以 6+tokens/s 的速度运行于算力仅普通电脑八分之一的树莓派上,并在这个仅有信用卡大小的芯片上实现超强的多模态能力,不仅能“听说读”,还可以识别模糊指令,进行学习、创作及互动。


这一成果,起初是得益于对于大模型基础架构的“破坏式”创新。早在今年 1 月,RockAI 发布了国内首个非 Transformer 的 Yan 架构大模型。该架构通过对 Attention 机制的替换,将计算复杂度降为线性,大幅降低了对算力的需求,用百亿级参数达成千亿参数大模型的性能效果,并且率先实现了在主流消费级 CPU 等端侧设备上的原生无损运行。


为了实现树莓派等更多更低端设备的无损适配,RockAI 基于全新自研的 Yan 架构,在实验室对人工神经网络最底层的反向传播算法进行挑战,寻找反向传播的更优解尝试,进一步实现 Yan 模型的降本增效。同时在算法侧,RockAI 采用了基于仿生神经元驱动的选择算法,实现了类脑分区激活的工作机制,使大模型可以根据学习的类型和知识的范围分区激活,大幅减少了数据训练量,同时也能有效发挥多模态的潜力。故而,模型迭代到 1.2 版本,已经可以实现在 PC 端、手机端、树莓派端和机器人端等设备上的无损运行。

“同步学习”打造设备端“最强大脑”


历经了卷参数、卷市场的阶段,大模型当下正集中于一个“卷智能”的时代,因此,让大模型无损跑通更多低算力设备只是第一步,接下来就要思考如何提高端侧大模型的知识密度、智能密度。但 RockAI CEO 刘凡平还有一个更高的目标,就是在实现通用人工智能的同时,将 AI 与每个人独特的地方结合在一起,模型具备自主学习能力,让每个设备都拥有个性化的智能。


为了实现这种个性化的通用人工智能,RockAI 团队首创了“同步学习”理念,让模型具备像人一样实时学习的能力,在推理的同时进行知识更新和学习,无需像云端大模型一样“返厂”进行再次更新或预训练。从而实时、有效且持续性地提升大模型的智能密度,应对各类个性化场景中出现的问题。


基于神经网络的底层技术创新,RockAI 不断尝试寻找反向传播的更优解,试图能更低代价更新神经网络,实现对现有知识体系的快速更新,辅以模型分区激活降低功耗、实现部分更新,使大模型像人类学习一样建立自己独有的知识体系,实现模型的边跑边进化。会上,RockAI 展示了“同步学习”的实验室示例,并表示该机制已处于实验室最后验证阶段。


而对于 Yan 模型在设备端的落地,刘凡平则透露,团队正加紧进行设备端的适配工作,目前已与众多硬件和芯片厂商建立了沟通与合作。


RockAI 以 Yan 架构大模型为核心的技术突破与创新实践,标志着端侧 AI 正逐步克服技术壁垒,向更广泛的应用场景迈进。不仅是对现有计算范式的挑战与超越,更是对未来智慧生活的前瞻布局。

随着全模态支持+实时人机交互+同步学习的落地,Yan 2.0 或将重新定义设备的价值,成为设备的“最强大脑”,真正做到“让世界上每一台设备都拥有自己的智能”。


2024-07-05 00:315614
用户头像
李冬梅 加V:busulishang4668

发布了 1121 篇内容, 共 738.5 次阅读, 收获喜欢 1267 次。

关注

评论

发布
暂无评论
发现更多内容

我叫你不要重试,你非得重试。这下玩坏了吧?

比伯

Java 编程 架构 面试 程序人生

有了Git这个功能,再也不需要依赖IDE了!

编程 架构

赶紧看!阿里架构师必备“绝杀版”Tomact架构笔记堪称绝技

比伯

Java tomcat 编程 架构 程序人生

互联网新规鼓励保险与大数据、区块链等新技术融合!业内呼吁配套产品管理制度尽快出炉

CECBC

互联网金融

探营苏州数字人民币试点

CECBC

数字人民币

海淀区政府携手百度,打造数字政务时代新门户

DT极客

基于LiteOS Studio零成本学习LiteOS物联网操作系统

华为云开发者联盟

操作系统 物联网 华为云

网络入门模拟器:Cisco Packet Tracer 实验教程

没弄懂这些Java基础,简历上千万别写熟悉:异常+反射+注解+泛型

小Q

Java 学习 编程 面试 基础

工作日志:一文总结HBase从搭建到实操,大家一起进步

小Q

大数据 学习 编程 面试 HBase

XMEX交易所系统软件开发|XMEX交易所APP开发

系统开发

盘点 2020 | 坚持写技术博客一年能有多少收获!

小傅哥

Java 小傅哥 技术人 盘点2020

即构SDK12月迭代:新增多项质量回调,互动白板、云录制SDK同步更新

ZEGO即构

BAT等大厂面试复习资料文档整理:ActiveMQ+redis+Spring+高并发多线程+JVM

Java架构之路

Java 程序员 架构 面试 编程语言

社区团购大战升级:零售行业再次面临挑战

石头IT视角

Athena雅典娜交易所系统开发|Athena雅典娜交易所软件APP开发

系统开发

C语言服务器编程必备常识

MySQL从删库到跑路

c

聚焦LS-MIMO的四大层面,浅谈5G关键技术

华为云开发者联盟

华为 5G 华为云

终于有人通过笔记+脑图+视频的模式把Spring源码讲明白了

Java架构追梦

Java 学习 架构 面试 spring源码

终于学完了阿里云大数据架构师推荐的Flink入门与实战PDF

小Q

大数据 flink 学习 编程 面试

破51项国际榜单纪录!解读华为云擎天架构调度求解引擎

华为云开发者联盟

华为 架构 华为云

如何在软件发布计划中自动化语义化版本与变更日志

华为云开发者联盟

自动化 工具 发布

SpringBoot魔法堂:应用热部署实践与原理浅析

设计原则 框架 spring Boot Starter

LeetCode题解:429. N叉树的层序遍历,BFS,JavaScript,详细注释

Lee Chen

算法 大前端 LeetCode

手把手教你免费获取正版 Jetbrains 全家桶 License

郭旭东

ide JetBrains

阿里三面惨遭被虐,spring,jvm,mybatis,并发编程等一窍不通

Java架构之路

Java 程序员 架构 面试 编程语言

快来!开源一份阿里微服务指导手册:springBoot+springCloud+MQ

小Q

学习 面试 微服务 MQ SpringCloud

你只修改了2行代码,为什么需要两天时间?

Java架构师迁哥

一个改变世界的“箱子”

阿里巴巴云原生

Docker 阿里云 容器 云原生 k8s

BATJ面试常被问到的100+题:Spring+微服务+SpringMVC+MyBatis

Java架构之路

Java 程序员 架构 面试 编程语言

第三代人工智能基础设施背后,是一次技术应用的常识普及运动

脑极体

非Transformer架构大模型公司岩芯数智RockAl走通类脑机制:端侧AI也可以很智能|WAIC专题报道_生成式 AI_李冬梅_InfoQ精选文章