阿里云「飞天发布时刻」2024来啦!新产品、新特性、新能力、新方案,等你来探~ 了解详情
写点什么

零一万物李开复:要做 ToC 的超级应用,成为 AI 2.0 时代的微信、抖音

  • 2023-11-08
    北京
  • 本文字数:3491 字

    阅读完需:约 11 分钟

大小:1.71M时长:09:56
零一万物李开复:要做ToC的超级应用,成为AI 2.0时代的微信、抖音

“我们在 3 月底官宣零一万物,后面团队逐渐到位,6、7 月开始写下第一行代码,历时短短 4 个月时间,今天我们非常自豪地宣布产品亮相。”李开复在另一万物首款大模型发布会上说道。“从创立零一万物第一天开始,我的目标就是做一个世界级公司,能够进入世界的第一梯队。”

 

自四个月前李开复宣布大模型创业,业内就给予了众多关注。千呼万唤,李开复交出了第一份答卷。11 月 6 日,李开复带队创办的 AI 2.0 公司零一万物正式开源发布首款预训练大模型 Yi-34B 和 Yi-6B。Yi-34B 是一个双语(英语和中文)基础模型,经过 340 亿个参数训练,明显小于 Falcon-180B 和 Meta LlaMa2-70B 等其他开放模型。

 

更多详情查看:

李开复4个多月后“放大招”:对标OpenAI、谷歌,发布“全球最强”开源大模型

 

对于模型尺寸的选择,零一万物团队认为,34B 是一个黄金尺寸。虽然 6B 也能在某些领域,比如客服上可用,但模型毕竟越大越好,但随之而来的就是推理成本和后续训练的系列资源问题。

 

“34B 不会小到没有涌现或者涌现不够,完全达到了涌现的门槛。同时它又没有太大,还是允许高效率地单卡推理,而且不一定需要 H 和 A 级别的卡,只要内存足够,4090 或 3090 都是可以使用的。”李开复解释道,“既满足了精度的要求,训练推理成本友好,达到涌现的门槛,是属于非常多的商业应用都可以做的。”

 

另外,李开复提到,通用模型决定了行业模型的天花板。虽然行业大模型有相当大的价值,但是底座如果不好,也无法完成超过底座的事情,所以选底座就要选表现最好的底座。李开复自信地表示,“今天我们在中英文上就是最好的底座,没有之一,也希望更多人选择 Yi-34B。”

如何解决算力和数据问题

 

“模型团队非常重要,但并不是雇 50 个人、100 人就能解决问题,而是需要很强的团队。这通常不是很大的团队,团队做得太大了反而会分散 GPU 资源。”李开复说道。零一万物认为,人均 GPU 卡能用到多少决定了模型能力的上线。

 

零一万物内部建立了一个 AI Infrastructure(人工智能基础设施技术,简称“Infra”)的团队,成员来自国内顶级公司、国内外顶级高校和跨国公司,负责大模型的研发。

 

在预训练阶段,高价值数据是最重要的,为此零一万物在数据处理上投入了非常大的精力。

 

首先,零一万物通过采购、合法爬虫、开源等渠道获得训练模型数据。面对庞杂、质量不齐的数据,团队会先用 AI 能力进行系统化筛选,之后再做人工评估,基本会从一百多 T 数据里留下 3T 左右,包括一定比例的中英文数据,该数据保留率是其他厂家的 1/10 左右。

 

在训练中,Infra 团队花了很长时间研究 scaling law,即模型的预测能力。“我们不做各种试错,因为 GPU 资源非常昂贵,所以我们是要把规模化做好,当推到下一个尺寸时不要再摸索和试错了,因为尺寸越大成本越高。“李开复介绍道。

 

Infra 团队表示,整个模型训练过程其实是动力学过程,中间每一步基本上都可以通过数学方式预测出来,而不需要做大量的实验。因此,团队可以将每一千步的误差控制在千分之几范围内。不管是做数据匹配、超参搜索,还是模型结构的试验,这个方法都特别重要。

 

Infra 团队在 6B 上做各种实验优化算法和模型,并能丝滑地从 6B 推向 34B。借助该能力,Yi-34B 的训练成本下降了 40%。

 

“我们将这一整套的训练平台称为科学训模。很多人把训练大模型比做‘炼丹’,也有人说模型训练一下就飞了,因为它没有收敛。我们做的规模预测用数学科学可以推理,小的尺寸如果能成功,大的尺寸也大概率可以成功,我们实验后也成功了。”李开复表示。

 

关于算力资源,零一万物在很早时候就做了资源规划,现在的算力储备可以支持其用到 18 个月以后。另外,团队还建立了故障预测与故障解决大模型,利用模型本身为预训练过程中可能出现的问题设计相应的解决方案,以及如何以最低成本解决这个问题。

 

对于预训练,零一万物技术副总裁及 Pretrain 负责人黄文灏表示,过程中并没有特别关注指标,因为针对指标做优化也可能出现问题,所以内部会有很多衡量模型能力的方法。比如模型到底压缩了哪些信息和知识是一个值得关注指标,但只要训练数据足够高质量,training dynamics 做得足够好,出来的模型效果自然会比较好。

 

另外,由于要将模型开源,零一万物在训练模型时还注重模型在 IQ 和 EQ 方面的均衡性。团队想要模型既可以支持代码推理类任务,也可以支持情感类任务。

开源长窗口通用模型

 

之前的长窗口工作都是闭源的,无论是 OpenAI 的 32K 或者 Cloud 的 100K。零一万物发现,开发者有大量基于长窗口模型进行微调的需求,因此这次直接开源了长窗口的 base 模型,开发者可以根据自己的数据去微调有效的长窗口应用。

 

一般来说,更长的窗口会带来更多的计算,计算复杂度也会指数级上升,还要解决数据完备度的问题,这些都对计算、显存、内存和通信等都是非常大的技术挑战。另外,随着窗口越来越长,计算所需时间也越来越长,一旦端到端的反馈时间太长也就没有太大的意义了。因此,大部分模型都会限定窗口大小,零一万物限定了在 200K 以下。

 

技术团队进行了全栈优化,包括计算跟通信的重叠堆叠技术、序列并行的技术、通信压缩技术,包括里面关键算子的重构等。虽然后续还有进一步拓宽的余地,但考虑到实用性和成本的均衡,团队目前就开源出来现在的长度版本。

 

李开复表示,开源对推动世界技术革命的发展有着非常重要的意义。“很多人觉得大模型需要超级多的资源,只有 OpenAI、微软、谷歌、阿里、百度、腾讯这样的公司才能做,但是任何技术都是需要全球化的参与,那么开源让大家都有机会能够接触到大模型。”

 

“这两个模型的尺寸其实就是量身定做给开源社区使用的,资源多的可以用 34B,但是也不会需要特别不合理的资源,而 6B 可以让更多的开发者能够使用。”李开复称。

 

对于未来会不会开源更大模型的问题,零一万物技术副总裁及 AI Infra 负责人戴宗宏表示,这不取决于零一万物有没有更大的模型,而是取决于开源社区里的普通开发者有没有能力,或者有没有那么多的资源用到这样的大模型。“如果在摩尔定律之下,更便宜的卡可以支撑更大的模型,我们一定会考虑把我们更大的模型开源。”

做 ToC 的超级应用

 

“我们对于未来的一个愿景就是,大模型时代不仅仅是人类跨向 AGI 的重要一步,它也是一个巨大的平台机会。”李开复认为,这个机会就是创造超级应用。

 

李开复解释称,如果说 PC 时代赋予给开发者用户的机会是 computer on every desk,移动互联网带来的机会是随时随地的计算,smartphone on  every hand,那么现在的 AI 2.0 时代带来的巨大机会就是把一个超级大脑对接和赋能给每一个应用,即 AI for everyone。

 

“PC 时代,微软 Office 就是超级应用;移动互联网时代,微信、抖音是相当好的超级应用;AI 2.0 时代,毫无疑问最大的商机也会是超级应用,所以这个方向是零一万物努力的目标。过去的两个时代值得借鉴,因为人类历史就是不断重复,每一个时代最大的机会跟上一个时代是可以推延的。”

 

李开复的考虑是,首先一切的基础是大模型。“我觉得未来的内容应该主要是由 AI 来创造,人来帮忙,这个才是王道。所以我们 Super APP 开发第一点就是 AI First、AI Native,没有大模型整个产品就不成立。”

 

其次,商业化非常重要。AI 1.0 公司面临的挑战主要就是商业化问题:要么收入没有做好,要么缺乏持续化收入。“字节、阿里、百度、谷歌、Facebook 能够成为伟大的公司,就是因为他们的收入是有质量的。”李开复说道,“所以我们做的应用一定是朝着能够快速有收入,而且能够产生非常好的利润、收入是高质量的、可持续的,而不是一次性在某一个公司上打下一个单子。”

 

李开复表示,AI 2.0 时代的超级应用一定是在消费者级别的 ToC 超级应用。他透露,Super App 的雏形将在不久后对外发布。对于这个 Super App,团队会从简单的功能开始,然后根据捕捉到的用户需求和技术精髓不断迭代。此外,该应用虽然面向国内,但也会面向国外市场。

 

“今天创业者最好的机会是在 AI 2.0 上面开发 App,如果找对机会、聪明快速勤奋地迭代,任何一个 App 都有机会成为 Super App,成为 AI 2.0 时代的微信、抖音。”李开复说道。

未来规划

 

对于未来,零一万物表示,一方面会继续在 34B 规模上进行一系列开源动作,另一方面会进一步提高模型的智能极限。

 

“我们已经在训练千亿参数以上模型,但是我们觉得模型参数可以再提高一到两个数量级,达到万亿或者十万亿的规模。数据上,我们现在基于几十 T token 的高质量数据,未来还可以提高到几百 T 或者几千 T。模型智能还是有很大的发展。”据悉,零一万物现在已经在训练千亿模型,更大模型的所有前置实验也已完成,剩下的就是按部就班地训练。

 

此外,零一万物已经有了一个超过十人的多模态方面的团队,未来一两个月内也会有相关产品发布。多模态已经纳入公司更长周期的规划中。

 

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2023-11-08 14:316260

评论

发布
暂无评论
发现更多内容

🏆「作者推荐」【JVM原理探索】深入理解G1垃圾收集器的原理和运行机制

洛神灬殇

G1 JVM 6月日更 垃圾回收器

网络攻防学习笔记 Day58

穿过生命散发芬芳

网络攻防 6月日更

Pandas高级教程之:category数据类型

程序那些事

Python 数据分析 pandas 程序那些事

maven安装与核心概念全面

IT视界

maven

《面试补习》- 多线程知识梳理

九灵

Java 面试

推荐5个免费YouTube视频下载方法

资源君

分享 工具软件 教程 youtube视频下载 下载youtube视频

回忆录 | 那些你不能错过的CTF夏令营往届历程,2021精彩继续……

郑州埃文科技

神经网络吴恩达, 解析极限编程--Kent Beck, Cynthia Andres John 易筋 ARTS 打卡 Week 53

John(易筋)

ARTS 打卡计划

从零开始学习3D可视化之事件绑定

ThingJS数字孪生引擎

大前端 物联网 3D 3D可视化

深入解读 Flink SQL 1.13

Apache Flink

flink

以贝叶斯之名寻找规则模型 Falling Rule Lists

索信达控股

金融科技 模型 贝叶斯公式 用户模型 模型开发

拥抱开放的英特尔 让PC行业再次越过创新鸿沟

E科讯

什么是ReadWriteMany?

焱融科技

Docker 容器 云原生 高性能 Kubernetes从入门到精通

腾讯云EMR基于YARN针对云原生容器化的优化与实践

腾讯云大数据

mapreduce

新思科技按需提供渗透测试服务 帮助MATESO识别业务重大漏洞,降低信息泄露风险

InfoQ_434670063458

渗透测试 新思科技 MATESO

不为人知的网络编程(十三):深入操作系统,彻底搞懂127.0.0.1本机网络通信

JackJiang

TCP 网络编程 即时通讯 IM

Ipfs矿机收益Ipfs矿机一天收益

比特币 区块链 IPFS

面试官:你知道怎么求素数吗?

华为云开发者联盟

面试 开发者 开发 代码 素数

支持低代码开发和远程真机,DevEco Studio 2.2 Beta1来啦

科技汇

20位大佬,勾勒出一个中国网络安全江湖

学神来啦

网络安全 信息安全 云技术

AI如何赋能软硬件产品创新?百度大脑开放日西安站解密

百度大脑

AI 百度大脑 开放日 EdgeBoard

JAVA 面向对象 (十四)-- 关键字abstract、final

加百利

6月日更

爆赞:这份Github神仙面试笔记,不愧是上了标星120k+的Java面试手册

Java 编程 程序员 架构 面试

379页满满的精华!2021版“深入骨髓层”JDK源码小册已封神

Java架构追梦

Java 阿里巴巴 架构 面试 jdk源码

Redis——NoSQL数据模型及分类

Java 程序员

flutter_bloc使用解析---骚年,你还在手搭bloc吗!

小呆呆666

flutter ios android 大前端

CentOS7 Linux服务器无法远程ssh登陆故障处理

Liyuanjie

Centos 7 linux运维 Linux内核

Gopher China 2021,未来可期

非晓为骁

个人提升 架构师 Go 语言 GopherChina gopher

【技术】MediumKube- 快速部署容器云的开发环境

星环科技

云计算 容器 开发工具 开发环境

图解Git工作原理

Java 程序员 面试

华为云GaussDB持续技术创新,论文入选SIGMOD2021顶会

华为云数据库小助手

数据库 分布式 GaussDB 华为云数据库

零一万物李开复:要做ToC的超级应用,成为AI 2.0时代的微信、抖音_AI 工程化_褚杏娟_InfoQ精选文章