【AICon】AI 基础设施、LLM运维、大模型训练与推理,一场会议,全方位涵盖! >>> 了解详情
写点什么

零一万物李开复:要做 ToC 的超级应用,成为 AI 2.0 时代的微信、抖音

  • 2023-11-08
    北京
  • 本文字数:3491 字

    阅读完需:约 11 分钟

大小:1.71M时长:09:56
零一万物李开复:要做ToC的超级应用,成为AI 2.0时代的微信、抖音

“我们在 3 月底官宣零一万物,后面团队逐渐到位,6、7 月开始写下第一行代码,历时短短 4 个月时间,今天我们非常自豪地宣布产品亮相。”李开复在另一万物首款大模型发布会上说道。“从创立零一万物第一天开始,我的目标就是做一个世界级公司,能够进入世界的第一梯队。”

 

自四个月前李开复宣布大模型创业,业内就给予了众多关注。千呼万唤,李开复交出了第一份答卷。11 月 6 日,李开复带队创办的 AI 2.0 公司零一万物正式开源发布首款预训练大模型 Yi-34B 和 Yi-6B。Yi-34B 是一个双语(英语和中文)基础模型,经过 340 亿个参数训练,明显小于 Falcon-180B 和 Meta LlaMa2-70B 等其他开放模型。

 

更多详情查看:

李开复4个多月后“放大招”:对标OpenAI、谷歌,发布“全球最强”开源大模型

 

对于模型尺寸的选择,零一万物团队认为,34B 是一个黄金尺寸。虽然 6B 也能在某些领域,比如客服上可用,但模型毕竟越大越好,但随之而来的就是推理成本和后续训练的系列资源问题。

 

“34B 不会小到没有涌现或者涌现不够,完全达到了涌现的门槛。同时它又没有太大,还是允许高效率地单卡推理,而且不一定需要 H 和 A 级别的卡,只要内存足够,4090 或 3090 都是可以使用的。”李开复解释道,“既满足了精度的要求,训练推理成本友好,达到涌现的门槛,是属于非常多的商业应用都可以做的。”

 

另外,李开复提到,通用模型决定了行业模型的天花板。虽然行业大模型有相当大的价值,但是底座如果不好,也无法完成超过底座的事情,所以选底座就要选表现最好的底座。李开复自信地表示,“今天我们在中英文上就是最好的底座,没有之一,也希望更多人选择 Yi-34B。”

如何解决算力和数据问题

 

“模型团队非常重要,但并不是雇 50 个人、100 人就能解决问题,而是需要很强的团队。这通常不是很大的团队,团队做得太大了反而会分散 GPU 资源。”李开复说道。零一万物认为,人均 GPU 卡能用到多少决定了模型能力的上线。

 

零一万物内部建立了一个 AI Infrastructure(人工智能基础设施技术,简称“Infra”)的团队,成员来自国内顶级公司、国内外顶级高校和跨国公司,负责大模型的研发。

 

在预训练阶段,高价值数据是最重要的,为此零一万物在数据处理上投入了非常大的精力。

 

首先,零一万物通过采购、合法爬虫、开源等渠道获得训练模型数据。面对庞杂、质量不齐的数据,团队会先用 AI 能力进行系统化筛选,之后再做人工评估,基本会从一百多 T 数据里留下 3T 左右,包括一定比例的中英文数据,该数据保留率是其他厂家的 1/10 左右。

 

在训练中,Infra 团队花了很长时间研究 scaling law,即模型的预测能力。“我们不做各种试错,因为 GPU 资源非常昂贵,所以我们是要把规模化做好,当推到下一个尺寸时不要再摸索和试错了,因为尺寸越大成本越高。“李开复介绍道。

 

Infra 团队表示,整个模型训练过程其实是动力学过程,中间每一步基本上都可以通过数学方式预测出来,而不需要做大量的实验。因此,团队可以将每一千步的误差控制在千分之几范围内。不管是做数据匹配、超参搜索,还是模型结构的试验,这个方法都特别重要。

 

Infra 团队在 6B 上做各种实验优化算法和模型,并能丝滑地从 6B 推向 34B。借助该能力,Yi-34B 的训练成本下降了 40%。

 

“我们将这一整套的训练平台称为科学训模。很多人把训练大模型比做‘炼丹’,也有人说模型训练一下就飞了,因为它没有收敛。我们做的规模预测用数学科学可以推理,小的尺寸如果能成功,大的尺寸也大概率可以成功,我们实验后也成功了。”李开复表示。

 

关于算力资源,零一万物在很早时候就做了资源规划,现在的算力储备可以支持其用到 18 个月以后。另外,团队还建立了故障预测与故障解决大模型,利用模型本身为预训练过程中可能出现的问题设计相应的解决方案,以及如何以最低成本解决这个问题。

 

对于预训练,零一万物技术副总裁及 Pretrain 负责人黄文灏表示,过程中并没有特别关注指标,因为针对指标做优化也可能出现问题,所以内部会有很多衡量模型能力的方法。比如模型到底压缩了哪些信息和知识是一个值得关注指标,但只要训练数据足够高质量,training dynamics 做得足够好,出来的模型效果自然会比较好。

 

另外,由于要将模型开源,零一万物在训练模型时还注重模型在 IQ 和 EQ 方面的均衡性。团队想要模型既可以支持代码推理类任务,也可以支持情感类任务。

开源长窗口通用模型

 

之前的长窗口工作都是闭源的,无论是 OpenAI 的 32K 或者 Cloud 的 100K。零一万物发现,开发者有大量基于长窗口模型进行微调的需求,因此这次直接开源了长窗口的 base 模型,开发者可以根据自己的数据去微调有效的长窗口应用。

 

一般来说,更长的窗口会带来更多的计算,计算复杂度也会指数级上升,还要解决数据完备度的问题,这些都对计算、显存、内存和通信等都是非常大的技术挑战。另外,随着窗口越来越长,计算所需时间也越来越长,一旦端到端的反馈时间太长也就没有太大的意义了。因此,大部分模型都会限定窗口大小,零一万物限定了在 200K 以下。

 

技术团队进行了全栈优化,包括计算跟通信的重叠堆叠技术、序列并行的技术、通信压缩技术,包括里面关键算子的重构等。虽然后续还有进一步拓宽的余地,但考虑到实用性和成本的均衡,团队目前就开源出来现在的长度版本。

 

李开复表示,开源对推动世界技术革命的发展有着非常重要的意义。“很多人觉得大模型需要超级多的资源,只有 OpenAI、微软、谷歌、阿里、百度、腾讯这样的公司才能做,但是任何技术都是需要全球化的参与,那么开源让大家都有机会能够接触到大模型。”

 

“这两个模型的尺寸其实就是量身定做给开源社区使用的,资源多的可以用 34B,但是也不会需要特别不合理的资源,而 6B 可以让更多的开发者能够使用。”李开复称。

 

对于未来会不会开源更大模型的问题,零一万物技术副总裁及 AI Infra 负责人戴宗宏表示,这不取决于零一万物有没有更大的模型,而是取决于开源社区里的普通开发者有没有能力,或者有没有那么多的资源用到这样的大模型。“如果在摩尔定律之下,更便宜的卡可以支撑更大的模型,我们一定会考虑把我们更大的模型开源。”

做 ToC 的超级应用

 

“我们对于未来的一个愿景就是,大模型时代不仅仅是人类跨向 AGI 的重要一步,它也是一个巨大的平台机会。”李开复认为,这个机会就是创造超级应用。

 

李开复解释称,如果说 PC 时代赋予给开发者用户的机会是 computer on every desk,移动互联网带来的机会是随时随地的计算,smartphone on  every hand,那么现在的 AI 2.0 时代带来的巨大机会就是把一个超级大脑对接和赋能给每一个应用,即 AI for everyone。

 

“PC 时代,微软 Office 就是超级应用;移动互联网时代,微信、抖音是相当好的超级应用;AI 2.0 时代,毫无疑问最大的商机也会是超级应用,所以这个方向是零一万物努力的目标。过去的两个时代值得借鉴,因为人类历史就是不断重复,每一个时代最大的机会跟上一个时代是可以推延的。”

 

李开复的考虑是,首先一切的基础是大模型。“我觉得未来的内容应该主要是由 AI 来创造,人来帮忙,这个才是王道。所以我们 Super APP 开发第一点就是 AI First、AI Native,没有大模型整个产品就不成立。”

 

其次,商业化非常重要。AI 1.0 公司面临的挑战主要就是商业化问题:要么收入没有做好,要么缺乏持续化收入。“字节、阿里、百度、谷歌、Facebook 能够成为伟大的公司,就是因为他们的收入是有质量的。”李开复说道,“所以我们做的应用一定是朝着能够快速有收入,而且能够产生非常好的利润、收入是高质量的、可持续的,而不是一次性在某一个公司上打下一个单子。”

 

李开复表示,AI 2.0 时代的超级应用一定是在消费者级别的 ToC 超级应用。他透露,Super App 的雏形将在不久后对外发布。对于这个 Super App,团队会从简单的功能开始,然后根据捕捉到的用户需求和技术精髓不断迭代。此外,该应用虽然面向国内,但也会面向国外市场。

 

“今天创业者最好的机会是在 AI 2.0 上面开发 App,如果找对机会、聪明快速勤奋地迭代,任何一个 App 都有机会成为 Super App,成为 AI 2.0 时代的微信、抖音。”李开复说道。

未来规划

 

对于未来,零一万物表示,一方面会继续在 34B 规模上进行一系列开源动作,另一方面会进一步提高模型的智能极限。

 

“我们已经在训练千亿参数以上模型,但是我们觉得模型参数可以再提高一到两个数量级,达到万亿或者十万亿的规模。数据上,我们现在基于几十 T token 的高质量数据,未来还可以提高到几百 T 或者几千 T。模型智能还是有很大的发展。”据悉,零一万物现在已经在训练千亿模型,更大模型的所有前置实验也已完成,剩下的就是按部就班地训练。

 

此外,零一万物已经有了一个超过十人的多模态方面的团队,未来一两个月内也会有相关产品发布。多模态已经纳入公司更长周期的规划中。

 

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2023-11-08 14:316314

评论

发布
暂无评论
发现更多内容

Whisk for mac下载 实时预览的轻量级网页编辑器

Rose

如何对混合日志进行自动化解析

华为云开发者联盟

开发 华为云 华为云开发者联盟

一文带你简单了解多租户模型定义以及好处

行云管家

SaaS 多租户

稀疏场景高性能训练方案演变|京东广告算法架构体系最佳实践

京东零售技术

人工智能 架构 算法 GPU算力

Wireshark中的ARP协议包分析

小齐写代码

面试官:什么是JIT、逃逸分析、锁消除、栈上分配和标量替换?

王磊

Java 面试

Amadeus Pro for Mac v2.8.13激活版(多轨音频编辑器)

影影绰绰一往直前

数据库新手必知!轻松学习SQL外键约束的核心原理和实用技巧

测试人

软件测试

【年后跳槽必看篇-非广告】Kafka核心知识点-第四章

派大星

kafka Java’

碎片之光Shardlight for Mac(像素冒险游戏)v3.1激活版下载

iMac小白

rizomuv快捷键 三维模型展UV贴图软件 rizomuv 2019直装破解版

Rose

Aiseesoft iPhone Unlocker下载安装(iPhone解锁软件)

Rose

Syncovery for mac(文件备份和同步工具) v10.11.3激活版

iMac小白

Syncovery for mac v10.11.3激活版 文件备份和同步工具

影影绰绰一往直前

File list Export for Mac(文件列表导出工具)v2.9 激活版

影影绰绰一往直前

Cycling 74 Max for Mac v8.6.0激活版 音乐可视化编程软件

影影绰绰一往直前

Legend of Keepers for Mac 激活版下载

iMac小白

如何筑造数据安全边界

华为云开发者联盟

数据库 后端 华为云 华为云开发者联盟 华为云GaussDB(DWS)

IPQ9574 and QCN9274 Industrial grade and commercial difference? Performance, transmission, etc

wifi6-yiyi

qcn9274 ipq9574

四方维ECAD模型成为元器件的新标配

财见

龙蜥社区&龙蜥理事长分获 2023 开源创新榜“优秀开源社区、优秀开源人物”奖项

OpenAnolis小助手

Linux 开源 操作系统 龙蜥社区 开源奖项

smartGit许可证文件最新分享 Git客户端SmartGit mac破解秘钥 支持M2

Rose

【亿级数据专题】「分布式消息引擎」 盘点本年度我们探索服务的保障容量的三大关键方案实现

洛神灬殇

分布式 熔断 限流 降级 2024年第二十七篇文章

数字音频处理软件 Steinberg Cubase Artis 10激活版 附完整破解教程

Rose

After Effects 2021中文破解直装版下载 支持M1/Intel

Rose

Native Instruments Kontakt 7 for Mac v7.8.0激活版下载

影影绰绰一往直前

Wattagio for Mac:跟踪苹果电脑电池运行状况

Rose

迪士尼梦幻星谷 Disney Dreamlight Valley for mac v1.8.6激活版

iMac小白

AI的安全应答之道

统信软件

小程序定制开发前,应该考虑些什么?

天津汇柏科技有限公司

小程序 小程序开发 开发小程序

foobar2000 for mac(多功能音频播放器)v2.6.2免激活版

影影绰绰一往直前

零一万物李开复:要做ToC的超级应用,成为AI 2.0时代的微信、抖音_AI 工程化_褚杏娟_InfoQ精选文章