写点什么

李沐上海交大演讲:创业好酷,有“当海盗”的乐趣

  • 2024-08-26
    北京
  • 本文字数:2370 字

    阅读完需:约 8 分钟

大小:1.12M时长:06:30
李沐上海交大演讲:创业好酷,有“当海盗”的乐趣

8 月 23 日,李沐回到了母校上海交大,做了一场关于 LLM 和个人生涯的分享。这篇文章是对李沐在上海交通大学的演讲内容的总结,涵盖了 AI 技术的现状、未来趋势以及个人成长的深刻洞察。。

关于语言模型

 

李沐首先研究了语言模型的三个核心要素:算力、数据和算法,认为其与机器学习模型类似,本质上都是把数据通过算力和算法压进中间的模型里,使得模型拥有一定的能力,在面对一个新的数据时,它能够在原数据里面找到相似的东西,然后做一定的修改,输出想要的东西。

 

但他指出,这次的语言模型和上一次深度学习浪潮的模型有一个比较大的区别:上一次是“我炼一个什么丹就治一个什么病”,这次是“我希望这个东西炼出来会有灵魂在里面”,它能解决很多问题,“这其实是技术一代代往前进。”

 

在他看来,目前语音模型的优点是延迟更低、信息更丰富,并能够通过语言模型对整个输出做很多控制;音乐模型的问题不在于技术,而是商业问题;图片生成是整个 AIGC 领域做得最早的,也是效果最好的;视频模型则比较早期,通用的 video 生成非常贵,训练成本很有可能低于数据处理的成本,所以市面上没有特别好的开源模型出来。而多模态技术的发展趋势在于整合不同类型的模态信息,尤其是文本信息,未来通过文本控制生成某个模块可能成为常态。

 

“总结下来,我觉得语言模型已经达到了较高的水平,大约在 80 到 85 分之间。音频模型在可接受的水平,处于能用阶段,大约在 70-80 分之间。但在视频生成方面,尤其是生成具有特定功能的视频尚显不足,整体水平大约在 50 分左右。”李沐说道。

 

在硬件方面,李沐特别强调了带宽的重要性,并预测下一代的带宽将翻倍至 800Gigabits。他还提到了英伟达的 GB200 系统,这是一个尝试通过水冷工艺提高算力密度的创新设计。“一旦用到水冷之后,你的算力就可以更密,就可以放更多机器。”李沐表示。

 

内存方面,他认为内存大小将是模型发展的主要瓶颈,因为当前的内存技术限制了模型的规模。他表示,“受限于内存大小和数据的尺寸,100B 到 500B 会是未来主流的一个大势。你可以做更大,但是它很多时候是用 MoE 做的,它的有效大小(每次激活的大小)可能也就是 500B 的样子。”

 

另外,他预计算力将由于摩尔定律变得越来越便宜。“短期来看,算力翻倍,价格可能会有 1.4 倍的提升。但是长期来看,当竞争变得越来越激烈,摩尔定律会发挥作用,就是说算力翻倍,价格不一定变。所以长期来看算力会变得越来越便宜。”

 

三种 AI 应用

 

李沐将人工智能的应用分为三类:

 

  • 文科白领,这方面做的比较好的包括个人助理、Call centers、文本处理、游戏和舆论以及教育。一个文科白领可能一小时完成的事情,模型能够完成百分之八九十。

  • 工科白领,目前 AI 想取代程序员还早得很。模型现在做的事是直接在其训练数据中检索相关的代码片段,根据上下文,再把变量名改一改。但它不是真的在写代码,人类一个小时还是能够写出很多复杂的代码的,所以模型还是没有取代工科白领一个小时干的事情,更不用说更复杂的任务了。

  • 蓝领阶级,这是最难的,唯一做得好的是自动驾驶。放眼整个世界,蓝领是最主要的成员,因此技术对这个世界做出巨大的变革还需要很多年。未来 10 年、 20 年,大家还是有机会参与进来的。

 

“对于文科白领的工作,AI 已经能完成简单任务,复杂任务需要继续努力。对于工科白领的工作,简单任务还需要努力,复杂任务存在困难。对于蓝领的工作,除了无人驾驶和特定场景(比如工厂,场景变化不大,也能采集大量数据),AI 连简单任务都做不了,完成复杂任务更难。”李沐总结道。

 

此外,他也分享了一些创业后得到的技术细节,比如预训练已经成为工程问题,后训练才是技术问题;垂直模型也需要通用知识;评估很难,但很重要;数据决定模型上限;自建机房不会比租 GPU 便宜太多等。

 

创业与职业发展的感悟

 

李沐分享了他从上海交通大学毕业后的多样化经历,包括在大公司工作、读 PhD 和创业。他强调了在不同环境中工作的目标和动机的重要性,并讨论了每种职业道路的利弊。他建议,无论是选择哪种职业道路,都需要有一个强烈的动机,并能够直面挑战。

 

他提到,做一个“打工人”的好处是,可以在一个相对简单的环境里学习各种从业知识,比如一个技术如何落地、产品怎么做出来、怎么设计、怎么运营、怎么管理;其次是干完被安排的任务后,晚上睡觉不用太担心其他,不会做噩梦;还有就是相对稳定的收入和空余时间。

 

那么做“打工人”的坏处就是停留在打工人或者职业经理人的思维。“公司从最上层把整个复杂的世界抽象成简单的任务,待得越久,就越觉得自己是螺丝钉,当然螺丝钉的好处就是,只要找到一个螺母钉上去就行,不用管这个机器多么复杂,外面世界多么复杂,但你在一个简化的世界里干得越久,就会觉得很腻,学的也越少,这就导致你一直停留在一个打工人或者职业经理人的思维里,而不是站在一个更高更广的层次去思考。”

 

而对于创业,他表示,“创业好酷。好处是有当海盗的乐趣。”他解释道,“天天看市面上有什么东西,天天跟人聊有什么机会,机会来了是不是要 all in 搏一把,海盗太多,你不 all in ,机会就没了,但 all in 了也可能会失败,所以生死就在一瞬间,相当刺激,这种乐趣,你在别处无法体验到,创业是唯一可以合法当海盗的方式。”

 

创业还有一个好处,就是能直面复杂的社会,直接跟社会打交道,没有人帮你做抽象,没有人会帮你把事情想清楚,你得自己把这个社会理解清楚后,快速学习。另外,创业还是一个最好的历经苦难的方法。“创业之后,你会发现,做别的事情都相对简单。”

 

李沐还提出了一个持续提升自我的方法,即从导师或上级的角度审视自己,定期进行自我总结和反思。他强调了直面自己的问题、设定目标和持续努力的重要性。

 

想要查看原演讲的读者可以查看视频链接:

https://www.bilibili.com/video/BV175WQeZE7Z/?spm_id_from=333.337.search-card.all.click

2024-08-26 17:127150

评论 1 条评论

发布
用户头像
打工人: 学习环境相对简单,有稳定收入和时间,但可能陷入螺丝钉思维
创业: 有“当海盗”的乐趣,直面复杂社会,快速学习,经历苦难
自我提升: 定期自我总结和反思,从导师或上级角度审视自己
2024-09-03 16:03 · 日本
回复
没有更多了
发现更多内容

Promise 基本方法的简单实现

编程三昧

JavaScript Promise 2月月更

WebRTC 如何在安卓系统上采集视频数据 | 社区征文

liuzhen007

音视频 新春征文 2月月更

WebRTC 流媒体常见开源方案综述 | 社区征文

liuzhen007

音视频 新春征文 2月月更

Java NIO为何导致堆外内存OOM了?

JavaEdge

2月月更

聊聊API安全的重要性及治理思路

陈俊

安全 API 应用架构

【拥有新时代的通信协议,引领云原生迈向更高的舞台】解密Dubbo3从微服务升华到云原生 | 社区征文

码界西柚

云原生 Cloud Native Dubbo3 新春征文 2月月更

ReactNative进阶(四十六):移动端实现字体自适应

No Silver Bullet

自适应 React Native 2月月更

从 TDD 到测试策略

Teobler

前端 TDD 单元测试 测试策略 测试金字塔

特征工程:归一化与标准化

强劲九

Python 人工智能 神经网络 机器学习 scikit-learn

在线格式时间计算时间差

入门小站

工具

ReactNative进阶(四十七):移动端调试利器 vConsole

No Silver Bullet

ReactNative 2月月更 vconsole

Mybatis技术专题之MybatisPlus自带强大功能之多租户插件实现原理和实战分析

码界西柚

多租户 MyBatisPlus 2月日更 多租户技术

简单入门计算机网络

宇宙之一粟

计算机网络 2月月更

ReactNative进阶(四十三):Mac 通过 .bash_profile 文件配置环境变量

No Silver Bullet

Mac 2月月更 .bash_profile

Kubernetes初学者指南

俞凡

架构 Kubernetes 云原生 2月月更

Linux之killall命令

入门小站

Linux

Java9特性-响应式流(Reactive Stream)

蜜糖的代码注释

Java 响应式 响应式编程 2月月更

(2-1/26) 滑雪的准备

mtfelix

300天创作

MySQL架构设计

JavaEdge

2月月更

原型与原型链

编程三昧

JavaScript 前端 1月月更

微信朋友圈高性能复杂度分析

唐尤华

架构实战营

ReactNative进阶(四十五):渐变组件 react-native-linear-gradient

No Silver Bullet

React Native 2月月更

微服务架构实践原则

俞凡

架构 微服务

ReactNative进阶(四十四):Mobile App 适配性优化

No Silver Bullet

React Native 适配 1月月更

Windows 和 Linux 上安装 TTF 字体的方法

编程三昧

HTML5, CSS3 1月月更

行业研究流程及资源总结

轻口味

android AI 1月月更

浅谈 Java 集合框架

宇宙之一粟

java集合总结 1月月更

2021,平(jia)凡(ban)的一年

xiezhr

年终总结 2021 2021年终总结

树概念总结

en

数据结构

Spotify系统架构

俞凡

架构 大厂实践 2月月更 spotify

再解 JavaScript 原型 与原型链

编程三昧

JavaScript 前端 原型 原型链 2月月更

李沐上海交大演讲:创业好酷,有“当海盗”的乐趣_AI&大模型_褚杏娟_InfoQ精选文章