写点什么

李沐上海交大演讲:创业好酷,有“当海盗”的乐趣

  • 2024-08-26
    北京
  • 本文字数:2370 字

    阅读完需:约 8 分钟

大小:1.12M时长:06:30
李沐上海交大演讲:创业好酷,有“当海盗”的乐趣

8 月 23 日,李沐回到了母校上海交大,做了一场关于 LLM 和个人生涯的分享。这篇文章是对李沐在上海交通大学的演讲内容的总结,涵盖了 AI 技术的现状、未来趋势以及个人成长的深刻洞察。。

关于语言模型

 

李沐首先研究了语言模型的三个核心要素:算力、数据和算法,认为其与机器学习模型类似,本质上都是把数据通过算力和算法压进中间的模型里,使得模型拥有一定的能力,在面对一个新的数据时,它能够在原数据里面找到相似的东西,然后做一定的修改,输出想要的东西。

 

但他指出,这次的语言模型和上一次深度学习浪潮的模型有一个比较大的区别:上一次是“我炼一个什么丹就治一个什么病”,这次是“我希望这个东西炼出来会有灵魂在里面”,它能解决很多问题,“这其实是技术一代代往前进。”

 

在他看来,目前语音模型的优点是延迟更低、信息更丰富,并能够通过语言模型对整个输出做很多控制;音乐模型的问题不在于技术,而是商业问题;图片生成是整个 AIGC 领域做得最早的,也是效果最好的;视频模型则比较早期,通用的 video 生成非常贵,训练成本很有可能低于数据处理的成本,所以市面上没有特别好的开源模型出来。而多模态技术的发展趋势在于整合不同类型的模态信息,尤其是文本信息,未来通过文本控制生成某个模块可能成为常态。

 

“总结下来,我觉得语言模型已经达到了较高的水平,大约在 80 到 85 分之间。音频模型在可接受的水平,处于能用阶段,大约在 70-80 分之间。但在视频生成方面,尤其是生成具有特定功能的视频尚显不足,整体水平大约在 50 分左右。”李沐说道。

 

在硬件方面,李沐特别强调了带宽的重要性,并预测下一代的带宽将翻倍至 800Gigabits。他还提到了英伟达的 GB200 系统,这是一个尝试通过水冷工艺提高算力密度的创新设计。“一旦用到水冷之后,你的算力就可以更密,就可以放更多机器。”李沐表示。

 

内存方面,他认为内存大小将是模型发展的主要瓶颈,因为当前的内存技术限制了模型的规模。他表示,“受限于内存大小和数据的尺寸,100B 到 500B 会是未来主流的一个大势。你可以做更大,但是它很多时候是用 MoE 做的,它的有效大小(每次激活的大小)可能也就是 500B 的样子。”

 

另外,他预计算力将由于摩尔定律变得越来越便宜。“短期来看,算力翻倍,价格可能会有 1.4 倍的提升。但是长期来看,当竞争变得越来越激烈,摩尔定律会发挥作用,就是说算力翻倍,价格不一定变。所以长期来看算力会变得越来越便宜。”

 

三种 AI 应用

 

李沐将人工智能的应用分为三类:

 

  • 文科白领,这方面做的比较好的包括个人助理、Call centers、文本处理、游戏和舆论以及教育。一个文科白领可能一小时完成的事情,模型能够完成百分之八九十。

  • 工科白领,目前 AI 想取代程序员还早得很。模型现在做的事是直接在其训练数据中检索相关的代码片段,根据上下文,再把变量名改一改。但它不是真的在写代码,人类一个小时还是能够写出很多复杂的代码的,所以模型还是没有取代工科白领一个小时干的事情,更不用说更复杂的任务了。

  • 蓝领阶级,这是最难的,唯一做得好的是自动驾驶。放眼整个世界,蓝领是最主要的成员,因此技术对这个世界做出巨大的变革还需要很多年。未来 10 年、 20 年,大家还是有机会参与进来的。

 

“对于文科白领的工作,AI 已经能完成简单任务,复杂任务需要继续努力。对于工科白领的工作,简单任务还需要努力,复杂任务存在困难。对于蓝领的工作,除了无人驾驶和特定场景(比如工厂,场景变化不大,也能采集大量数据),AI 连简单任务都做不了,完成复杂任务更难。”李沐总结道。

 

此外,他也分享了一些创业后得到的技术细节,比如预训练已经成为工程问题,后训练才是技术问题;垂直模型也需要通用知识;评估很难,但很重要;数据决定模型上限;自建机房不会比租 GPU 便宜太多等。

 

创业与职业发展的感悟

 

李沐分享了他从上海交通大学毕业后的多样化经历,包括在大公司工作、读 PhD 和创业。他强调了在不同环境中工作的目标和动机的重要性,并讨论了每种职业道路的利弊。他建议,无论是选择哪种职业道路,都需要有一个强烈的动机,并能够直面挑战。

 

他提到,做一个“打工人”的好处是,可以在一个相对简单的环境里学习各种从业知识,比如一个技术如何落地、产品怎么做出来、怎么设计、怎么运营、怎么管理;其次是干完被安排的任务后,晚上睡觉不用太担心其他,不会做噩梦;还有就是相对稳定的收入和空余时间。

 

那么做“打工人”的坏处就是停留在打工人或者职业经理人的思维。“公司从最上层把整个复杂的世界抽象成简单的任务,待得越久,就越觉得自己是螺丝钉,当然螺丝钉的好处就是,只要找到一个螺母钉上去就行,不用管这个机器多么复杂,外面世界多么复杂,但你在一个简化的世界里干得越久,就会觉得很腻,学的也越少,这就导致你一直停留在一个打工人或者职业经理人的思维里,而不是站在一个更高更广的层次去思考。”

 

而对于创业,他表示,“创业好酷。好处是有当海盗的乐趣。”他解释道,“天天看市面上有什么东西,天天跟人聊有什么机会,机会来了是不是要 all in 搏一把,海盗太多,你不 all in ,机会就没了,但 all in 了也可能会失败,所以生死就在一瞬间,相当刺激,这种乐趣,你在别处无法体验到,创业是唯一可以合法当海盗的方式。”

 

创业还有一个好处,就是能直面复杂的社会,直接跟社会打交道,没有人帮你做抽象,没有人会帮你把事情想清楚,你得自己把这个社会理解清楚后,快速学习。另外,创业还是一个最好的历经苦难的方法。“创业之后,你会发现,做别的事情都相对简单。”

 

李沐还提出了一个持续提升自我的方法,即从导师或上级的角度审视自己,定期进行自我总结和反思。他强调了直面自己的问题、设定目标和持续努力的重要性。

 

想要查看原演讲的读者可以查看视频链接:

https://www.bilibili.com/video/BV175WQeZE7Z/?spm_id_from=333.337.search-card.all.click

2024-08-26 17:127252

评论 1 条评论

发布
用户头像
打工人: 学习环境相对简单,有稳定收入和时间,但可能陷入螺丝钉思维
创业: 有“当海盗”的乐趣,直面复杂社会,快速学习,经历苦难
自我提升: 定期自我总结和反思,从导师或上级角度审视自己
2024-09-03 16:03 · 日本
回复
没有更多了
发现更多内容

一日为期,极行千里 ——「企业级零代码黑客马拉松」正式启动报名

明道云

kube-scheduler源码分析(3)-抢占调度分析

良凯尔

Kubernetes 容器 源码分析 云原生 容器云

微博评论高性能高可用计算架构设计

「架构实战营」

在 Flutter 中使用 NavigationRail 和 BottomNavigationBar

坚果

3月日更 flutter for web

Spring Cloud Ribbon 中的 7 种负载均衡策略

王磊

SpringCloud

Java面向对象知识点拆分(二)

逆锋起笔

java面试 javase 3月月更 Java面试题

全链路压测(七):核心链路四问

老张

性能测试 全链路压测 稳定性保障

架构训练营-作业五

默光

计算架构 架构训练营5期

DDD实战(4):战略设计之系统上下文和限界上下文

深清秋

DDD 软件架构 生鲜电商系统 3月月更

2022第10周-职业素养被触动的瞬间

李印

总结思考

微博评论高性能高可用架构

smile

架构实战营

不得不知道系列之探活机制

梦朝思夕

高可用 网关 健康检查 服务探活 探活

银行卡信息精准识别-智能快速绑卡

DS小龙哥

3月月更

Antd多文件上传后台接收为null问题

CRMEB

波卡将怎么影响区块链生态

不登山的小鲁

区块链 波卡

吾日三省吾身

xujiangniao

在线上传图片二维码识别解析

入门小站

工具

作业十

hunk

云原生训练营

模块5课后作业

苍狼

课后总结 模块五 架构训练营5期

图解黑客DNS攻击

喀拉峻

网络安全

【Go实现】实践GoF的23种设计模式:SOLID原则

元闰子

Go 设计模式 SOLID原则

电影图书电视剧

xujiangniao

《重学Java设计模式》作者开始录视频了!

小傅哥

设计模式 小傅哥 视频学习

书单 | 云端架构怎么设计才好?这几本书告诉你!

博文视点Broadview

创建索引源码学习

liang1993

elasticsearch

算法训练营总结

施正威

Java八股文1—Java平台概览

javaadu

Java 面试题 Java八股文

订单系统的设计(20/100)

hackstoic

技术架构

云端网络的三大场景概述

穿过生命散发芬芳

3月月更

简单了解 Python 匿名函数:lambda

踏雪痕

Python Lambda函数 3月程序媛福利 3月月更

bigdata作业

Pyel

李沐上海交大演讲:创业好酷,有“当海盗”的乐趣_AI&大模型_褚杏娟_InfoQ精选文章