写点什么

文生视频模型“卷”出新天际;多家手机厂商 AlI in Al,终端 AI 时代来临?|大模型一周大事

  • 2024-02-29
    北京
  • 本文字数:2579 字

    阅读完需:约 8 分钟

大小:1.27M时长:07:25
文生视频模型“卷”出新天际;多家手机厂商 AlI in Al,终端AI时代来临?|大模型一周大事

导语:大模型的快节奏发展,让了解最新技术动态、积极主动学习成为每一位从业者的必修课。InfoQ 研究中心期望通过每周更新大模型行业最新动态,为广大读者提供全面的行业回顾和要点分析。现在,让我们回顾过去一周的大模型重大事件吧。

一、重点发现

在过去一周内,OpenAI 视频生成产品 Sora 的发布无疑成为了全球讨论的热点,这标志着人工智能技术在视频生成领域取得了重大突破,它降低了视频制作门槛,促进了内容创作的多样性和便捷性,为未来的视频产业带来了无限可能。中信建投、国泰君安、申万宏源、招商证券等 10 家券商在研报中均表示 Sora 是人工智能发展进程的里程碑,这预示 AGI(通用人工智能)将加速到来,众多行业将迎来颠覆式变革。

当然,Sora 讨论度爆发的原因是多方面的,在应用潜力方面,传统的内容创作工作流有望被颠覆,生成式 AI 在视频创作和世界模型的大踏步进步将实现对视频、3D、游戏等下游应用场景的渗透;在技术创新方面,Sora 仅根据提示词便可以生成 60 秒的高清视频;在产品质量方面,Sora 创造的视频在时长、画幅选择、场景复杂度以及角色多样性的处理上都表现出了极高的水准;在社会关注度方面,Sora 的发布在科技圈内迅速引发了广泛关注与热烈讨论,吸引了众多媒体的争相报道,进而形成了强大的舆论影响力,这无疑进一步推动了公众对 Sora 的讨论热情。

二、具体内容

大模型持续更新

多模态领域

1、北京大学、南洋理工大学 S-Lab 和上海人工智能实验室的研究者提出了一个新的框架 LGM(Large Gaussian Model),实现了从单视角图片或文本输入只需 5 秒钟即可生成高分辨率高质量的三维物体。

2、谷歌提出了一种具备空间推理能力的视觉语言模型:SpatialVLM,以赋予视觉语言模型空间推理能力。

3、OpenAI 正式发布了文本到视频生成模型 Sora,继 Runway、Pika、谷歌和 Meta 之后,OpenAI 终于加入视频生成领域的战争。

4、亚马逊正式推出了语音生成模型 BASE TTS。

5、来自香港中文大学 MMLab、Avolution AI、上海人工智能实验室、商汤研究院的研究人员共同提出视频生成模型 AnimateLCM-SVD-xt。

6、阿里巴巴团队推出并开源了一款万能图片生成工作台 SCEPTER Studio。不用代码,直接在 Web 界面当中就能完成模型的训练与微调,并管理相关数据。

7、字节跳动也推出了一款创新性视频模型——Boximator,可以通过文本精准控制生成视频中人物或物体的动作。

8、由 Stability AI 公司开发的新一代 AI 图像生成器——Stable Diffusion 3 发布,在文本处理能力、色彩饱和度、图像构图、分辨率、类型、质感、对比度等方面都有了显著的提升。

9、谷歌正式推出开源大语言模型 Gemini Pro 1.5,可以实现高达 100 万个 Token(约 70 万个单词)的超长上下文理解。

开源领域

1、谷歌 Gemma 系列正式上线,全面对外开放,提供 2B(20 亿参数)和 7B(70 亿参数)两种尺寸版本。

2、法国阿维尼翁大学、南特大学和 Zenidoc 的研究团队开发了一个专为生物医学领域量身定制的开源模型——BioMistral。

3、UC 伯克利的研究者整理了一个包含各种视频和书籍的大型数据集,并且提出了大世界模型( Large World Model ,LWM),同时将其开源。该模型利用 RingAttention 技术对长序列进行可扩展训练,在大型的多样化视频和图书数据集上进行训练,实现了对语言、图像和视频的理解与生成能力。

科研领域

1、前 Google DeepMind 科学家联手创建 Biooptimus,旨在构建首个通用生物学 AI 模型。

2、Iambic、英伟达、加州理工学院开发多尺度深度生成模型 NeuralPLexer,可以仅使用蛋白质序列和配体分子图输入直接预测蛋白质-配体复合物结构。

基础设施/工具

1、微软发布了一份特定领域大模型应用建设流程指南,该指南提出了一个全面的大语言模型流程,用于生成高质量的、行业特定的问题和答案。该方法包含一个系统化的过程,包括鉴别和收集涵盖广泛农业主题的相关文档,然后清理和结构化这些文档,以便使用基本的 GPT 模型生成有意义的问答对。生成的问答对随后根据其质量进行评估和筛选。

2、Hugging Face 上的一篇博客介绍了一种可配置稀疏混合专家架构语言模型(MoE)实施方法,并且给出了基于 PyTorch 的详细代码,也许有助于打算在这个方向深耕的研究者们快速试验自己的新方法。

3、谷歌 TPU 创业团队,名为 Groq 的初创公司开发出一种机器学习处理器(大模型专用芯片),据称在大语言模型任务上彻底击败了 GPU—— 比英伟达的 GPU 快 10 倍,而成本仅为 GPU 的 10%,只需要十分之一的电力。

4、Hugging Face 开源 Al 训练合成数据集 Cosmopedia,该数据集内容均由 Mixtral 7b 模型汇总生成,收录了 3000 万以上文本文件,包含大量教科书、博客文章、故事小说、WikiHow 教程等内容,共计 250 亿个 Token。

5、社交平台 Reddit 将授权数据给谷歌训练 AI,合同价值约每年 6000 万美元。

应用探索

智能体

1、吉林大学人工智能学院发布了一项利用视觉大语言模型直接控制电脑 GUI 的最新研究—《ScreenAgent: A Vision Language Model-driven Computer Control Agent》,该工作提出了 ScreenAgent 模型,首次探索在无需辅助定位标签的情况下,利用 VLM Agent 直接控制电脑鼠标和键盘,实现大模型直接操作电脑的目标。

终端 AI

1、2024 年 2 月 20 日,OPPO 在深圳举办 AI 战略发布会,发布由 OPPO AI 超级智能体和 AI Pro 智能体开发平台组成的 OPPO 1+N 智能体生态战略,官宣与超千万用户共同迈进 AI 手机时代,加速手机行业迈向 AI 的全新阶段。

2、2024 年 2 月 18 日,国产手机品牌魅族宣布进行 Al in Al 战略调整,将停止传统“智能手机”新项目的开发,全力投入新一代 AI 设备。

3、微软 AI PC 将在今年完成首秀。供应链指出,微软将于 2024 年中旬,先推以 AI PC 为主的 Windows 11 更新版,并将与高通在 Windows on ARM 及英特尔的 x86 系统整合,在 2024 年台北国际电脑展 (Computex)亮相。


除了每周的动态更新,InfoQ 研究中心也将以季度为周期,发布《大模型季度监测报告》,跟踪大模型行业的最新动态和相关产品测试。

第一期《大模型季度监测报告 23Q4》预计将于 2024 年 3 月底正式发布,届时还将发布文生图产品大测评。本次文生图产品测评将基于实体对象、风格能力、细节难点、价值观和中文特色五大维度展开。如您期望 InfoQ 对旗下产品进行测试,或想要参与报告内容共建,欢迎联系微信:Bettycbj1996(添加好友请注明来意)



2024-02-29 16:076893

评论

发布
暂无评论
发现更多内容

基于 MinIO 部署单实例 Databend | 新手篇(1)

Databend

开启自然资源管理“智绘”之路!

天翼云开发者社区

云网融合赋能智慧转型,“天翼云管 ”开启贴身云管家时代

天翼云开发者社区

【限量招募30人】免费参与SPSS云版本内测

淋雨

SPSS

项目实战:在线报价采购系统(React +SpreadJS+Echarts)

葡萄城技术团队

React 项目实战 采购软件 echart

智慧城市、数字政府、城市大脑、一网统管之间有什么关系

雨果

智慧城市 城市大脑 数字政府 一网统管

基于Delta Lake构建数据湖仓体系

阿里云大数据AI技术

大数据 开源 企业号十月 PK 榜

全局图优化:提升 MegEngine 模型推理性能的又一神器

MegEngineBot

深度学习 开源 性能优化 MegEngine 全局图优化

Pytorch、CUDA和cuDNN的安装图文详解win11(解决版本匹配问题)

timerring

PyTorch cuda 10月月更 cudnn

哪里有便宜的云服务器?可以下月付款吗?

行云管家

云计算 服务器 云服务器

JscriptScript的类型

渔戈

JavaScript 前端 10月月更

系统服务熔断、限流:常见限流算法&主流熔断技术详解

程序员小毕

Java 程序员 分布式 微服务 SpringCloud

天翼云国产化全栈云服务赋能数字中国建设

天翼云开发者社区

华为云全球加速GA,助力中小企业突破发展瓶颈!

清欢科技

场景金融持续引发行业关注,4.0时代打造金融服务新生态

易观分析

银行 场景金融

浅谈Mixin、Composition API、Reactive API、Ref API以及readonly🔥

渔戈

前端 Vue3 10月月更

天翼云推出全栈政务混合云支持私有化运行

天翼云开发者社区

京东云开发者|探寻软件架构的本质,到底什么是架构?

京东科技开发者

架构 软件架构 软件架构师

华为云全球加速GA,助跨境企业云上业务通达

清欢科技

高可用系统哪家靠谱?工作原理是什么?

行云管家

高可用 高可用架构 高可用集群

凭什么 31x31 大小卷积核的耗时可以和 9x9 卷积差不多?| 文末附 meetup 回顾

MegEngineBot

深度学习 开源 卷积 MegEngine

JavaScript的类型转换

渔戈

JavaScript 前端 10月月更

MetaForce佛萨奇魔豹2.0系统开发技术讲解方案

I8O28578624

SAP | 消息 MESSAGE

暮春零贰

SAP 消息 10月月更

数聚生态,智驭全界!看天翼云如何为智慧园区注入新动能!

天翼云开发者社区

永久免费低代码开发平台有哪些?

优秀

低代码 低代码开发平台

现代农业|AIRIOT智慧农业管理解决方案

AIRIOT

低代码 物联网 智慧农业

快被Gartner捧上天的Data Fabric数据经纬到底是个啥?

雨果

Data Fabric 数据经纬

千锋1024程序员节大咖讲师技术直播火力全开

千锋IT教育

2022年中国篮球内容消费趋势洞察

易观分析

消费 篮球

落地DataOps,必须克服的挑战有哪些?

雨果

DataOps

文生视频模型“卷”出新天际;多家手机厂商 AlI in Al,终端AI时代来临?|大模型一周大事_生成式 AI_崔白洁 | InfoQ研究中心_InfoQ精选文章