写点什么

文生视频模型“卷”出新天际;多家手机厂商 AlI in Al,终端 AI 时代来临?|大模型一周大事

  • 2024-02-29
    北京
  • 本文字数:2579 字

    阅读完需:约 8 分钟

大小:1.27M时长:07:25
文生视频模型“卷”出新天际;多家手机厂商 AlI in Al,终端AI时代来临?|大模型一周大事

导语:大模型的快节奏发展,让了解最新技术动态、积极主动学习成为每一位从业者的必修课。InfoQ 研究中心期望通过每周更新大模型行业最新动态,为广大读者提供全面的行业回顾和要点分析。现在,让我们回顾过去一周的大模型重大事件吧。

一、重点发现

在过去一周内,OpenAI 视频生成产品 Sora 的发布无疑成为了全球讨论的热点,这标志着人工智能技术在视频生成领域取得了重大突破,它降低了视频制作门槛,促进了内容创作的多样性和便捷性,为未来的视频产业带来了无限可能。中信建投、国泰君安、申万宏源、招商证券等 10 家券商在研报中均表示 Sora 是人工智能发展进程的里程碑,这预示 AGI(通用人工智能)将加速到来,众多行业将迎来颠覆式变革。

当然,Sora 讨论度爆发的原因是多方面的,在应用潜力方面,传统的内容创作工作流有望被颠覆,生成式 AI 在视频创作和世界模型的大踏步进步将实现对视频、3D、游戏等下游应用场景的渗透;在技术创新方面,Sora 仅根据提示词便可以生成 60 秒的高清视频;在产品质量方面,Sora 创造的视频在时长、画幅选择、场景复杂度以及角色多样性的处理上都表现出了极高的水准;在社会关注度方面,Sora 的发布在科技圈内迅速引发了广泛关注与热烈讨论,吸引了众多媒体的争相报道,进而形成了强大的舆论影响力,这无疑进一步推动了公众对 Sora 的讨论热情。

二、具体内容

大模型持续更新

多模态领域

1、北京大学、南洋理工大学 S-Lab 和上海人工智能实验室的研究者提出了一个新的框架 LGM(Large Gaussian Model),实现了从单视角图片或文本输入只需 5 秒钟即可生成高分辨率高质量的三维物体。

2、谷歌提出了一种具备空间推理能力的视觉语言模型:SpatialVLM,以赋予视觉语言模型空间推理能力。

3、OpenAI 正式发布了文本到视频生成模型 Sora,继 Runway、Pika、谷歌和 Meta 之后,OpenAI 终于加入视频生成领域的战争。

4、亚马逊正式推出了语音生成模型 BASE TTS。

5、来自香港中文大学 MMLab、Avolution AI、上海人工智能实验室、商汤研究院的研究人员共同提出视频生成模型 AnimateLCM-SVD-xt。

6、阿里巴巴团队推出并开源了一款万能图片生成工作台 SCEPTER Studio。不用代码,直接在 Web 界面当中就能完成模型的训练与微调,并管理相关数据。

7、字节跳动也推出了一款创新性视频模型——Boximator,可以通过文本精准控制生成视频中人物或物体的动作。

8、由 Stability AI 公司开发的新一代 AI 图像生成器——Stable Diffusion 3 发布,在文本处理能力、色彩饱和度、图像构图、分辨率、类型、质感、对比度等方面都有了显著的提升。

9、谷歌正式推出开源大语言模型 Gemini Pro 1.5,可以实现高达 100 万个 Token(约 70 万个单词)的超长上下文理解。

开源领域

1、谷歌 Gemma 系列正式上线,全面对外开放,提供 2B(20 亿参数)和 7B(70 亿参数)两种尺寸版本。

2、法国阿维尼翁大学、南特大学和 Zenidoc 的研究团队开发了一个专为生物医学领域量身定制的开源模型——BioMistral。

3、UC 伯克利的研究者整理了一个包含各种视频和书籍的大型数据集,并且提出了大世界模型( Large World Model ,LWM),同时将其开源。该模型利用 RingAttention 技术对长序列进行可扩展训练,在大型的多样化视频和图书数据集上进行训练,实现了对语言、图像和视频的理解与生成能力。

科研领域

1、前 Google DeepMind 科学家联手创建 Biooptimus,旨在构建首个通用生物学 AI 模型。

2、Iambic、英伟达、加州理工学院开发多尺度深度生成模型 NeuralPLexer,可以仅使用蛋白质序列和配体分子图输入直接预测蛋白质-配体复合物结构。

基础设施/工具

1、微软发布了一份特定领域大模型应用建设流程指南,该指南提出了一个全面的大语言模型流程,用于生成高质量的、行业特定的问题和答案。该方法包含一个系统化的过程,包括鉴别和收集涵盖广泛农业主题的相关文档,然后清理和结构化这些文档,以便使用基本的 GPT 模型生成有意义的问答对。生成的问答对随后根据其质量进行评估和筛选。

2、Hugging Face 上的一篇博客介绍了一种可配置稀疏混合专家架构语言模型(MoE)实施方法,并且给出了基于 PyTorch 的详细代码,也许有助于打算在这个方向深耕的研究者们快速试验自己的新方法。

3、谷歌 TPU 创业团队,名为 Groq 的初创公司开发出一种机器学习处理器(大模型专用芯片),据称在大语言模型任务上彻底击败了 GPU—— 比英伟达的 GPU 快 10 倍,而成本仅为 GPU 的 10%,只需要十分之一的电力。

4、Hugging Face 开源 Al 训练合成数据集 Cosmopedia,该数据集内容均由 Mixtral 7b 模型汇总生成,收录了 3000 万以上文本文件,包含大量教科书、博客文章、故事小说、WikiHow 教程等内容,共计 250 亿个 Token。

5、社交平台 Reddit 将授权数据给谷歌训练 AI,合同价值约每年 6000 万美元。

应用探索

智能体

1、吉林大学人工智能学院发布了一项利用视觉大语言模型直接控制电脑 GUI 的最新研究—《ScreenAgent: A Vision Language Model-driven Computer Control Agent》,该工作提出了 ScreenAgent 模型,首次探索在无需辅助定位标签的情况下,利用 VLM Agent 直接控制电脑鼠标和键盘,实现大模型直接操作电脑的目标。

终端 AI

1、2024 年 2 月 20 日,OPPO 在深圳举办 AI 战略发布会,发布由 OPPO AI 超级智能体和 AI Pro 智能体开发平台组成的 OPPO 1+N 智能体生态战略,官宣与超千万用户共同迈进 AI 手机时代,加速手机行业迈向 AI 的全新阶段。

2、2024 年 2 月 18 日,国产手机品牌魅族宣布进行 Al in Al 战略调整,将停止传统“智能手机”新项目的开发,全力投入新一代 AI 设备。

3、微软 AI PC 将在今年完成首秀。供应链指出,微软将于 2024 年中旬,先推以 AI PC 为主的 Windows 11 更新版,并将与高通在 Windows on ARM 及英特尔的 x86 系统整合,在 2024 年台北国际电脑展 (Computex)亮相。


除了每周的动态更新,InfoQ 研究中心也将以季度为周期,发布《大模型季度监测报告》,跟踪大模型行业的最新动态和相关产品测试。

第一期《大模型季度监测报告 23Q4》预计将于 2024 年 3 月底正式发布,届时还将发布文生图产品大测评。本次文生图产品测评将基于实体对象、风格能力、细节难点、价值观和中文特色五大维度展开。如您期望 InfoQ 对旗下产品进行测试,或想要参与报告内容共建,欢迎联系微信:Bettycbj1996(添加好友请注明来意)



2024-02-29 16:076690

评论

发布
暂无评论
发现更多内容

Nginx 常用配置清单

Java小咖秀

nginx Web 反向代理 HTTP

双向循环链表:鸿蒙轻内核中数据的“驿站”

华为云开发者联盟

鸿蒙 数据结构 结构体 OpenHarmony 双向循环链表

nmon和nmon analyser的网盘下载安装与使用

InfoQ_Springup

工具

从狗狗币说起 看区块链的未来发展方向

CECBC

狗狗币

超详细教程:SpringBoot整合MybatisPlus

华为云开发者联盟

Java spring springboot 代码 MyBatisPlus

智能会话机器人:SaaS 平台的设计与思考

极客志

自然语言处理 chatbot 聊天机器人 智能会话机器人

架构实战营 -- 模块三

永佳

架构实战营

技术探索系列 - 轻松带你掌握JMM(2)

码界西柚

JVM JMM 5月日更

区块链+农业,如何升级农业价值链

CECBC

农业

数仓ETL系统:给强大的“心脏”配上“超级流水线”

华为云开发者联盟

数据库 数据仓库 GaussDB(DWS) ETL系统 MPPDB

在线体验四大名著情景(地图、游戏)

不脱发的程序猿

开源 程序人生 四大名著

架构实战营模块三作业

竹林七贤

新书见面 | 《云原生时代的微服务架构实践》

Damon

微服务 云原生 5月日更

轶事

言未卜

AI英雄出少年!奔赴星辰,他们正在创造黄金时代

百度大脑

AI

从5大挑战带你了解多模态机器学习

华为云开发者联盟

机器学习 多模态机器学习 多模态 异构数据

架构实战营模块3作业

Vic

架构实战营

“区块链+疫情预警”!这个科研团队研发了传染病预警系统

CECBC

疫情

模块2学习总结

TH

架构实战营

Offer收割机!阿里P7大神甩出JSP实战笔记,网友:信息量过大

飞飞JAva

Java

基于OpenPAI细化部署 Hadoop 集群

Damon

hadoop 5月日更

存算解耦的多模型数据管理平台介绍:以星环科技TDH8.0为例

星环科技

人工智能 大数据 云平台 数据管理平台 存算解耦

第三次作业

Geek_9cf7b5

深入浅出 LVS 负载均衡系列(二):DR、TUN 模型原理

UCloud技术

负载均衡

rocketmq优雅停机往事

捉虫大师

第一个鸿蒙应用

释缘

鸿蒙 HarmonyOS

NumPy之:使用genfromtxt导入数据

程序那些事

Python 数据分析 Numpy 程序那些事

运维五一不加班,从一套On-Call响应机制开始!

睿象云

运维 告警 智能运维 告警设置 告警管理

STM32低功耗模式下GPIO如何配置最节能?

不脱发的程序猿

嵌入式 stm32 单片机 低功耗模式

模块2作业 微信朋友圈高性能复杂度

TH

架构实战营

如何快速制作短视频?拥有这个神器,轻松搞定!

奈奈的杂社

短视频 视频剪辑 自媒体

文生视频模型“卷”出新天际;多家手机厂商 AlI in Al,终端AI时代来临?|大模型一周大事_生成式 AI_InfoQ研究中心_InfoQ精选文章