写点什么

文生视频模型“卷”出新天际;多家手机厂商 AlI in Al,终端 AI 时代来临?|大模型一周大事

  • 2024-02-29
    北京
  • 本文字数:2579 字

    阅读完需:约 8 分钟

大小:1.27M时长:07:25
文生视频模型“卷”出新天际;多家手机厂商 AlI in Al,终端AI时代来临?|大模型一周大事

导语:大模型的快节奏发展,让了解最新技术动态、积极主动学习成为每一位从业者的必修课。InfoQ 研究中心期望通过每周更新大模型行业最新动态,为广大读者提供全面的行业回顾和要点分析。现在,让我们回顾过去一周的大模型重大事件吧。

一、重点发现

在过去一周内,OpenAI 视频生成产品 Sora 的发布无疑成为了全球讨论的热点,这标志着人工智能技术在视频生成领域取得了重大突破,它降低了视频制作门槛,促进了内容创作的多样性和便捷性,为未来的视频产业带来了无限可能。中信建投、国泰君安、申万宏源、招商证券等 10 家券商在研报中均表示 Sora 是人工智能发展进程的里程碑,这预示 AGI(通用人工智能)将加速到来,众多行业将迎来颠覆式变革。

当然,Sora 讨论度爆发的原因是多方面的,在应用潜力方面,传统的内容创作工作流有望被颠覆,生成式 AI 在视频创作和世界模型的大踏步进步将实现对视频、3D、游戏等下游应用场景的渗透;在技术创新方面,Sora 仅根据提示词便可以生成 60 秒的高清视频;在产品质量方面,Sora 创造的视频在时长、画幅选择、场景复杂度以及角色多样性的处理上都表现出了极高的水准;在社会关注度方面,Sora 的发布在科技圈内迅速引发了广泛关注与热烈讨论,吸引了众多媒体的争相报道,进而形成了强大的舆论影响力,这无疑进一步推动了公众对 Sora 的讨论热情。

二、具体内容

大模型持续更新

多模态领域

1、北京大学、南洋理工大学 S-Lab 和上海人工智能实验室的研究者提出了一个新的框架 LGM(Large Gaussian Model),实现了从单视角图片或文本输入只需 5 秒钟即可生成高分辨率高质量的三维物体。

2、谷歌提出了一种具备空间推理能力的视觉语言模型:SpatialVLM,以赋予视觉语言模型空间推理能力。

3、OpenAI 正式发布了文本到视频生成模型 Sora,继 Runway、Pika、谷歌和 Meta 之后,OpenAI 终于加入视频生成领域的战争。

4、亚马逊正式推出了语音生成模型 BASE TTS。

5、来自香港中文大学 MMLab、Avolution AI、上海人工智能实验室、商汤研究院的研究人员共同提出视频生成模型 AnimateLCM-SVD-xt。

6、阿里巴巴团队推出并开源了一款万能图片生成工作台 SCEPTER Studio。不用代码,直接在 Web 界面当中就能完成模型的训练与微调,并管理相关数据。

7、字节跳动也推出了一款创新性视频模型——Boximator,可以通过文本精准控制生成视频中人物或物体的动作。

8、由 Stability AI 公司开发的新一代 AI 图像生成器——Stable Diffusion 3 发布,在文本处理能力、色彩饱和度、图像构图、分辨率、类型、质感、对比度等方面都有了显著的提升。

9、谷歌正式推出开源大语言模型 Gemini Pro 1.5,可以实现高达 100 万个 Token(约 70 万个单词)的超长上下文理解。

开源领域

1、谷歌 Gemma 系列正式上线,全面对外开放,提供 2B(20 亿参数)和 7B(70 亿参数)两种尺寸版本。

2、法国阿维尼翁大学、南特大学和 Zenidoc 的研究团队开发了一个专为生物医学领域量身定制的开源模型——BioMistral。

3、UC 伯克利的研究者整理了一个包含各种视频和书籍的大型数据集,并且提出了大世界模型( Large World Model ,LWM),同时将其开源。该模型利用 RingAttention 技术对长序列进行可扩展训练,在大型的多样化视频和图书数据集上进行训练,实现了对语言、图像和视频的理解与生成能力。

科研领域

1、前 Google DeepMind 科学家联手创建 Biooptimus,旨在构建首个通用生物学 AI 模型。

2、Iambic、英伟达、加州理工学院开发多尺度深度生成模型 NeuralPLexer,可以仅使用蛋白质序列和配体分子图输入直接预测蛋白质-配体复合物结构。

基础设施/工具

1、微软发布了一份特定领域大模型应用建设流程指南,该指南提出了一个全面的大语言模型流程,用于生成高质量的、行业特定的问题和答案。该方法包含一个系统化的过程,包括鉴别和收集涵盖广泛农业主题的相关文档,然后清理和结构化这些文档,以便使用基本的 GPT 模型生成有意义的问答对。生成的问答对随后根据其质量进行评估和筛选。

2、Hugging Face 上的一篇博客介绍了一种可配置稀疏混合专家架构语言模型(MoE)实施方法,并且给出了基于 PyTorch 的详细代码,也许有助于打算在这个方向深耕的研究者们快速试验自己的新方法。

3、谷歌 TPU 创业团队,名为 Groq 的初创公司开发出一种机器学习处理器(大模型专用芯片),据称在大语言模型任务上彻底击败了 GPU—— 比英伟达的 GPU 快 10 倍,而成本仅为 GPU 的 10%,只需要十分之一的电力。

4、Hugging Face 开源 Al 训练合成数据集 Cosmopedia,该数据集内容均由 Mixtral 7b 模型汇总生成,收录了 3000 万以上文本文件,包含大量教科书、博客文章、故事小说、WikiHow 教程等内容,共计 250 亿个 Token。

5、社交平台 Reddit 将授权数据给谷歌训练 AI,合同价值约每年 6000 万美元。

应用探索

智能体

1、吉林大学人工智能学院发布了一项利用视觉大语言模型直接控制电脑 GUI 的最新研究—《ScreenAgent: A Vision Language Model-driven Computer Control Agent》,该工作提出了 ScreenAgent 模型,首次探索在无需辅助定位标签的情况下,利用 VLM Agent 直接控制电脑鼠标和键盘,实现大模型直接操作电脑的目标。

终端 AI

1、2024 年 2 月 20 日,OPPO 在深圳举办 AI 战略发布会,发布由 OPPO AI 超级智能体和 AI Pro 智能体开发平台组成的 OPPO 1+N 智能体生态战略,官宣与超千万用户共同迈进 AI 手机时代,加速手机行业迈向 AI 的全新阶段。

2、2024 年 2 月 18 日,国产手机品牌魅族宣布进行 Al in Al 战略调整,将停止传统“智能手机”新项目的开发,全力投入新一代 AI 设备。

3、微软 AI PC 将在今年完成首秀。供应链指出,微软将于 2024 年中旬,先推以 AI PC 为主的 Windows 11 更新版,并将与高通在 Windows on ARM 及英特尔的 x86 系统整合,在 2024 年台北国际电脑展 (Computex)亮相。


除了每周的动态更新,InfoQ 研究中心也将以季度为周期,发布《大模型季度监测报告》,跟踪大模型行业的最新动态和相关产品测试。

第一期《大模型季度监测报告 23Q4》预计将于 2024 年 3 月底正式发布,届时还将发布文生图产品大测评。本次文生图产品测评将基于实体对象、风格能力、细节难点、价值观和中文特色五大维度展开。如您期望 InfoQ 对旗下产品进行测试,或想要参与报告内容共建,欢迎联系微信:Bettycbj1996(添加好友请注明来意)



2024-02-29 16:076600

评论

发布
暂无评论
发现更多内容

【设计模式】第十二篇 - 桥接模式 - 露娜的召唤师技能

Brave

设计模式 桥接模式 11月日更

绝佳的录屏编辑神器,一款走遍天下!!

淋雨

Camtasia

思科基本网络连接与IOS的基本操作 「网络工程师之路」

Regan Yue

网络工程师 11月日更 思科 网络工程

记录渗透靶场实战【网络安全】

网络安全学海

网络安全 信息安全 渗透测试 WEB安全 安全漏洞

使用Eclipse开发Java应用并部署到SAP云平台SCP上去

汪子熙

Cloud SAP 11月日更 sap开发

前端开发工具之Mock.js

Augus

11月日更

thanos-io/thanos-CONTRIBUTING.md

卓丁

Prometheus Thanos thanos.io Contributing github Contributing

架构实战营-模块6作业

Nullrable

架构实战营

MacBook 搭建VUE3开发环境

IT蜗壳-Tango

11月日更

如何提升口头表达能力?

石云升

表达 11月日更

构建数据网格分布式架构的四项原则

俞凡

架构 数据

老友(研发岗)被裁后,想加盟小吃店,我用Python采集了一点数据,多少是个心意

梦想橡皮擦

11月日更

腾讯云数据库TDSQL已助力20余家金融机构完成核心系统替换 即将进入规模化复制阶段

科技热闻

值得收藏的 Eureka 控制台详解

悟空聊架构

Eureka 源码解析 注册中心 悟空聊架构 11月日更

《Linux一学就会》第一章第二节:学习环境搭建

侠盗安全

Linux linux运维 云计算架构师 linux电子书

【高并发】明明中断了线程,却为何不起作用呢?

冰河

并发编程 多线程 高并发 异步编程 Java Concurrency

Redis 高可用篇:图解 Redis 哨兵集群原理

码哥字节

redis redis sentinel NoSQL 数据库 11月日更

iOS开发:报错‘Unknown class ViewController in Interface Builder file’解决方法

三掌柜

11月日更

SAP云平台里Global Account和Sub Account的关系

汪子熙

Cloud SAP CloudFoundry 11月日更

Groovy中的元组

FunTester

测试开发 元组 Groovy FunTester tuple

架构实战营-模块三

瓜子葫芦侠

「架构实战营」

【Flutter 专题】17 图解 ListView 下拉刷新与上拉加载 (二)【NotificationListener】

阿策小和尚

Flutter 小菜 0 基础学习 Flutter Android 小菜鸟 11月日更

软件测试高效学习方法

程序员阿沐

学习方法 程序员 互联网 软件测试 计算机

架构实战营-设计消息队列存储消息数据的 MySQL 表格

Nullrable

架构实战

rabbitmq简介

小鲍侃java

11月日更

dart系列之:dart语言中的变量

程序那些事

flutter dart 程序那些事 11月日更

重置云服务器系统

坚果

云服务器 11月日更

【死磕Java并发】—–深入分析volatile的实现原理

chenssy

11月日更 死磕 Java 死磕 Java 并发

Vue进阶(幺陆柒):Vue 项目调试技能

No Silver Bullet

Vue 11月日更

与德勤论道企业数字化战略到落地

大咖说

云计算 数字化转型 数字化 企业上云 阿里云;

智+人:在云端重塑一场认知革命

脑极体

文生视频模型“卷”出新天际;多家手机厂商 AlI in Al,终端AI时代来临?|大模型一周大事_生成式 AI_InfoQ研究中心_InfoQ精选文章