NVIDIA 初创加速计划,免费加速您的创业启动 了解详情
写点什么

鲶鱼效应显著!Sora 发布满月,多模态领域成果丰硕 | 大模型一周大事

  • 2024-03-25
    北京
  • 本文字数:5169 字

    阅读完需:约 17 分钟

大小:2.52M时长:14:41
鲶鱼效应显著!Sora发布满月,多模态领域成果丰硕 | 大模型一周大事

大模型的快节奏发展,让了解最新技术动态、积极主动学习成为每一位从业者的必修课。InfoQ 研究中心期望通过每周更新大模型行业最新动态,为广大读者提供全面的行业回顾和要点分析。现在,让我们回顾过去一周的大模型重大事件吧。

一、重点发现

本周多模态领域迎来多项重要突破。Stability AI 推出的 SV3D 模型显著提升了 3D 视频生成质量,腾讯等团队推出的 Follow-Your-Click 和 Stable Drag 模型分别实现了图生视频和精确图片编辑的功能,而 Seeking AI 等联合提出的 World GPT 框架则实现了图片文本到视频的生成与编辑。此外,华中科技大学与字节跳动合作的 GLEE 模型实现了图像视频目标的全面感知,Freepik 的 Reimagine AI 工具简化了图片处理流程,HyperGAI 的 HPT 模型展示了跨模态理解与生成能力,字节跳动发布的 Animate Diff-Lightning 则大幅提升了文生视频的速度。同时,开源动漫主题的从文本到图像模型 Animagine XL3.1 的发布也丰富了动漫风格的创作可能。这些多模态技术的突破不仅展示了人工智能在处理复杂信息方面的巨大潜力,也预示着未来在内容创作、视觉编辑、虚拟现实等多个领域将出现更多创新和应用。

二、具体内容

大模型持续更新

垂直领域

  1. 3 月 20 号,360 集团宣布 360 安全大模型 3.0 升级发布,系国内首个实现 AI 实战应用的安全行业大模型。据介绍,该模型基于 360 近二十年安全和 AI 领域技术积累总结出的安全大模型核心战法升级而成,可通过智能体框架赋能企业已有的探针、平台,提炼专家知识赋能增强 360 安全云,帮助企业打造数字安全体系。

多模态领域

  1. 3 月 19 号,Stability AI 推出基于 Stable Video Diffusion 的 3D 视频生成大模型「Stable Video 3D」(简称 SV3D),该能够显著提升 3D 生成的质量和多视角一致性,效果要优于之前 Stability AI 推出的 Stable Zero123 以及丰田研究院和哥伦比亚大学联合开源的 Zero123-XL。

  2. 腾讯联合清华、港科大在论文《Follow-Your-Click:Open-domain Regional Image Animation Via Short Prompts》中推出全新图生视频大模型 Follow-Your-Click ,把任意一张照片输入模型后点击想选中的区域再加上少量简单的提示词(如:动作、神态等),图片中原本静态的区域就能动起来。

  3. 南京大学、腾讯的几位研究者在《StableDrag: Stable Dragging for Point-based Image Editing》中提出了一个更加稳定和精确的图片拖拽编辑框架(AI 拖拽 P 图)——StableDrag。这一方法中的判别式点跟踪方法能够精确地定位更新的操纵点,提高长程操纵稳定性。而其中基于置信的潜在增强策略能够在所有操纵步骤中,保证优化的潜在变量尽可能地高质量。

  4. 来自 Seeking AI、哈佛大学、斯坦福大学以及北京大学的研究人员在《WorldGPT: A Sora-Inspired Video AI Agent as Rich World Models from Text and Image Inputs》中提出了一种创新的基于图片—文本的视频生成编辑统一框架,不仅能够实现由图片和文本直接生成视频的功能,还支持通过简单的文本提示(prompt)对生成视频进行风格迁移、背景替换等一系列视频外观编辑操作。

  5. 华中科技大学与字节跳动的联合研究团队开发了一款名为 GLEE 的视觉目标基础模型,该模型能够一次性处理图像和视频中的几乎所有目标感知任务。其可以根据任意开放词汇表进行目标检测,并根据目标的外观和位置描述进行分割和跟踪。相关的研究成果发表在论文《GLEE: General Object Foundation Model for Images and Videos at Scale》中。

  6. HyperGAI 发布其多模态大语言模型:HPT 具有跨模态理解与生成能力,能处理和生成不同类型数据(如文本、图像、视频等),并能够理解这些不同模态之间的联系和相互作用。

  7. 字节跳动发布文生视频大模型 AnimateDiff-Lightning ,其能够更快地根据文本描述生成视频,比起原来的 AnimateDiff 模型,速度提升十倍以上。除了能够根据文本生成视频之外,AnimateDiff-Lightning 还可以进行视频到视频的生成,比如可以将现有视频转换成不同风格的视频。

  8. 一款全新的开源动漫主题的文本到图像模型 Animagine XL3.1 已经正式发布。该版本在原有的基础上进行了一系列的升级和优化,使其对广泛的动漫作品和风格的理解更加深入,通过整合新的数据集,Animagine XL3.1 扩展了其对动漫作品的理解范围,无论是经典的作品,还是最新发布的动漫,都能被该模型准确地捕捉和理解。

科研领域

  1. 华盛顿大学 David Baker 团队在最新研究《Atomically accurate de novo design of single-domain antibodies》中使用生成式 AI 来帮助他们制造全新的抗体,这意味着研究人员开始将 AI 引导的蛋白质设计引入价值数千亿美元的治疗性抗体市场。

  2. 中国科学院、哈佛大学、斯坦福大学、约翰霍普金斯大学的研究团队在最新的研究《Riboformer: a deep learning framework for predicting context-dependent translation dynamics》中提到了他们开发的一个基于深度学习的框架 Riboformer,主要用于对翻译动态中上下文相关的变化进行建模,并且 Riboformer 能够以密码子分辨率准确预测核糖体密度

  3. 美国麻省总医院、哈佛医学院等组成研究团队迄今为止最大的两个 CPath 基础模型:UNI 和 CONCH。这些基础模型适用于 30 多种临床和诊断需求,包括疾病检测、疾病诊断、器官移植评估和罕见疾病分析。相关研究发布在《Towards a general-purpose foundation model for computational pathology》上。

开源领域

  1. 香港科技大学(广州)的研究团队在论文《LLMLight: Large Language Models as Traffic Signal Control Agents》中提出一个基于 LLMLight 的框架的交通信号控制(TSC)垂类大模型 LightGPT 近期宣布开源。这一模型在信号灯控制这类任务中的决策能力显著优于 GPT-4,即便在济南、杭州、纽约等复杂路网下,也展示出突出的性能。

  2. Colossal-AI 团队全面开源全球首个类 Sora 架构视频生成模型 「Open-Sora 1.0」,涵盖了整个训练流程,包括数据处理、所有训练细节和模型权重,携手全球 AI 热爱者共同推进视频创作的新纪元。

  3. 3 月 18 日凌晨,马斯克旗下大模型公司 xAI 宣布正式开源 3140 亿参数的混合专家(MoE)模型「Grok-1」,以及该模型的权重和网络架构。这也使得 Grok-1 成为当前参数量最大的开源大语言模型。

应用探索

产品新应用/功能

  1. 3 月 17 号,云阙智能在“京师大模型传播应用系统第二期发布暨大模型垂直应用论坛”中正式发布了其创新自主研发的大模型垂直应用——“云阙 AI”。该平台具备多模态、跨媒体、全场景的 AIGC 内容营销能力,旨在赋能企业和超级个体在数字化和智能化转型过程中实现战略升级,并提供综合全面的 AIGC 专业培训、技术工具及营销解决方案。

  2. 月之暗面 Kimi 模型经过升级,目前提供了一个 200 万字的窗口版,用户可以申请使用。在与 Kimi 对话的过程中,新增加了一个“继续”功能按钮,旨在不打断模型的思路,以改善交互体验。

  3. 通义听悟上新了 AI 音视频问答助手“小悟”,在业界首次支持了单记录、跨记录、多语言超长音视频自由提问。对于用户上传的视频文件短时间内便可以一键提取出关键词、全文概要以及自动划分好章节,还有要点回顾等,甚至连 PPT 都可被提取出来。而且,它不仅能够根据音视频记录对用户提出的问题给出答案,还会在最后标出引用出处以及对应时间戳,点击时间戳就能自动跳转到原视频对应位置。

  4. HeyGen 已经发布了其最新的 5.0 版本,这一版本将所有功能进行了整合,为用户提供了更加便捷的体验。为了满足用户对于高效、智能的需求,新版本在用户界面、视频编辑和实时聊天等方面都进行了全面的升级,此次升级无疑将进一步强化 HeyGen 在相关领域的领先地位。

  5. Magnific AI 的照片风格化功能已经正式推出。这个全新的功能可以把你的任何照片转换成你想要的任何风格。无论是想改变任何图像,你都可以轻松控制传输的样式数量和结构完整性,为 3D、视频游戏、室内设计、娱乐等多个领域提供了无限的应用可能。

  6. Pipio 公司推出了一款创新的视频自动 AI 配音工具,该工具能够将视频中的声音翻译成其他语言,并克隆视频原声进行自动配音,同时保持翻译配音后的声音和翻译语言口型一致。

  7. 知名图片资源平台 Freepik 推出了一款名为 Reimagine AI 的革新性工具,该工具以其独特的实时无限滚动生成图像功能,为图片处理领域注入了全新的活力。其能够自动为用户上传的图片生成提示词,无需手动输入文字。这一功能的实现,极大地简化了用户的操作流程,使得图片处理变得更加便捷。

  8. 3 月 20 日,“2024 知乎发现大会”成功在京举办,会上知乎正式发布了全新 AI 功能“发现·AI 搜索”。该功能以社区可信赖内容为来源,给用户带来集新搜索、实时问答和追问功能于一体的全新体验。

  9. 3 月 21 日,百度智能云在北京发布 5 款领先的大模型和 55 个全新工具组件,展现其在人工智能领域的创新实力。这些大模型精度更高、适应性更强,为企业提供了强大的智能支持。同时,新工具组件的上线也丰富了平台功能,为用户提供一站式解决方案,推动人工智能技术的更广泛应用。

智能体

  1. 清华叉院高阳教授机器人研究团队在最新的研究《CoPa: General Robotic Manipulation through Spatial Constraints of Parts with Foundation Models》中提出的具身智能框架 CoPa 首次实现了多场景、长程任务、复杂 3D 行为的泛化能力。CoPa 不仅可以深入理解用户需求的同时,还可以精确地操作物体,完成例如冲咖啡、插花等任务。

  2. 3 月 16 日,DeepMind 公布了其在人工智能领域的一项重大突破:SIMA。这是一种通用 AI 智能体,能够在多种 3D 虚拟环境中根据自然语言指令执行任务。SIMA 包括一个为精确图像-语言映射而设计的模型,以及一个视频模型。SIMA 仅需要屏幕上的图像和用户提供的简单自然语言指令,就能操控游戏中的角色完成指令。

终端 AI

  1. 3 月 18 日晚的春季旗舰新品发布会上,荣耀公布了其 AI 使能的全场景战略,并推出了多款新产品。其中荣耀还首次发布了 AI PC 产品—荣耀 MagicBook Pro 16。这款笔记本电脑集成了多项 AI 技术,如 AI 智慧搜索、荣耀 OS Turbo 3.0 技术和荣耀 LINK Turbo 技术,以及 AI 文档总结功能,旨在全方位提升用户体验。

  2. 美东时间 3 月 21 日周四,生成式 AI 领军的微软将由 OpenAI 大模型加持 Copilot 功能引入整个产品组合,从 Microsoft 365 到 Microsoft Teams、Edge,现在是 100% 整合进了 Windows 系统本身,可以说只要你有电脑,就能用得上。

基础设施   

芯片

  1. 在年度 GTC 会议上,英伟达首席执行官黄仁勋宣布推出基于 Blackwell 架构的 B200 系列和 GB200 芯片。B200 拥有 2080 亿个晶体管,足以支持包含多达 10 万亿个参数的 AI 模型。值得注意的是,Blackwell B200 并非传统意义上的单一 GPU,而是由两个紧密耦合的芯片组成,以确保其能够作为单个完全一致的芯片正常运行。

  2. 高通已经正式发布了全新的生成式 AI 手机芯片——骁龙 8s Gen 3。这款芯片的定位仅次于最顶级的旗舰产品,但其 AI 性能并未有所减弱。它能够支持在端侧运行拥有 100 亿参数的大型模型,这与骁龙 8 Gen 3 的配置完全相同。此外,它还有能力运行 Baichuan-7B、Google Gemini Nano、Llama2 和 ChatGLM 等多种模型。

算法

  1. 来自北京大学林宙辰教授团队在论文《Hebbian Learning based Orthogonal Projection for Continual Learning of Spiking Neural Networks》中提出了一种新的基于赫布学习的正交投影的连续学习方法,其通过神经网络的横向连接以及赫布与反赫布学习,以神经形态计算的方式提取神经元活动的主子空间并对突触前神经元的活动迹进行投影,实现了连续学习中对旧知识的保护。

  2. Maisa 推出了一种名为 KPU 的新型技术框架,旨在通过分离推理和数据处理来优化和提升大语言模型处理复杂任务的能力。使用 KPU 后,GPT-4、Claude 3 Opus 等模型在多个基准测试和推理任务中的表现得到了显著提升,甚至超越了未使用 KPU 的原模型。

  3. 在 2024 年的游戏开发者大会(GDC)上,腾讯发布了一款自主研发的游戏 AI 引擎,名为 GiiNEX。这款引擎基于生成式 AI 和决策 AI 技术,能够支持游戏从研发到运营的全生命周期需求。具体来说,无论是 AI NPC 的对话生成,还是场景制作中的 3D 城市建造,以及剧情、关卡、音乐等内容生成,GiiNEX 都能覆盖,并且效率非常高。


除了每周的动态更新,InfoQ 研究中心也将以季度为周期,发布《大模型季度监测报告》,跟踪大模型行业的最新动态和相关产品测试。

《2023 年第 4 季度中国大模型季度监测报告》预计将于 2024 年 3 月底正式发布,届时还将发布文生图产品大测评。本次文生图产品测评将基于实体对象、风格能力、细节难点和中文特色四大维度展开,欢迎大家持续关注。


公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2024-03-25 14:002925

评论

发布
暂无评论

拒绝成为红利本身!华为云这款轻量应用服务器助力企业吃透红利

平平无奇爱好科技

杭州悦数出席 2023 云栖大会计算巢专场,分享云上最佳实践

悦数图数据库

数据库 图数据库 悦数 杭州悦数

cad2024 mac版更新 最新AutoCAD 2024中文破解版下载

iMac小白

多个云平台,撑着零售消费企业们向上爬坡中

ToB行业头条

彻底远离职场“噩梦”!华为云这款轻量应用服务器保住IT打工人饭碗

平平无奇爱好科技

HarmonyOS NEXT如何解决不同多媒体技术开发难题

Geek_2d6073

一个工具让你明白“万丈高楼平地起”,拒绝重复造轮子!

伤感汤姆布利柏

编程 程序员 前端 低代码

人工成本高企?华为云耀云服务器L实例打通企业网站开发最后堵着

YG科技

如何获取item_search_guang API中与“爱逛街”相关的API接口?

技术冰糖葫芦

API 文档

Vinted、PoshMark、Carousell这些海外二手跨境电商平台如何运营?

Geek_ccdd7f

悦数图数据库 v3.6.0 发布:支持 Zone 管理,提升业务安全性和连续性

悦数图数据库

图数据库 悦数 杭州悦数

PDF Expert for mac(pdf编辑工具) v3.7.1永久激活版

mac

PDF Expert 苹果mac Windows软件 PDF编辑和阅读工具

pdf增强插件Enfocus PitStop Pro 2020 for Mac下载

iMac小白

OmniGraffle Pro for mac(思维导图软件)v7.22.4激活版

mac

苹果mac Windows软件 OmniGraffle Pro 图形设计工具

从小白到大神丨快收藏华为云这款小程序开发进阶秘籍!

平平无奇爱好科技

如何在淘宝的item_search_seller API中获取店铺列表?

技术冰糖葫芦

API 文档

idea如何新建一个多模块的springCloud项目

javaNice

Java SpringCloud

CleanMyMac X for mac下载 优化清理软件

iMac小白

剧情继续:马斯克曝出OpenAI前员工举报信,董事会与奥特曼谈判回归

Openlab_cosmoplat

和鲸携手暨大经管,为复合型、应用型数据人才培养工作提供最佳实践

ModelWhale

人工智能 数据分析 经管 交叉学科 暨南大学

IT打工人避雷针!华为云这款轻量应用服务器是网站开发“神器”

YG科技

火山引擎ByteHouse:如何优化ClickHouse物化视图能力?

字节跳动数据平台

数据库 大数据 云原生

低代码:数字化转型趋势下的快速开发方式

互联网工科生

低代码 数字化

公司网站建设缺资金缺人手,华为云耀云服务器L实例解困分忧

平平无奇爱好科技

为中小企业发展按下“提速键”,华为云这款轻量应用服务器成双11爆款

YG科技

小程序开发“巨坑”多,华为云这款轻量应用服务器轻松避坑

YG科技

JD-GUI 反编译jar包

javaNice

Java

引爆双11消费新热潮!华为云高性能轻量应用服务器“C位”耀眼

平平无奇爱好科技

干货丨小程序开发秘籍,华为云这款服务器才是真香系列

YG科技

跨境选品工具推荐|这些选品神器,跨境卖家都在用!

Geek_ccdd7f

阿里云崩溃损失大?华为云耀云服务器L实例为企业保驾护航

YG科技

鲶鱼效应显著!Sora发布满月,多模态领域成果丰硕 | 大模型一周大事_生成式 AI_InfoQ研究中心_InfoQ精选文章