AI实践哪家强?来 AICon, 解锁技术前沿,探寻产业新机! 了解详情
写点什么

大模型“四虎”出山,亮相 4 月 QCon 北京站

  • 2025-03-03
    北京
  • 本文字数:2992 字

    阅读完需:约 10 分钟

大模型“四虎”出山,亮相4月QCon北京站

过去一年里,从激烈的“百模大战”中跑出了大模型“六小虎”——南有阶跃、北有智谱,此外还有月之暗面、百川智能、MiniMax、零一万物环伺。


进入 2025 年,随着 DeepSeek 的爆火出圈,大模型领域的硝烟显然只增不减。但不同企业的战略定位和落地模式也逐步呈现出了差异化。比如,被并称为“基模双雄”的阶跃星辰和智谱坚定地追求 AGI(通用人工智能),月之暗面和 MiniMax 的战略优先级是 C 端产品和应用,百川智能锚定医疗方向,零一万物也聚焦行业模型,拓展 to B 的数字人解决方案。


具体技术实践和产品落地进展如何?即将在 4 月 10 日-4 月 12 日举办的QCon全球软件开发大会北京站上,阶跃星辰、智谱、月之暗面、百川智能这大模型“四虎”将齐齐亮相,带来他们的最新技术成果。

阶跃星辰:SoTA 模型的技术创新与架构优势


多模态是阶跃星辰的最大特色。近日,阶跃星辰宣布开源了两款 Step 系列多模态模型——Step-Video-T2V 视频生成模型和 Step-Audio 语音交互模型。据透露,阶跃星辰还将在 3 月开源公司自研的图生视频模型。


在 QCon 北京站上,阶跃星辰 Tech Fellow 段楠将重点介绍 Step-Video,带来《Step-Video 开源模型:视频生成基础模型的最新进展、挑战与未来展望》的主题分享。围绕 Step-Video 系列开源模型,段楠将介绍视频生成基础模型的最新进展,包括文生视频和图生视频等任务。此外,本报告还将总结现有视频生成模型面临的主要挑战,并讨论未来可能的发展发向。


演讲提纲:

1. 视频生成背景和现状

  • 视频生成从简单的帧插值逐渐演变为复杂的多模态生成任务

  • 多模态融合(文本、图像、音频等)、大规模预训练模型的应用逐渐成为趋势

2. 视频生成 SoTA 模型:Step-Video

  • 技术亮点

  • 实验结果:性能对比、案例分析

  • 视频生成目前面临的挑战

3. 关于未来的讨论

  • 更强大的多模态融合

  • 实时生成

智谱 AI:大模型自主智能体的发展


智谱 AI 在 AI Agent 技术领域取得了一系列突破进展。比如去年 11 月发布的 AutoGLM 已经可以支持执行超过 50 步的复杂任务,支持跨应用操作和全自动上网功能;今年 1 月发布的最新的 AI 智能体“AgentGLM-PC1.1”,具备深度思考能力,能够生成思维链以拆解复杂任务,并通过代码机制提升推理能力;2 月上线的全新一代智能代理模型 GLM-PC 1.1,可以提供会议替身、文档处理、隐形屏幕等系统级功能,在复杂任务处理与多模态交互领域取得了新的技术突破。


在 QCon 北京站上,智谱 AI AutoGLM 部门负责人刘潇 将带来《大模型自主智能体的发展:以 Phone Use 和 Computer Use 智能体为例》的主题分享,介绍从 GPT-3 开始,大语言自主智能体的概念和发展的 3 个阶段,重点介绍第 3 阶段,即当前正在发展中的基于 GUI 和推理模型的大模型自主智能体。相比此前的对话智能体和基于 Workflow 的智能体,自主智能体将实现通用的智能代理能力,走出场景特化的局限性。报告将重点介绍 Phone Use 和 Computer Use 自主智能体的发展情况,比较这些方案的优劣,以及在实际例子上的表现,并且探讨接下来的大模型自主智能体发展的方向。


演讲提纲:

1. 引言

  • 大语言模型的崛起与能力背景

  • 自主智能体的定义与重要性

2. 大语言自主智能体的发展历程

  • 大模型智能体的第一/二阶段:


  • 基于非自主工具调用的大模型智能体

  • 基于系统提示和 Workflow 工具调用的大模型智能体(GPTs)

  • 系统提示与 Workflow 工具调用的原理

  • 实际应用案例与效果展示

  • 基于 GUI 和推理模型的大模型自主智能体(发展中)

  • 最新进展与技术亮点

  • GUI 和推理模型的集成方式

  • 当前阶段的挑战与解决方案

  • 初步应用与前景展望

3. 方案比较与实际表现

  • 三种方案的优劣对比

  • 在不同场景下的实际表现分析

  • 用户反馈与评价

4. 大模型自主智能体的发展方向

  • 技术趋势与未来展望

  • 潜在的应用领域与市场机会

  • 研究与发展的挑战与对策

月之暗面:大规模集群训推混部经验及框架侧优化


近日,月之暗面推出了全新的优化器 Muon,Scaling law 实验表明,与计算最优训练的 AdamW 相比,Muon 的计算效率提升了 2 倍。基于此,月之暗面还训练出了 3B/16B 参数的 混合专家模型(MoE)——Moonlight,训练数据量达 5.7T tokens。通过 Muon 优化器和 Moonlight 模型,月之暗面重新定义了高效训练与性能的平衡,同时在长文本处理领域提出创新架构。


在 QCon 北京站上,月之暗面系统工程师黄维啸将带来《月之暗面稳定高效的 LLM 基础设施构建之道》的主题分享,具体介绍月之暗面在训推混部集群中的实践经验,重点探讨如何快速定位并隔离故障,实现任务的高效恢复,从而提升系统整体稳定性。同时,黄维啸还将分享如何在资源有限的情况下最大化利用率,避免浪费,进一步将该思路应用于强化学习任务的训练中。


演讲提纲:

1. 大规模训练推理集群的挑战

  • 大规模集群中机器故障频率高,任务失败率高

  • 推理场景中的用户请求具备潮汐效应

  • 强化学习场景存在资源浪费情况

2. 提高训推混部集群稳定性和资源利用率

  • 任务检查点的高效存储和回复

  • 故障节点快速发现和隔离,提高训练可观察性,快速找到慢节点

  • 潮汐优先级调度,最大化提高资源利用率

3. 通过混合架构提高强化学习效率

  • 混合 Sidecar 部署架构

  • 训推任务高效切换

百川智能:大语言模型落地垂直领域的实践经验


百川智能近期的技术路线主要集中于全模态能力突破、医疗等垂直领域的深化及产业生态扩展,通过开源与产学研合作加速技术落地。3 月 2 日,百川开源了全模态模型 Baichuan-Omni-1.5,支持文本、图像、音频、视频的全模态理解及文本/音频生成,数据显示,在视觉、语音、多模态流式处理等场景其表现超过 GPT-4o mini,尤其在医疗多模态评测集(如 GMAI-MMBench、OpenMM-Medical)中大幅领先。


在 QCon 北京站上,百川智能研究小组负责人阎栋将带来《Learn to Reason : The way of Baichuan-M1-ClinicReasoning》的主题分享,从介绍合情推理开始,首先回顾强化学习视角下的大语言模型训练的数学基础,然后以 Deepseek R1 为例梳理大语言模型推理技术的发展,再介绍百川智能研究小组在训练大语言模型进行临床推理的实践,最后讨论如何继续提升模型能力的可能方向以及大语言模型与人类在智能上的差异表现。


演讲提纲:

1. 推理:真实世界中的合情推理

2. 序章:强化学习视角下的大语言模型训练

  • 在充满噪声的反馈回路下,带着镣铐学习跳舞

  • 模仿学习、演示学习和偏好学习

3. 脉络:大语言模型的推理技术的发展,以 Deepseek R1 为例

  • 少有人走的路:代码、数学和通用

  • R1-Zero 带来的启示:Test Time Scaling 和 SFT Seed

4. 临床:医疗的内生复杂性,推理能力 + 领域知识的临床推理范式

  • 临床推理范式:生成诊疗假设,继而通过检验检查数据进行假设证伪与排除,最终经由自反思机制对剩余假设进行概率排序,输出符合临床思维路径的诊疗建议

  • 基于 Monte-Carlo Tree Search 进行推理的几个问题:缺乏多样性、树结构退化以及无法利用前序探索路径

  • 临床推理中的 state 和 action 定义,以及基于此进行的 Process Reward Model 数据标注

  • 在没有 R1 的世界大杀四方,Recall “The Bitter Lesson"

5. 展望

  • 重谈场景的摩尔定律(杨植麟 vs 闫俊杰)

  • 大模型是否比我们更靠近终极真理?大模型智能与人类智能的差异表现


除了阶跃星辰、智谱、月之暗面、百川智能之外,还有来自百度、阿里、腾讯、华为、字节跳动、小红书、小米、美团、饿了么等企业的 100+资深专家将出席4月QCon北京站,聚焦大模型背景下的 AI 研发基础设施重构、工程生产力升级、组织管理创新、AI 搜索实践、大模型安全,以及多模态大模型及应用和技术人成长等话题进行议题分享。


更多议题内容可查看完整日程:https://qcon.infoq.cn/2025/beijing/schedule

2025-03-03 16:395668

评论

发布
暂无评论

企业搭建知识库的重要性,你了解多少?

Geek_da0866

华为发布IdeaHub S2系列,与华为云会议结合更强大!

科技怪咖

IPv6中的隧道技术

穿过生命散发芬芳

ipv6 8月月更 隧道技术

Kubernetes服务的注册与发现

CTO技术共享

签约计划第三季

沟通不受限,审批不堆积 深大智能通过华为云WeLink+OA实现办公提速

神奇视野

2022 Gartner RPA魔力象限,弘玑Cyclone位置飞跃国产RPA进击全球

王吉伟频道

RPA 机器人流程自动化 Gartner RPA魔力象限 弘玑Cyclone

网红50万卖微信号被判交易无效:如何监管互联网账号交易市场

石头IT视角

每日一R「10」数据结构(一)智能指针

Samson

8月日更 ​Rust

打造数字化工作平台,提升内外协同效率

神奇视野

如何用紧凑型语音表征打造高性能语音合成系统

小红书技术REDtech

深度学习 语音合成 自编码器 表征学习 语音表征

Kubernetes 核心组件

CTO技术共享

开源 签约计划第三季

“掌上迎新”,这个学校把5400+新生安排的明明白白

sofiya

沉浸感拉满!这样的电影杀约起来

科技云未来

华为云桌面说“流畅”的时候,究竟在说什么

科技云未来

微信小程序开发速览

乌龟哥哥

8月月更

用户权限-Linux系统用户管理

Albert Edison

Linux centos 运维 用户权限 8月月更

游族马寅龙:常见信息安全风险及应对方案

声网

网络安全 创业讲堂

华为云桌面说“高清”的时候,究竟在说什么

科技云未来

让视频会议更简单,华为云会议SmartRooms一站全搞定

sofiya

时尚品牌玛丝菲尔,选择华为云会议的3个理由

sofiya

创建知识库使您的客户能够体验自助服务

Geek_da0866

ITIL服务支持5个运营级流程简单介绍

阿泽🧸

ITIL 8月月更

云签约,云培训,云办公,云指挥… 欧冶工业品,用数字化赋能企业

sofiya

头脑风暴:最长重复子数组

HelloWorld杰少

2022各互联网大厂面经及总结+大厂Java岗面试真题解析(进大厂必看攻略)

程序知音

Java 程序员 Java 面试 后端技术 八股文

华为云会议智能会议室助力财通证券加速数字化

科技怪咖

RocketMQ高可用设计之异步刷盘

急需上岸的小谢

8月月更

Kubernetes Nginx配置热加载

CTO技术共享

开源 签约计划第三季

政企视频会议首选,华为云OneMeeting全场景视频会议解决方案正式发布

sofiya

3000人无缝连接,WeLink助力华荣科技全场景数字化办公

神奇视野

华为云会议,用高效联接推进工业企业数字化转型

sofiya

大模型“四虎”出山,亮相4月QCon北京站_AI&大模型_QCon全球软件开发大会_InfoQ精选文章