写点什么

MiniMax 视频生成模型首秀!闫俊杰:大模型的研发核心是“快”

  • 2024-09-11
    北京
  • 本文字数:2936 字

    阅读完需:约 10 分钟

大小:1.42M时长:08:16
MiniMax 视频生成模型首秀!闫俊杰:大模型的研发核心是“快”
00:00 / 00:00
    1.0x
    • 3.0x
    • 2.5x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00


    上面是 MiniMax 最新推出的视频模型 video-01 生成的效果。“这只是我们的第一版,很快还会有更新的版本。” MiniMax 创始人闫俊杰说道。


    在 MiniMax 内部,多模态已经是一件非常确定的事情了。


    “在人类社会,大模型的核心意义是做更好的信息处理,而大部分的信息体现在多模态内容里,而非文字上,文字很多时候只是其中精华的一小部分。”闫俊杰解释道。


    “为了有非常高的用户覆盖度和使用深度,唯一的办法就是能够输出动态的内容,而非只输出单纯的文字内容,这是一个非常核心的判断。”用户的渗透率和使用深度是闫俊杰这次创业非常关注的事情。在他看来,这两点是达成“Intelligence with Everyone”的核心,也是 MiniMax 的差异化能力。


    用户方面,MiniMax 已经有了不错的成绩。据统计,MiniMax 每日与全球用户进行超 30 亿次交互,处理超 3 万亿文本 token、2000 万张图片和 7 万小时语音,大模型日处理交互量排名国内 AI 公司首位。


    但在视频生成赛道,MiniMax 的发布算不上早。闫俊杰对此的解释是,“我们在解决一个更难的技术问题:如何能够原生地训练算力比较高的东西。”


    具体来说,首先,训练视频生成能力时也需要先把视频变成一些 token,视频变成的 token 非常长,越长复杂度就越高,MiniMax 团队要做的就是在算法上把复杂度降低、压缩率变得更高。


    其次,视频还很大,比如 5 秒的视频有几兆,而 5 秒看到的文字可能不到 1K,这是千倍的存储差距。因此,之前基于文本模型的基础设施,对视频模型来说是不适用的,这意味着要对基础设施进行升级。


    “一两周新的东西出来,并达到我们更加满意的状态后,可能会考虑商业化。”闫俊杰表示。


    “能带来数倍提升的技术才值得投入研发”


    视频生成模型的研发更让闫俊杰坚定了一件事:无论是视频、文本还是声音,核心都不是让一个算法带来 5%、10% 的提升,重要的是找到提升数倍的方式,如果能够提升数倍就一定要做出来,如果只提升 5% 就不太值得做。


    “从读书、工作,到现在创业,我对技术的理解慢慢变得非常简单,就是第一性原理。技术,特别是有很大研发投入的技术,追求的不应该是 10% 的提升,如果一个技术的提升只有 10%,那这个技术就不应该做,原因是你不做也会有人做或有人开源出来,其实根本不需要自己研发。”闫俊杰对 InfoQ 表示。


    “对创业来说,一块钱掰成几份来花是非常难的。像我们这样的创业公司,真正应该花钱做的研发是那种能够带来几倍变化的技术,这种东西很多时候如果我们自己不做,外面也没有,但对满足用户的需求又很重要,只能自己来做,这样的才是核心的东西。”闫俊杰说道。


    那么,MiniMax 做大模型的核心是什么?


    闫俊杰的答案是:快 = 好。


    在率先判断出 MoE 技术路线后,MiniMax 又推出基于 MoE+ Linear Attention 的新一代模型技术。通过此新型线性模型架构,MiniMax 大模型能在单位时间内更加高效地训练海量数据,极大地提升了模型的实用性和响应速度。



    MiniMax 与 GPT-4o 同一代模型能力进行对比发现,新一代模型处理 10 万 token 时效率可提升 2-3 倍,并且随着长度越长,提升越明显。相比于通用 Transformer 架构,在 128K 的序列长度下,新架构成本减少 90% 以上。


    “不管是做 MoE、Linear attention 还是其他的,本质上是让同样的效果模型变得更快,快才意味着同样的算力可以做得更好,这是我们最底层的研发思路。”闫俊杰说道。


    “从实际应用上,就像我们肯定不希望星野的 NPC 只能记住最近 8000 字的内容,这对用户的体验损伤比较大,如果能 Scale 到 8 万字、80 万字、800 万肯定能做出更不一样的产品。” MiniMax 技术总监韩景涛补充道。


    “产品不赚钱是技术不够好”


    目前,MiniMax 在国内 C 端的主打产品是星野和海螺 AI。


    “当一个产品没人用或者不赚钱的时候,肯定不能怪用户,大部分时候只能怪自己的技术做得不够好,或者产品做得不够好。”闫俊杰说道。


    因此,在闫俊杰看来,像基于 GPT-4 的 GPT Store 跑不通的根本原因,不是因为 Agent 的框架写得不够好,是因为模型本身不够好。“当前的模型没有很长的记忆、理解不了特别复杂的指令就会这样。”


    现在所有的模型错误率都是 20% 的量级,闫俊杰认为,真正发生变革的是有一个模型可以把错误率降低到个位数,这会让很多复杂的任务从“不可以”变得“可以”。


    “当技术做得不好的时候,所有东西都是问题,当技术做好了,似乎所有问题都被掩盖了。技术是一家科技公司的最核心的要素,我觉得我花了两年才意识到这件事。”闫俊杰说道。


    在闫俊杰看来,做技术是一件非常奢侈的事,这件事甚至只有创业的时候才会理解,因为做技术,可能会失败、投入也很大。当一个东西很奢侈时,很多时候就会想要不要走点捷径,比如不做技术,先把产品提升好等。


    “实践经验证明,走捷径的时候会被打脸。”闫俊杰笑道。


    目前,MiniMax 的商业化基本上分成两种模式:一是面向企业的开放平台,现在已经有两千多家的客户,包括互联网公司、传统企业等;二是在自有产品里设立广告机制进行变现。


    “现阶段,最重要的还不是商业化,是真正地对技术到达广泛可用的程度。”闫俊杰表示。


    对于国内市场,MiniMax 希望打造偏工具类的产品,比如会给海螺 AI 不断打磨出新的功能,直到产生了很强的用户粘性。“粘性构造起来后,我们才会考虑 ROI 和 Retention。这个飞轮转起来了,我们才会进行投放。”MiniMax 国际业务总经理盛静远表示。


    盛静远认为,这个 ROI 会有转起来的一天,但不是今天的产品形态。“作为一个普通消费者,今天的产品形态没有任何的忠诚度可言。它一收费我就可以换到另外一个产品,这个模式是不成立的。”


    但海外市场不太一样。海外企业更愿意付费,因此把技术做得细腻很重要。“对我们来讲现在技术完全到位了,更多是公司的精力和资源,以及怎么变现的问题。海外市场有一套自己的打法,会相对地比较 straightforward,变现也更快。”


    实际上,MiniMax 海外产品 Talkie 名气可能比国内产品更高。在全球知名风投机构 a16z 最新发布的《Top100 消费级生成式 AI 应用》移动应用榜单中,Talkie 位列 22 位。


    盛静远总结道,任何伟大的 2 C 产品都是基于人性的深入思考,另外则要考虑 AI 在高容错率的情况下可以做什么,并变成大众喜闻乐见的产品。


    结束语


    大模型领域的竞争依然在继续。闫俊杰表现得比较淡然,“这就是一个发展的客观规律,作为一家创业公司,如果我们在竞争中打不赢,那我们就应该被淘汰,其实也没有其他的选择。”


    在与大厂的竞争中,闫俊杰认为,要赢就要更快地看清非常底层的东西,“大公司开始跟你竞争时,就会意识到有些东西是没用的,因为那些东西大厂能做得比你强千百倍。我们能做的就是无限放大能让我们变强的事情:一是提升技术;二是跟用户共创,这两点非常关键的判断是需要长期积累的。”


    而对于国内的大模型价格战,闫俊杰认为确实非常大地提高了模型的调用量,本来认为大模型很贵的公司,包括很多传统的企业开始愿意使用大模型,因为成本低对出错的容忍度也会高一些。“正是激烈的竞争,推动了大家必须得把模型做好。一定阶段之后,大家会发现自己的模型在海外也有竞争力,比如东南亚等,至少目前已经在非英语国家的语种上跟 GPT 不相上下。”


    “我们看到乐观的一面,国内大模型的使用量确实在显著地增长,并且中国的模型在海外确实越来越具有竞争力,我觉得这是两个积极的变化。”闫俊杰说道。


    2024-09-11 18:347193

    评论

    发布
    暂无评论

    高难度对话读书笔记—求助的勇气

    wo是一棵草

    Redis 缓存性能实践及总结

    vivo互联网技术

    redis redis集群 redis监控

    格式化报文输出

    hasWhere

    揭秘App的财富密码,剖析算法工程师价值来源

    峰池

    人工智能 互联网 推荐算法 互联网公司

    学习思路

    hasWhere

    《我在你床下》观后感

    徐说科技

    CICD实战——服务自动构建与部署

    TARS基金会

    DevOps 后端 jenkins CI/CD TARS

    一文了解Zookeeper

    Java旅途

    kafka zookeeper 分布式

    栈与队列简介

    Java旅途

    数据结构 队列

    Java进阶教程、大厂面试真题、项目实战,GitHub上这14个开源项目屌炸天了!

    Java架构之路

    Java 程序员 面试 编程语言 项目实战

    TensorFlow 篇 | TensorFlow 2.x 基于 HParams 的超参数调优

    Alex

    tensorflow keras hparams tensorboard 超参数调优

    学习路线

    hasWhere

    数据提交

    hasWhere

    form表单提交get请求

    hasWhere

    阿里P8大牛力荐Java程序员进阶必读的书籍清单(附电子版)

    Java架构之路

    Java 程序员 面试 编程语言 书籍推荐

    实践案例丨利用小熊派开发板获取土壤湿度传感器的ADC值

    华为云开发者联盟

    物联网 IoT 传感

    java安全编码指南之:敏感类的拷贝

    程序那些事

    Java java安全编码 java安全 java安全编码指南

    架构师训练营第 1 期 第 2 周作业

    李循律

    极客大学架构师训练营

    《转》Spring事务传播机制

    hasWhere

    基于数组的有界阻塞队列 —— ArrayBlockingQueue

    程序员小航

    Java 源码 队列 源码阅读 JUC

    鸿蒙系统究竟是PPT秀还是有真材实料?鸿蒙HarmonyOS开发环境搭建与运行Demo

    软测小生

    华为 鸿蒙 HarmonyOS

    Http自定义请求头接收不正确

    hasWhere

    《转》POI的XWPFParagraph.getRuns分段问题

    hasWhere

    ARChatRoom功能介绍手册

    anyRTC开发者

    音视频 WebRTC 语音 RTC 安卓

    如何避免option请求

    hasWhere

    在多架构时代,英特尔扩展高性能计算边界

    E科讯

    解读华为云原生数据库设计原则,打破传统数据库上云瓶颈

    华为云开发者联盟

    数据库 数据

    清华架构师整理分布式系统文档:从实现原理到系统实现,收藏吧

    小Q

    Java 程序员 架构 分布式 微服务

    c++ 杂谈3

    菜鸟小sailor 🐕

    LeetCode题解:641. 设计循环双端队列,使用队列,JavaScript,详细注释

    Lee Chen

    大前端 LeetCode

    onblur调用alert导致的死循环

    hasWhere

    MiniMax 视频生成模型首秀!闫俊杰:大模型的研发核心是“快”_AI&大模型_褚杏娟_InfoQ精选文章