10 月 23 - 25 日,QCon 上海站即将召开,现在购票,享9折优惠 了解详情
写点什么

最大参数 300 亿!阶跃星辰与吉利联合开源两款多模态大模型

  • 2025-02-19
    北京
  • 本文字数:1533 字

    阅读完需:约 5 分钟

大小:822.07K时长:04:40
最大参数300亿!阶跃星辰与吉利联合开源两款多模态大模型

2025 年 2 月 18 日,阶跃星辰和吉利汽车集团联合宣布,将双方合作的阶跃两款 Step 系列多模态大模型向全球开发者开源。其中,包含目前全球范围内参数量最大、性能最好的开源视频生成模型阶跃Step-Video-T2V,以及行业内首款产品级开源语音交互大模型阶跃Step-Audio。即日起可在跃问 APP 内体验。

 

吉利汽车集团 CEO 淦家阅表示:“吉利致力成为智能汽车 AI 科技的引领者和普及者,早在 2021 年,吉利就围绕芯片、软件操作系统、数据和卫星网搭建了端到端的自研体系和生态联盟,构建了完善的‘智能吉利科技生态网’,驱动用户在智能驾驶、智能座舱上的体验不断进化。目前,吉利全栈自研的星睿 AI 大模型已经与阶跃 Step-Video-T2V、Step-Audio 等大模型完成了深度融合,将为用户带来更智能、更高阶的座舱交互与智驾出行体验,推动 AI 科技在智能汽车领域的普及。”

 

据了解,这也是阶跃星辰首次开源其 Step 系列基座模型。阶跃星辰创始人、CEO 姜大昕博士表示:“阶跃星辰一直以实现 AGI 为目标坚持研发基座大模型。我们深知 AGI 的实现离不开全球开发者的共同努力,开源的初心,一方面是希望跟大家分享最新技术成果,为开源社区贡献一份力量;另一方面,我们相信多模态模型是实现 AGI 的必经之路,但目前尚处于早期阶段,期待与社区开发者集思广益,共同拓展模型技术边界,并推动产业落地。”

阶跃 Step-Video-T2V:300 亿参数,可直接生成高分辨率视频


阶跃 Step-Video-T2V 是目前全球范围内参数量最大、性能最好的开源视频生成大模型。阶跃 Step-Video-T2V 模型的参数量达到 300 亿,可以直接生成 204 帧、540P 分辨率的高质量视频,这意味着能确保生成的视频内容具有极高的信息密度和强大的一致性。

 

从生成效果来看,阶跃 Step-Video-T2V 在复杂运动、美感人物、视觉想象力、基础文字生成、原生中英双语输入和镜头语言等方面具备强大的生成能力,且语义理解和指令遵循能力突出,能够高效助力视频创作者实现精准创意呈现。用户可以在跃问网页端和跃问 App 上体验阶跃 Step-Video-T2V 的视频生成能力 。

 

为了对开源视频生成模型的性能进行全面评测,阶跃星辰还发布并开源了针对文生视频质量评测的新基准数据集 Step-Video-T2V-Eval。该测试集包含 128 条源于真实用户的中文评测问题,旨在评估生成视频在运动、风景、动物、组合概念、超现实、人物、3D 动画、电影摄影等 11 个内容类别上质量。



Step-Video-T2V-Eval 评测结果

 

评测结果显示,阶跃 Step-Video-T2V 的模型性能在指令遵循、运动平滑性、物理合理性、美感度等方面的表现,均显著超过市面上既有的效果最佳的开源视频模型。

 

据了解,目前在跃问网页端和跃问 App 上,都可以体验 阶跃 Step-Video-T2V 的视频生成能力 。

阶跃 Step-Audio:业内首款产品级开源语音交互模型

据阶跃星辰介绍,这款阶跃 Step-Audio 是行业内首个产品级的开源语音交互模型,能够根据不同的场景需求生成情绪、方言、语种、歌声和个性化风格的表达,能和用户自然地高质量对话。模型生成的语音具有超自然、高情商等特征,同时也能实现高质量的音色复刻并进行角色扮演,满足影视娱乐、社交、游戏等行业场景下应用需求。



在 LlaMA Question、Web Questions 等 5 大主流公开测试集中,阶跃 Step-Audio 模型性能均高于行业内同类型开源模型,取得了最高得分。阶跃 Step-Audio 在 HSK-6(汉语水平考试六级)评测中的表现尤为突出,是更懂中国话的开源语音交互大模型。



StepEval-Audio-360 基准测试


此外,由于目前行业内语音对话测试集相对缺失,阶跃星辰自建并开源了多维度评估体系 StepEval-Audio-360 基准测试,从角色扮演、逻辑推理、生成控制、文字游戏、创作能力、指令控制等 9 项基础能力的维度对开源语音模型进行全面测评。通过人工横评后的结果显示,阶跃 Step-Audio 的模型能力十分均衡,且在各个维度上均超过了此前市面上效果最佳的开源语音模型。


2025-02-19 09:484969
用户头像
李冬梅 加V:busulishang4668

发布了 1156 篇内容, 共 774.3 次阅读, 收获喜欢 1284 次。

关注

评论

发布
暂无评论

关于京东技术,你想了解的都在这里丨征文活动获奖及优秀专栏推荐

京东科技开发者

京东 征文大赛

Kafka 发送消息过程中拦截器的用途?

李尚智

Java kafka 程序员 架构

使用V8和node轻松profile分析nodejs应用程序

程序那些事

性能优化 Profile nodejs 性能分析 程序那些事

IDEA永久注册码来了!!!(支持2020.3.1版本)

程序员生活志

IDEA

目前的区块链IPFS矿机模式交易系统开发的简单解析

v16629866266

终于搞懂了Python模块之间的相互引用问题

华为云开发者联盟

Python 路径 代码 模块

2021版阿里Java亿级并发设计手册:基础+数据库+缓存+消息队列+分布式+维护+实战

Java架构追梦

Java 阿里巴巴 面试 系统架构 亿级并发

浪潮云洲工业互联网平台创新实践,受权威机构关注!

工业互联网

一款基于 Web 的通用数据管理工具(转载)

BinTools图尔兹

数据库 运维 开发工具 dba 数据管理工具

【JS】事件委托

德育处主任

JavaScript 大前端 js 2月春节不断更

零基础实现Java直播(二):实现流程

ZEGO即构

架构师训练营大作业(二)

Geek_f06ede

2021年的十五个DevOps趋势预测

禅道项目管理

DevOps 微服务 自动化 趋势

程序员成长第四篇:程序员的职业天花板

石云升

28天写作 2月春节不断更 职场天花板

Elasticsearch 搜索结果解析

escray

elastic 七日更 死磕Elasticsearch 60天通过Elastic认证考试 2月春节不断更

【无偿分享】史上最全Python学习大礼包

sum56

Python 学习 学习方法 python 爬虫 资料整理

CSS开发过程中的20个快速提升技巧

华为云开发者联盟

CSS

深度集成 Flink: Apache Iceberg 0.11.0 最新功能解读

Apache Flink

flink

架构师训练营大作业

Geek_f06ede

电子书下载|2020 年云原生年货小红书来啦!

阿里巴巴云原生

容器 微服务 开发者 云原生 k8s

即构发布 LCEP 低代码互动平台产品 RoomKit,实现互动房间0代码搭建

ZEGO即构

图解分析:Kafka 生产者客户端工作原理

李尚智

Java 程序员 架构 kafak

怎么理解Kafka消费者与消费组之间的关系?

李尚智

Java 大数据 程序员 架构

天天向上跑分模式介绍开发

luluhulian

工业绿色哪家强?3D可视化盾构机构建隧道,推动设备预测性运维

一只数据鲸鱼

物联网 数据可视化 绿色交通 绿色工业 盾构机

使用logstash作为docker日志驱动收集日志

远鹏

Docker Logstash 日志系统

并发队列:PriorityBlockingQueue和DelayQueue案例使用

叫练

并发编程 队列 优先级队列 条件队列 并发队列

产品经理:一款用户全量会话轨迹管理产品是怎么炼成的?

博睿数据

redis分布式锁的这些坑,我怀疑你是假的开发

华为云开发者联盟

redis 分布式 分布式锁 服务器 value

长篇总结之JavaScript,巩固前端基础

我是哪吒

JavaScript 程序员 面试 大前端 2月春节不断更

看KubeEdge携手K8S,如何管理中国高速公路上的10万边缘节点

华为云开发者联盟

Kubernetes 微服务 kubeedge 边缘

最大参数300亿!阶跃星辰与吉利联合开源两款多模态大模型_生成式 AI_李冬梅_InfoQ精选文章