写点什么

最大参数 300 亿!阶跃星辰与吉利联合开源两款多模态大模型

  • 2025-02-19
    北京
  • 本文字数:1533 字

    阅读完需:约 5 分钟

大小:822.07K时长:04:40
最大参数300亿!阶跃星辰与吉利联合开源两款多模态大模型

2025 年 2 月 18 日,阶跃星辰和吉利汽车集团联合宣布,将双方合作的阶跃两款 Step 系列多模态大模型向全球开发者开源。其中,包含目前全球范围内参数量最大、性能最好的开源视频生成模型阶跃Step-Video-T2V,以及行业内首款产品级开源语音交互大模型阶跃Step-Audio。即日起可在跃问 APP 内体验。

 

吉利汽车集团 CEO 淦家阅表示:“吉利致力成为智能汽车 AI 科技的引领者和普及者,早在 2021 年,吉利就围绕芯片、软件操作系统、数据和卫星网搭建了端到端的自研体系和生态联盟,构建了完善的‘智能吉利科技生态网’,驱动用户在智能驾驶、智能座舱上的体验不断进化。目前,吉利全栈自研的星睿 AI 大模型已经与阶跃 Step-Video-T2V、Step-Audio 等大模型完成了深度融合,将为用户带来更智能、更高阶的座舱交互与智驾出行体验,推动 AI 科技在智能汽车领域的普及。”

 

据了解,这也是阶跃星辰首次开源其 Step 系列基座模型。阶跃星辰创始人、CEO 姜大昕博士表示:“阶跃星辰一直以实现 AGI 为目标坚持研发基座大模型。我们深知 AGI 的实现离不开全球开发者的共同努力,开源的初心,一方面是希望跟大家分享最新技术成果,为开源社区贡献一份力量;另一方面,我们相信多模态模型是实现 AGI 的必经之路,但目前尚处于早期阶段,期待与社区开发者集思广益,共同拓展模型技术边界,并推动产业落地。”

阶跃 Step-Video-T2V:300 亿参数,可直接生成高分辨率视频


阶跃 Step-Video-T2V 是目前全球范围内参数量最大、性能最好的开源视频生成大模型。阶跃 Step-Video-T2V 模型的参数量达到 300 亿,可以直接生成 204 帧、540P 分辨率的高质量视频,这意味着能确保生成的视频内容具有极高的信息密度和强大的一致性。

 

从生成效果来看,阶跃 Step-Video-T2V 在复杂运动、美感人物、视觉想象力、基础文字生成、原生中英双语输入和镜头语言等方面具备强大的生成能力,且语义理解和指令遵循能力突出,能够高效助力视频创作者实现精准创意呈现。用户可以在跃问网页端和跃问 App 上体验阶跃 Step-Video-T2V 的视频生成能力 。

 

为了对开源视频生成模型的性能进行全面评测,阶跃星辰还发布并开源了针对文生视频质量评测的新基准数据集 Step-Video-T2V-Eval。该测试集包含 128 条源于真实用户的中文评测问题,旨在评估生成视频在运动、风景、动物、组合概念、超现实、人物、3D 动画、电影摄影等 11 个内容类别上质量。



Step-Video-T2V-Eval 评测结果

 

评测结果显示,阶跃 Step-Video-T2V 的模型性能在指令遵循、运动平滑性、物理合理性、美感度等方面的表现,均显著超过市面上既有的效果最佳的开源视频模型。

 

据了解,目前在跃问网页端和跃问 App 上,都可以体验 阶跃 Step-Video-T2V 的视频生成能力 。

阶跃 Step-Audio:业内首款产品级开源语音交互模型

据阶跃星辰介绍,这款阶跃 Step-Audio 是行业内首个产品级的开源语音交互模型,能够根据不同的场景需求生成情绪、方言、语种、歌声和个性化风格的表达,能和用户自然地高质量对话。模型生成的语音具有超自然、高情商等特征,同时也能实现高质量的音色复刻并进行角色扮演,满足影视娱乐、社交、游戏等行业场景下应用需求。



在 LlaMA Question、Web Questions 等 5 大主流公开测试集中,阶跃 Step-Audio 模型性能均高于行业内同类型开源模型,取得了最高得分。阶跃 Step-Audio 在 HSK-6(汉语水平考试六级)评测中的表现尤为突出,是更懂中国话的开源语音交互大模型。



StepEval-Audio-360 基准测试


此外,由于目前行业内语音对话测试集相对缺失,阶跃星辰自建并开源了多维度评估体系 StepEval-Audio-360 基准测试,从角色扮演、逻辑推理、生成控制、文字游戏、创作能力、指令控制等 9 项基础能力的维度对开源语音模型进行全面测评。通过人工横评后的结果显示,阶跃 Step-Audio 的模型能力十分均衡,且在各个维度上均超过了此前市面上效果最佳的开源语音模型。


2025-02-19 09:484837
用户头像
李冬梅 加V:busulishang4668

发布了 1125 篇内容, 共 741.8 次阅读, 收获喜欢 1269 次。

关注

评论

发布
暂无评论

怎么进大厂?166位Java工程师的大厂面试经验分享

北游学Java

Java 面试 大厂

2021年5月国产数据库排行榜:“华为高斯模式”取得成功,阿里OPA持续攀升

墨天轮

数据库 dba tdsql TiDB Gauss DB

新思科技发现开源安全、许可证合规性和维护问题依然很普遍

InfoQ_434670063458

新思科技 OSSRA 开源安全

阿里出品还是香,这份Redis笔记”从头到尾,全是精华

Java架构师迁哥

手把手 Golang 实现静态图像与视频流人脸识别

天黑黑

音视频 人脸识别 Go 语言

Spring Cloud Bus 消息总线介绍

阿里巴巴云原生

Java 微服务 云原生 中间件 数据格式

我崩溃了!BTAJ面试有关散列(哈希)表的面试题详解,电子版已问世

欢喜学安卓

android 程序员 面试 移动开发

来了,Anolis OS 8.2 正式版首发!100% 兼容 CentOS 8

阿里云基础软件团队

官宣:恭喜 ChaosBlade 项目进入 CNCF Sandbox

阿里巴巴云原生

容器 云原生 k8s 监控 Go 语言

Apache Flink Meetup 北京站,1.13 新版本发布 x 互娱场景实践分享的开发者盛筵!

Apache Flink

大数据 flink

客户营销:4P理论

石云升

创业 营销 职场经验 5月日更

云图说|不要小看不起眼的日志,“小日志,大作用”

华为云开发者联盟

运维 日志 云日志服务 安全监控审计

数据采集之js自定义采集

大数据技术指南

大数据

更灵活的边缘云原生运维:OpenYurt 单元化部署新增 Patch 特性

阿里巴巴云原生

容器 运维 云原生 中间件 边缘计算

论好文章和烂文章

阿里巴巴云原生

程序员 开发者 云原生 写作技巧 成长与思考

数据库学习笔记

lenka

5月日更

Newtonsoft.Json的使用整理

happlyfox

json netcore 5月日更

教你两招,轻松搞定html页面导出为pdf文件

麦洛

Java PDF wkhtmltopdf html2canvas

再次荣获最受观众喜爱奖

Serverless Devs

阿里云 云原生 cncf #Serverless

BIP研发课堂:领域、单据类型、交易类型

paraboy1

MapReduce排序以及序列化

五分钟学大数据

大数据 hadoop mapreduce

为啥你写的代码总是这么复杂?

华为云开发者联盟

软件 代码 代码注释 bug 复杂度

如何做一场高质量的分享

阿里巴巴云原生

深度学习 开发者 云原生 分享

阿里开源的“SpringCloudAlibaba笔记”这么细节的吗?真秀!

Java架构师迁哥

高性能JavaScriptの笔记(一)

空城机

JavaScript 性能优化 大前端 5月日更

打破思维定式(七)

Changing Lin

5月日更

Linux C/C++ 学习路线总结!助我拿下腾讯offer

赖猫

后台开发 C/C++ Linux服务器开发

阿里开源的“高并发设计笔记”就这水平!?我反正是跪着看完的

Java架构师迁哥

不要盲目跟风:中小企业运营自媒体需三思而后行

石头IT视角

堪称完美!淘宝内部百亿级Java高并发系统架构设计PDF手册分享

Java架构追梦

Java 架构 高并发 淘宝网 亿级架构设计

Fedora 34成哑巴了?

吴脑的键客

fedora

最大参数300亿!阶跃星辰与吉利联合开源两款多模态大模型_生成式 AI_李冬梅_InfoQ精选文章