2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

DeepSeek 除夕炸场!发布开源多模态大模型,击败 OpenAI DALL-E 3

  • 2025-01-28
    北京
  • 本文字数:1017 字

    阅读完需:约 3 分钟

大小:505.87K时长:02:52
DeepSeek除夕炸场!发布开源多模态大模型,击败OpenAI DALL-E 3

这个除夕,所有的聚光灯理应给到 DeepSeek。


刚刚,人工智能社区 Hugging Face 显示,DeepSeek 刚刚发布了开源多模态人工智能(AI)模型 Janus-Pro,这是一款基于 DeepSeek-LLM-1.5b-base 和 DeepSeek-LLM-7b-base 构建的模型。在这系列模型中,Janus-Pro-7B 在 GenEval 和 DPG-Bench 基准测试中击败了 OpenAI 的 DALL-E 3 和 Stable Diffusion。



GitHub 项目地址:https://github.com/deepseek-ai/Janus?tab=readme-ov-file

HuggingFace 项目地址:https://huggingface.co/deepseek-ai/Janus-Pro-1B


据悉,Janus-Pro 是一种创新的自回归框架,旨在统一多模态理解与生成任务。它通过将视觉编码解耦为独立的路径,同时仍采用单一的统一 Transformer 架构进行处理,从而解决了以往方法的局限性。这种解耦不仅缓解了视觉编码器在理解与生成任务中的角色冲突,还增强了框架的灵活性。值得一提的是,Janus-Pro 超越了以往的统一模型,还在性能上媲美甚至超越了针对特定任务设计的模型。


Janus-Pro 的发布在网上引发了轩然大波,但也有网友认为,Janus-Pro 虽然在基准测试中赢了 DALL-E 3,但基准测试毕竟不等于实际应用,DPG-Bench 看重生成质量和理解能力,实际用起来效果还得看落地表现。



具体来说,Janus-Pro-7B 在多模态理解基准 MMBench 上取得了 79.2 的分数,超越了 Janus (69.4)、TokenFlow (68.9)等最先进的统一多模态模型,和 MetaMorph (75.2)。此外,在文本到图像指令跟踪排行榜 GenEval 中,Janus-Pro-7B 得分为 0.80,优于 Janus (0.61)、DALL-E 3 (0.67) 和 Stable Diffusion 3 Medium(0.74)。



Janus-Pro-7B 在 GenEval 上获得了 80% 的总体准确率,这优于所有其他统一或仅生成的方法,例如 Transfusion (63%) SD3-Medium (74%) 和 DELLE-E 3 (67%)。这表明我们的方法具有更好的指令跟踪能力。另外,Janus-Pro 在 DPG-Bench 上获得了 84.19 的分数,超过了所有其他方法。这表明 Janus-Pro 擅长遵循密集的指令来生成文本到图像。


在多模态理解方面,它使用 SigLIP-L 作为视觉编码器,支持 384x384 的图像输入。在图像生成方面,Janus-Pro 使用了来源于此的分词器(tokenizer),其下采样率为 16。


但值得一提的是,由于太过火爆,DeepSeek 现在已经限制国外新用户注册了,海外用户需要购买虚拟账号注册方能使用。


DeepSeek 在其官方公告中表示:近期 DeepSeek 线上服务受到大规模恶意攻击,为持续提供服务,暂时限制了+86 手机号以外的注册方式已注册用户可以正常登录,感谢理解和支持。


最后,祝大家新春快乐!

2025-01-28 09:5120714
用户头像
李冬梅 加V:busulishang4668

发布了 1205 篇内容, 共 828.9 次阅读, 收获喜欢 1312 次。

关注

评论

发布
暂无评论

WebGL开发医学影像软件中的优化

北京木奇移动技术有限公司

软件外包公司 数字孪生开发 webgl开发

智能制造:工业装备数字化端到端解决方案

积木链小链

数字化转型 智能制造 装备制造

YashanDB数据库删除

YashanDB

数据库 yashandb

Flutter & 鸿蒙 Next 封装 Dio 网络请求详解:登录身份验证与免登录缓存

淼.

Flutter 自定义组件继承与调用的高级使用方式

淼.

FreeBSD 13.5 x86_64 OVF (sysin) - VMware 虚拟机模板

sysin

freebsd

Flutter & 鸿蒙 Next 中的路由使用详解【基础使用】

淼.

<大厂实战经验> Flutter & 鸿蒙 Next 中使用 initState 和 mounted 处理异步请求的详细解析

淼.

YashanDB异构数据库链接配置

YashanDB

数据库 yashandb

NineData社区版抢先体验,获取无人机、双肩包、充电宝等周边福利

NineData

安装部署 SQL审核 无停机数据库迁移 NineData社区版 数据库变更

<大厂实战场景> ~ Flutter & 鸿蒙 Next 处理后端返回来的数据的转义问题

淼.

Flutter & 鸿蒙 Next 刷新机制的高级使用【衍生详解】

淼.

一组数据告诉您,企业AI为什么选用友BIP!

用友智能财务

创建云主机你不知道的那些事

天翼云开发者社区

云计算 云主机

智慧医院软件信息化建设方案,智慧医疗医院建设方案(PPTX)

金陵老街

智慧医疗 医疗信息化 智慧医院

荣耀远航计划丨【主题精品共创】激励解读

荣耀开发者服务平台

创作活动 荣耀HONOR 荣耀远航计划

DeepSeek接入MES系统AI赋能智能化生产

万界星空科技

制造业 mes 万界星空科技 生产管理MES系统 DeepSeek

YashanDB数据库删除

YashanDB

数据库 yashandb

YashanDB配置参数文件与密码文件管理

YashanDB

数据库 yashandb

Flutter & 鸿蒙版本数据处理常用总集

淼.

YashanDB控制文件管理

YashanDB

数据库 yashandb

个人微调大模型踩坑与记录

Z C C C L

人工智能 大模型 模型微调

.NET Core 中如何实现缓存的预热?

秃头小帅oi

FreeBSD 13.5 正式版发布 - 高性能开源 Unix 系统

sysin

freebsd

<大厂实战场景> ~ Flutter & 鸿蒙 Next 解析后端返回的 HTML 数据详解

淼.

批量创建云主机的整个过程

天翼云开发者社区

云计算 云主机

YashanDB SYSAUX表空间管理

YashanDB

数据库 yashandb

Flutter & 鸿蒙 Next 中如何实现 WebView【跳、显、适、反】等一些基础问题

淼.

黑龙江等保测评、消除“过等保”的隐形成本

黑龙江陆陆信息测评部

DeepSeek除夕炸场!发布开源多模态大模型,击败OpenAI DALL-E 3_生成式 AI_李冬梅_InfoQ精选文章