写点什么

DeepSeek 除夕炸场!发布开源多模态大模型,击败 OpenAI DALL-E 3

  • 2025-01-28
    北京
  • 本文字数:1017 字

    阅读完需:约 3 分钟

大小:505.87K时长:02:52
DeepSeek除夕炸场!发布开源多模态大模型,击败OpenAI DALL-E 3

这个除夕,所有的聚光灯理应给到 DeepSeek。


刚刚,人工智能社区 Hugging Face 显示,DeepSeek 刚刚发布了开源多模态人工智能(AI)模型 Janus-Pro,这是一款基于 DeepSeek-LLM-1.5b-base 和 DeepSeek-LLM-7b-base 构建的模型。在这系列模型中,Janus-Pro-7B 在 GenEval 和 DPG-Bench 基准测试中击败了 OpenAI 的 DALL-E 3 和 Stable Diffusion。



GitHub 项目地址:https://github.com/deepseek-ai/Janus?tab=readme-ov-file

HuggingFace 项目地址:https://huggingface.co/deepseek-ai/Janus-Pro-1B


据悉,Janus-Pro 是一种创新的自回归框架,旨在统一多模态理解与生成任务。它通过将视觉编码解耦为独立的路径,同时仍采用单一的统一 Transformer 架构进行处理,从而解决了以往方法的局限性。这种解耦不仅缓解了视觉编码器在理解与生成任务中的角色冲突,还增强了框架的灵活性。值得一提的是,Janus-Pro 超越了以往的统一模型,还在性能上媲美甚至超越了针对特定任务设计的模型。


Janus-Pro 的发布在网上引发了轩然大波,但也有网友认为,Janus-Pro 虽然在基准测试中赢了 DALL-E 3,但基准测试毕竟不等于实际应用,DPG-Bench 看重生成质量和理解能力,实际用起来效果还得看落地表现。



具体来说,Janus-Pro-7B 在多模态理解基准 MMBench 上取得了 79.2 的分数,超越了 Janus (69.4)、TokenFlow (68.9)等最先进的统一多模态模型,和 MetaMorph (75.2)。此外,在文本到图像指令跟踪排行榜 GenEval 中,Janus-Pro-7B 得分为 0.80,优于 Janus (0.61)、DALL-E 3 (0.67) 和 Stable Diffusion 3 Medium(0.74)。



Janus-Pro-7B 在 GenEval 上获得了 80% 的总体准确率,这优于所有其他统一或仅生成的方法,例如 Transfusion (63%) SD3-Medium (74%) 和 DELLE-E 3 (67%)。这表明我们的方法具有更好的指令跟踪能力。另外,Janus-Pro 在 DPG-Bench 上获得了 84.19 的分数,超过了所有其他方法。这表明 Janus-Pro 擅长遵循密集的指令来生成文本到图像。


在多模态理解方面,它使用 SigLIP-L 作为视觉编码器,支持 384x384 的图像输入。在图像生成方面,Janus-Pro 使用了来源于此的分词器(tokenizer),其下采样率为 16。


但值得一提的是,由于太过火爆,DeepSeek 现在已经限制国外新用户注册了,海外用户需要购买虚拟账号注册方能使用。


DeepSeek 在其官方公告中表示:近期 DeepSeek 线上服务受到大规模恶意攻击,为持续提供服务,暂时限制了+86 手机号以外的注册方式已注册用户可以正常登录,感谢理解和支持。


最后,祝大家新春快乐!

2025-01-28 09:5120507
用户头像
李冬梅 加V:busulishang4668

发布了 1145 篇内容, 共 763.7 次阅读, 收获喜欢 1281 次。

关注

评论

发布
暂无评论

NUCLEO-L432KC实现GPIO控制(STM32L432KC)

不脱发的程序猿

嵌入式 stm32 单片机 NUCLEO-L432KC STM32L432KC

六一儿童节,看我用ModelArts让8090梦回童年

华为云开发者联盟

AI 美食 童年 modelarts 六一

模块五总结

竹林七贤

人生算法:涌现,在自己身上发挥群体智慧

石云升

读书笔记 6月日更

全球案例 | 一家财富500强公司利用 Jira 和 Jira Align 将万人级团队的生产力提高了 30%

Atlassian

管理 DevOps 敏捷 Jira 协同办公

Python3 Note __slots__

awen

Python slots

用敏捷扑克做需求评审的3大优势,你get了吗?

LigaAI

高效工作 团队管理 产品思考

计算机视觉常用图像数据集标记平台

不脱发的程序猿

人工智能 计算机视觉 图像处理 图像数据集标记平台

BoCloud博云微服务平台3.0正式发布:让微服务转型路径更清晰

BoCloud博云

微服务

数字人民币有望为全球贸易结算开辟新视窗

CECBC

工业制造业在数字化时代的三大发展方向

CECBC

Android studio 在外置硬盘运行项目报.lock 的错误

三爻

flutter android Mac Android Studio

mPaaS 月度小报 | 应用上线前都应该检查哪些指标?CodeHub#5回顾:小程序容器加持下的技术架构“提质增效”

蚂蚁集团移动开发平台 mPaaS

小程序 移动开发 mPaaS

因为一个字符校对问题,我的大厂面试挂了

华为云开发者联盟

MySQL 字符 字符校对 语句 MySQL5.7

安迈云首席战略官于晓晖:去中心化云计算构建Web3.0世界

DT极客

实现接口幂等性的四种方案!

李阿柯

面试 编程之路 幂等性

Serverless over Storage

焱融科技

云计算 容器 云原生 高性能 文件存储

从VMWare安装到Nginx配置

wildpig

nginx vmware Centos 7

Python3 Note 函数注解

awen

Python Function 函数注解

“图发展”与“保安全”:大数据今后怎么玩?

CECBC

【LeetCode】包含min函数的栈Java题解

Albert

算法 LeetCode 6月日更

☕️【Java技术之旅】深入学习JIT编译器实现机制(原理篇)

码界西柚

Java 编译器 JIT 6月日更

净筹6亿美元:微盟正在加速拉开差距

ToB行业头条

SaaS 微盟

GitHub上收录400余篇任正非的讲话稿

不脱发的程序猿

GitHub 开源 程序人生 任正非讲话

个推CTO谈数据中台(上):从要求、方法论到应用实践

个推

大数据 数据中台 数字化转型 数据智能

Python3 Note 对象初始化

awen

Python 生命周期 对象初始化

苏州源控电子科技怎么样?名副其实的行业新星

Geek_8a195c

一文带你认识队列数据结构

华为云开发者联盟

Java 数据结构 数组 队列

智慧工厂VR拆解零件——3D虚实现实可视化系统

一只数据鲸鱼

数据可视化 工业互联网 vr 智慧工厂 零件拆解

六一限定,致每一个追光者

白洞计划

webRTC探索音视频的录制的实现

云小梦

JavaScript WebRTC 浏览器API

DeepSeek除夕炸场!发布开源多模态大模型,击败OpenAI DALL-E 3_生成式 AI_李冬梅_InfoQ精选文章