写点什么

DeepSeek 除夕炸场!发布开源多模态大模型,击败 OpenAI DALL-E 3

  • 2025-01-28
    北京
  • 本文字数:1017 字

    阅读完需:约 3 分钟

大小:505.87K时长:02:52
DeepSeek除夕炸场!发布开源多模态大模型,击败OpenAI DALL-E 3

这个除夕,所有的聚光灯理应给到 DeepSeek。


刚刚,人工智能社区 Hugging Face 显示,DeepSeek 刚刚发布了开源多模态人工智能(AI)模型 Janus-Pro,这是一款基于 DeepSeek-LLM-1.5b-base 和 DeepSeek-LLM-7b-base 构建的模型。在这系列模型中,Janus-Pro-7B 在 GenEval 和 DPG-Bench 基准测试中击败了 OpenAI 的 DALL-E 3 和 Stable Diffusion。



GitHub 项目地址:https://github.com/deepseek-ai/Janus?tab=readme-ov-file

HuggingFace 项目地址:https://huggingface.co/deepseek-ai/Janus-Pro-1B


据悉,Janus-Pro 是一种创新的自回归框架,旨在统一多模态理解与生成任务。它通过将视觉编码解耦为独立的路径,同时仍采用单一的统一 Transformer 架构进行处理,从而解决了以往方法的局限性。这种解耦不仅缓解了视觉编码器在理解与生成任务中的角色冲突,还增强了框架的灵活性。值得一提的是,Janus-Pro 超越了以往的统一模型,还在性能上媲美甚至超越了针对特定任务设计的模型。


Janus-Pro 的发布在网上引发了轩然大波,但也有网友认为,Janus-Pro 虽然在基准测试中赢了 DALL-E 3,但基准测试毕竟不等于实际应用,DPG-Bench 看重生成质量和理解能力,实际用起来效果还得看落地表现。



具体来说,Janus-Pro-7B 在多模态理解基准 MMBench 上取得了 79.2 的分数,超越了 Janus (69.4)、TokenFlow (68.9)等最先进的统一多模态模型,和 MetaMorph (75.2)。此外,在文本到图像指令跟踪排行榜 GenEval 中,Janus-Pro-7B 得分为 0.80,优于 Janus (0.61)、DALL-E 3 (0.67) 和 Stable Diffusion 3 Medium(0.74)。



Janus-Pro-7B 在 GenEval 上获得了 80% 的总体准确率,这优于所有其他统一或仅生成的方法,例如 Transfusion (63%) SD3-Medium (74%) 和 DELLE-E 3 (67%)。这表明我们的方法具有更好的指令跟踪能力。另外,Janus-Pro 在 DPG-Bench 上获得了 84.19 的分数,超过了所有其他方法。这表明 Janus-Pro 擅长遵循密集的指令来生成文本到图像。


在多模态理解方面,它使用 SigLIP-L 作为视觉编码器,支持 384x384 的图像输入。在图像生成方面,Janus-Pro 使用了来源于此的分词器(tokenizer),其下采样率为 16。


但值得一提的是,由于太过火爆,DeepSeek 现在已经限制国外新用户注册了,海外用户需要购买虚拟账号注册方能使用。


DeepSeek 在其官方公告中表示:近期 DeepSeek 线上服务受到大规模恶意攻击,为持续提供服务,暂时限制了+86 手机号以外的注册方式已注册用户可以正常登录,感谢理解和支持。


最后,祝大家新春快乐!

2025-01-28 09:5120788
用户头像
李冬梅 加V:busulishang4668

发布了 1229 篇内容, 共 846.9 次阅读, 收获喜欢 1323 次。

关注

评论

发布
暂无评论

高精度轻量级目标检测产业应用,实现多类通信塔识别

百度大脑

《大饼卷一切》爆笑相声剧 今晚开票!

InfoQ 天津

Dubbo服务如何优雅的校验参数

vivo互联网技术

dubbo 服务器 java;

如何避免在面试中看走眼

Hockor

个人成长 面试经验

CompusAss校园社团小程序解决方案

CC同学

12 款最棒 Vue 开源 UI 库测评 - 特别针对国内使用场景推荐

蒋川

Vue vue admin

python 编辑器提示 do not use bare except

AlwaysBeta

Python vscode 编辑器 pycharm Python PEP

React Draggable 实现拖拽 - 最详细中文教程 - 卡拉云

蒋川

React

如何在 Vue 中使用 Chart.js - 手把手教你搭可视化数据图表

蒋川

Vue PDF pdf阅读器

Android TabLayout 选中 tab 文字加粗显示

逆锋起笔

android 3月月更 TabLayout android滑动标签

社区人物志|缪翎:见证开源世界的女性力量

ApacheDoris

大数据 开源 数据分析 OLAP apache doris

selenium操作元素遇到的异常

红毛丹

selenium

Flutter 容器盒子布局模型

岛上码农

flutter ios 安卓 移动端开发 3月月更

Hoo虎符研究院|区块链简报20220307期

区块链前沿News

Hoo 虎符交易所 虎符研究院

大画 Spark :: 网络(5)-Spark中的server端和client端

dclar

大数据 hadoop spark Spark 源码 大数据开发

业内首家!百度智能云智慧金融业务通过ISO37301合规管理体系认证

百度大脑

「架构实战营」模块四作业 考试试卷存储方案

hxb

「架构实战营」

惨,给Go提的代码被批麻了

捉虫大师

Go 开源 Code Review

全网渗透率达80%!“耳朵经济”将成为当下市场的流行趋势

易观分析

耳朵经济 在线音频

免费硬件、专属导师、豪华大礼|AI达人创造营第二期项目征集启动啦!

百度大脑

Tech Talk 活动预告 | 为什么说 Serverless 是应用开发的未来?

亚马逊云科技 (Amazon Web Services)

Serverless

关于中国芯片,这些话如鲠在喉

脑极体

AI人脸识别测温一体机设计

DS小龙哥

3月月更

小程序的第六年,我们还能怎么玩?

知晓云

小程序 微信 小程序生态 小程序运营

springsecurity默认用户生成

急需上岸的小谢

安全代码审计-PHP

网络安全学海

网络安全 信息安全 渗透测试 漏洞 代码审计

appsmith 怎么用?评价如何

蒋川

appsmith

微服务工程中,基础组件应用

架构 分布式 微服务

假如让你来设计SSL/TLS协议,你要怎么设计呢?

华为云开发者联盟

网络安全 HTTP 通信 SSL/TLS 协议 网络通信安全

java高级用法之:无所不能的java,本地方法调用实况

程序那些事

Java Netty 程序那些事 3月月更

DeepSeek除夕炸场!发布开源多模态大模型,击败OpenAI DALL-E 3_生成式 AI_李冬梅_InfoQ精选文章