写点什么

DeepSeek 除夕炸场!发布开源多模态大模型,击败 OpenAI DALL-E 3

  • 2025-01-28
    北京
  • 本文字数:1017 字

    阅读完需:约 3 分钟

大小:505.87K时长:02:52
DeepSeek除夕炸场!发布开源多模态大模型,击败OpenAI DALL-E 3

这个除夕,所有的聚光灯理应给到 DeepSeek。


刚刚,人工智能社区 Hugging Face 显示,DeepSeek 刚刚发布了开源多模态人工智能(AI)模型 Janus-Pro,这是一款基于 DeepSeek-LLM-1.5b-base 和 DeepSeek-LLM-7b-base 构建的模型。在这系列模型中,Janus-Pro-7B 在 GenEval 和 DPG-Bench 基准测试中击败了 OpenAI 的 DALL-E 3 和 Stable Diffusion。



GitHub 项目地址:https://github.com/deepseek-ai/Janus?tab=readme-ov-file

HuggingFace 项目地址:https://huggingface.co/deepseek-ai/Janus-Pro-1B


据悉,Janus-Pro 是一种创新的自回归框架,旨在统一多模态理解与生成任务。它通过将视觉编码解耦为独立的路径,同时仍采用单一的统一 Transformer 架构进行处理,从而解决了以往方法的局限性。这种解耦不仅缓解了视觉编码器在理解与生成任务中的角色冲突,还增强了框架的灵活性。值得一提的是,Janus-Pro 超越了以往的统一模型,还在性能上媲美甚至超越了针对特定任务设计的模型。


Janus-Pro 的发布在网上引发了轩然大波,但也有网友认为,Janus-Pro 虽然在基准测试中赢了 DALL-E 3,但基准测试毕竟不等于实际应用,DPG-Bench 看重生成质量和理解能力,实际用起来效果还得看落地表现。



具体来说,Janus-Pro-7B 在多模态理解基准 MMBench 上取得了 79.2 的分数,超越了 Janus (69.4)、TokenFlow (68.9)等最先进的统一多模态模型,和 MetaMorph (75.2)。此外,在文本到图像指令跟踪排行榜 GenEval 中,Janus-Pro-7B 得分为 0.80,优于 Janus (0.61)、DALL-E 3 (0.67) 和 Stable Diffusion 3 Medium(0.74)。



Janus-Pro-7B 在 GenEval 上获得了 80% 的总体准确率,这优于所有其他统一或仅生成的方法,例如 Transfusion (63%) SD3-Medium (74%) 和 DELLE-E 3 (67%)。这表明我们的方法具有更好的指令跟踪能力。另外,Janus-Pro 在 DPG-Bench 上获得了 84.19 的分数,超过了所有其他方法。这表明 Janus-Pro 擅长遵循密集的指令来生成文本到图像。


在多模态理解方面,它使用 SigLIP-L 作为视觉编码器,支持 384x384 的图像输入。在图像生成方面,Janus-Pro 使用了来源于此的分词器(tokenizer),其下采样率为 16。


但值得一提的是,由于太过火爆,DeepSeek 现在已经限制国外新用户注册了,海外用户需要购买虚拟账号注册方能使用。


DeepSeek 在其官方公告中表示:近期 DeepSeek 线上服务受到大规模恶意攻击,为持续提供服务,暂时限制了+86 手机号以外的注册方式已注册用户可以正常登录,感谢理解和支持。


最后,祝大家新春快乐!

2025-01-28 09:5120808
用户头像
李冬梅 加V:busulishang4668

发布了 1237 篇内容, 共 853.4 次阅读, 收获喜欢 1325 次。

关注

评论

发布
暂无评论

技术风向标 | 云原生技术架构成熟度模型解读

阿里巴巴云原生

阿里云 云原生 成熟度模型

研发效能的道与术 - 道篇

FreeW

架构 研发效能

netty入门之服务端启动过程分析

Hex

Java 后端 Netty

浅谈云原生边缘计算框架演进

谐云

7月月更

超越 Nginx!号称下一代 Web 服务器,用起来够优雅

冉然学Java

Java nginx GitHub 服务器 Web、

机器视觉在服务机器人中的应用

优必选科技

机器人

Spark数据格式UnsafeRow

矛始

spark 内存 UnsafeRow

极大似然估计

矛始

概率 极大似然估计

我们被一个 kong 的性能 bug 折腾了一个通宵

尔达Erda

程序员 运维 云原生 性能 bug

如何通过ETL调度工具 TASKCTL 使用作业插件类型调用 kettle作业?

敏捷调度TASKCTL

数据仓库 kettle ETL #运维 TASKCTL

2022 云原生编程挑战赛火热报名中!看导师如何拆解 Serverless 赛题?

阿里巴巴云原生

阿里云 Serverless 云原生编程挑战赛

kudu设计-tablet

矛始

kudu tablet

一文搞懂│XSS攻击、SQL注入、CSRF攻击、DDOS攻击、DNS劫持

网络安全 经验分享 签约计划第三季

Qakbot新型感染链:使用Windows7系统侧加载感染设备

郑州埃文科技

dll Windows7 Qakbot

公共数据如何兼顾开放利用和隐私安全合规?

Jessica@数牍

数据安全 隐私计算 公共数据开放 数据开放和利用

[ Kitex 源码解读 ] 服务发现

baiyutang

Go 微服务架构 kitex CloudWeGo

6种方法帮你搞定SimpleDateFormat类不是线程安全的问题

华为云开发者联盟

高并发 开发

深圳云管平台厂商哪家好?有哪些功能?咨询电话多少?

行云管家

云计算 云管平台

如何通过学会提问,成为更加优秀的数据科学家

Baihai IDP

AI 数据科学 职业发展

共议公共数据开放,“数牍方案”亮相数字中国建设峰会

Jessica@数牍

隐私计算 数牍科技 公共数据开放

如何借助自动化工具落地DevOps|含低代码与DevOps应用实践

云智慧AIOps社区

开源 DevOps 低代码平台 开发与运维

spark-streaming状态流之mapWithState

矛始

spark 状态流

图的遍历的定义以及深度优先搜索和广度优先搜索(一)

乔乔

7月月更

就这一次!详细聊聊分布式系统的那些技术方案

Java全栈架构师

程序员 面试 分布式 系统设计 架构师

兆骑科创海外高层次人才引进平台,创业赛事活动路演

兆骑科创凤阁

高层次人才引进平台

TDengine 落地协鑫能科,数百亿数据压缩至 600GB

TDengine

数据库 tdengine 时序数据库

基础到高级涵盖11个技术,Alibaba最新出品711页Java面试神册真香

程序员小毕

Java 面试 程序人生 JVM 中间件

导数、微分、偏导数、全微分、方向导数、梯度的定义与关系

矛始

高数 导数 微分

MySQL精品学习资源合集 | 含学习教程笔记、运维技巧、图书推荐

墨天轮

MySQL 数据库 学习笔记 运维技术

有一说一,阿里P7的薪资待遇是真的香

程序员小毕

Java 程序员 程序人生 后端 架构师

Spark统一内存划分

矛始

spark 统一内存

DeepSeek除夕炸场!发布开源多模态大模型,击败OpenAI DALL-E 3_生成式 AI_李冬梅_InfoQ精选文章