智能体刷屏的背后,是 AI 应用拐点的来临?AICon 北京站议程重磅公布,50+ 硬核分享不容错过 了解详情
写点什么

实测思维链大变!DeepSeek R1 一个“小升级”性能直逼 o3,但仍“过度思考”?

  • 2025-05-29
    北京
  • 本文字数:555 字

    阅读完需:约 2 分钟

大小:264.67K时长:01:30
实测思维链大变!DeepSeek R1一个“小升级”性能直逼o3,但仍“过度思考”?

节前更新似乎已经是 DeepSeek 的惯例了。刚刚,DeepSeek 在 Huggingface 平台开源了 R1 的新版本 DeepSeek-R1-0528。


项目地址:https://huggingface.co/deepseek-ai/DeepSeek-R1-0528


据悉,新版本主要是在推理精度和代码生成速度的升级。在 Live CodeBench 基准测试中,DeepSeek-R1-0528 的性能可以媲美 OpenAI 的 o3(High)版本。



DeepSeek 官方对该版本的介绍是一次“小版本试升级”。不过,目前 DeepSeek 并没有发布有关新版本训练方法的技术报告。



不少用户都第一时间去实测了最新的 DeepSeek R1-0528,并整理出了升级亮点:


  • 现在能够像 Google 模型作深入推理;

  • 改进的写作任务,更自然、格式更好;

  • 独特的推理风格,不仅快速,而且深思熟虑;

  • 长时间思考,每项任务最多 30-60 分钟;

  • 编程能力显著优化。


有实测用户表示,DeepSeek R1-0528 似乎是唯一一个始终正确回答“9.9 - 9.11 是多少”的模型。


但他也称,“从我尝试的编码问题来看,它的性能比旧的 R1 好,但它落后于 o3 和 Claude 4。”



也有用户反映了该版本“过度思考”的问题,表示“给它一个高中数学题,它思考了 6 分钟多才做出回应。”



值得注意的是,R1 的思维链 (CoT) 行为似乎发生了重大变化。有网友评价,“之前的看起来就像 o 系列的推理,现在的则与 Gemini 类似。”也有网友认为,“无论如何,它的 CoT 更加‘面向用户’。”



2025-05-29 18:356347

评论

发布
暂无评论

软件测试|手把手教你用Python来模拟绘制自由落体运动过程中的抛物线

霍格沃兹测试开发学社

什么是好代码/坏代码?给普通人的图解示例

越长大越悲伤

后端 好代码的衡量标准

2023-05-14:你的赛车可以从位置 0 开始,并且速度为 +1 ,在一条无限长的数轴上行驶, 赛车也可以向负方向行驶, 赛车可以按照由加速指令 ‘A‘ 和倒车指令 ‘R‘ 组成的指令序列自动行驶

福大大架构师每日一题

Go 算法 rust 福大大

C语言编程-程序结构

芯动大师

C语言 结构 三周年连更

软件测试/测试开发丨Pytest测试用例生命周期管理-Fixture

测试人

软件测试 自动化测试 测试开发 测试用例 pytest

软件测试|Python实用炫酷技能——推导式

霍格沃兹测试开发学社

Git 远程仓库失效

Andy

软件测试|Python高手教你玩转 Excel 自动化

霍格沃兹测试开发学社

软件测试|Python神器logging,你真的了解吗?

霍格沃兹测试开发学社

软件测试|一步到位教会你Python字典操作(一)

霍格沃兹测试开发学社

设计模式之美--应用LOD法则实现“高内聚低耦合”

GalaxyCreater

设计模式

使用友好的API设计理念

agnostic

API APi设计

Zabbix电话短信报警技巧

外滩运维专家

zabbix电话报警 zabbix短信报警 zabbix飞书报警 zabbix钉钉报警 zabbix微信报警

软件测试|Python删除列表元素的3种方法,你都会吗?

霍格沃兹测试开发学社

软件测试|不会Python RPC,一篇文章教你入门

霍格沃兹测试开发学社

定风波、渡重山、至未来:2023中国数字能源生态大会开启的新旅程

脑极体

新能源

MySql 索引的失效与优化

Andy

软件测试|神操作!用 Python 操作 xmind 绘制思维导图

霍格沃兹测试开发学社

软件测试|PC端应用自动化最佳解决方案——Pywinauto

霍格沃兹测试开发学社

软件测试|Pytest的必会技巧(一)

霍格沃兹测试开发学社

Prompt工程师指南[从基础到进阶篇]:用于开发和优化提示,以有效地使用语言模型(LMs)进行各种应用和研究主题

汀丶人工智能

人工智能 自然语言处理 ChatGPT prompt learning

软件测试/测试开发丨Python常用数据结构-学习笔记

测试人

软件测试 自动化测试 测试开发 python数据结构

Orillusion引擎开源一周,荣登Github Trending榜单

Orillusion

开源 3D 渲染引擎 元宇宙 #WebGPU

如何使用Go语言实现LSP原则

Jack

Prompt learning 教学[最终篇]:Chatgpt使用场景推荐、优秀学习资料推荐、AI工具推荐

汀丶人工智能

人工智能 自然语言处理 ChatGPT 人工智能ChatGPT 吗? prompt learning

Django笔记二十八之数据库查询优化汇总

Hunter熊

Python django 查询优化

Kafka008——浅谈Broker的存储架构

Codyida

后端

背靠香港影视集团星光文化,StarNFT问世了

西柚子

实测思维链大变!DeepSeek R1一个“小升级”性能直逼o3,但仍“过度思考”?_AI&大模型_华卫_InfoQ精选文章