写点什么

实测思维链大变!DeepSeek R1 一个“小升级”性能直逼 o3,但仍“过度思考”?

  • 2025-05-29
    北京
  • 本文字数:555 字

    阅读完需:约 2 分钟

大小:264.67K时长:01:30
实测思维链大变!DeepSeek R1一个“小升级”性能直逼o3,但仍“过度思考”?

节前更新似乎已经是 DeepSeek 的惯例了。刚刚,DeepSeek 在 Huggingface 平台开源了 R1 的新版本 DeepSeek-R1-0528。


项目地址:https://huggingface.co/deepseek-ai/DeepSeek-R1-0528


据悉,新版本主要是在推理精度和代码生成速度的升级。在 Live CodeBench 基准测试中,DeepSeek-R1-0528 的性能可以媲美 OpenAI 的 o3(High)版本。



DeepSeek 官方对该版本的介绍是一次“小版本试升级”。不过,目前 DeepSeek 并没有发布有关新版本训练方法的技术报告。



不少用户都第一时间去实测了最新的 DeepSeek R1-0528,并整理出了升级亮点:


  • 现在能够像 Google 模型作深入推理;

  • 改进的写作任务,更自然、格式更好;

  • 独特的推理风格,不仅快速,而且深思熟虑;

  • 长时间思考,每项任务最多 30-60 分钟;

  • 编程能力显著优化。


有实测用户表示,DeepSeek R1-0528 似乎是唯一一个始终正确回答“9.9 - 9.11 是多少”的模型。


但他也称,“从我尝试的编码问题来看,它的性能比旧的 R1 好,但它落后于 o3 和 Claude 4。”



也有用户反映了该版本“过度思考”的问题,表示“给它一个高中数学题,它思考了 6 分钟多才做出回应。”



值得注意的是,R1 的思维链 (CoT) 行为似乎发生了重大变化。有网友评价,“之前的看起来就像 o 系列的推理,现在的则与 Gemini 类似。”也有网友认为,“无论如何,它的 CoT 更加‘面向用户’。”



2025-05-29 18:356812

评论

发布
暂无评论

MapReduce中shuffle阶段的数据压缩机制

大数据技术指南

大数据 hadoop 3月日更

IAP:物联网终端软件升级技术

华为云开发者联盟

IoT LiteOS iap 物联网终端 OTA

开抢| 华为开发者大会2021(Cloud)早鸟票来了!

华为云开发者联盟

华为 开发者

云原生数据库风起云涌,华为云GaussDB破浪前行

华为云开发者联盟

数据库 架构 云原生 华为云 GaussDB

MoviePy - 中文文档(一个专业的python音视频编辑库)教程

ucsheep

Python 音视频 视频剪辑 Moviepy 视频合成

Python OpenCV 彩色图像与灰度图像的转换

梦想橡皮擦

3月日更

神策大数据技术直播系列课第二季,开讲啦

神策技术社区

大数据 性能优化 大前端 工程师 事件分析

直播预告 | 数据操作加速器,CloudQuery v1.3.5 发布

BinTools图尔兹

sql 编辑器 数据治理 数据安全 数据库管理工具

量化策略软件搭建,马丁策略交易软件开发

10种下载YouTube视频的方法-包含网站软件插件app等

Space空间

软件 网站 下载youtube视频

美女师姐说给你听!我成为蚂蚁安全工程师的初体验

DT极客

终于知道为啥网页不让我复制粘贴了!

华为云开发者联盟

js 代码 button事件 复制粘贴 输入框

力扣(LeetCode)刷题,简单题(第14期)

不脱发的程序猿

面试 LeetCode 28天写作 算法攻关 3月日更

golang设置时区的多种方式

happlyfox

学习 3月日更 Go 语言

网络连接总超时?从四层模型上解析网络是怎么连接的

京东科技开发者

计算机网络 服务器 域名

Spark性能调优-Shuffle调优及故障排除篇

五分钟学大数据

大数据 spark 3月日更

20天内看完这套GitHub标星18k+的Android资料,含泪整理面经

欢喜学安卓

android 程序员 面试 移动开发

2021出海社交必看:产品、技术、运营指南

拍乐云Pano

音视频 RTC 社交APP出海 出海社交 社交泛娱乐

2021最新分享支付宝/美团/拼多多面经总结

比伯

Java 编程 架构 面试 程序人生

自媒体平台数据统计分析爬虫之【趣头条】模拟登陆分析详解及数据统计接口详解

ucsheep

接口 爬虫 趣头条 模拟登录

技术杂谈 | Flutter 的性能分析、工程架构与细节处理

有道技术团队

flutter

2021年DevOps的四大趋势

禅道项目管理

DevOps 工具 趋势 Redis开发与运维

畅想数据湖

数据社

数据仓库 数据湖 ETL ELT

2021年Android面试心得,大厂面经合集

欢喜学安卓

android 程序员 面试 移动开发

NA公链(Nirvana)解决的六大问题在众多公链中脱颖而出NAC公链

区块链第一资讯

简单快速搭建,全新语聊方案

anyRTC开发者

ios android 音视频 WebRTC RTC

音视频开发——通信直播协议和视频推流丨RTMP-RTSP

Linux服务器开发

音视频 WebRTC ffmpeg 直播推流 SRS流媒体服务器

用 WebRTC 打造一个音乐教育 App,要解决哪些音质难题?

阿里云CloudImagine

音视频 WebRTC 在线教育 RTC

情指勤指挥调度平台搭建,公安局情报指挥系统

超详细!手把手带你快速入门 GitHub!

JackTian

git GitHub 开源

别再说你不懂规则引起啦

比伯

Java 编程 程序员 架构 计算机

实测思维链大变!DeepSeek R1一个“小升级”性能直逼o3,但仍“过度思考”?_AI&大模型_华卫_InfoQ精选文章