写点什么

实测思维链大变!DeepSeek R1 一个“小升级”性能直逼 o3,但仍“过度思考”?

  • 2025-05-29
    北京
  • 本文字数:555 字

    阅读完需:约 2 分钟

大小:264.67K时长:01:30
实测思维链大变!DeepSeek R1一个“小升级”性能直逼o3,但仍“过度思考”?

节前更新似乎已经是 DeepSeek 的惯例了。刚刚,DeepSeek 在 Huggingface 平台开源了 R1 的新版本 DeepSeek-R1-0528。


项目地址:https://huggingface.co/deepseek-ai/DeepSeek-R1-0528


据悉,新版本主要是在推理精度和代码生成速度的升级。在 Live CodeBench 基准测试中,DeepSeek-R1-0528 的性能可以媲美 OpenAI 的 o3(High)版本。



DeepSeek 官方对该版本的介绍是一次“小版本试升级”。不过,目前 DeepSeek 并没有发布有关新版本训练方法的技术报告。



不少用户都第一时间去实测了最新的 DeepSeek R1-0528,并整理出了升级亮点:


  • 现在能够像 Google 模型作深入推理;

  • 改进的写作任务,更自然、格式更好;

  • 独特的推理风格,不仅快速,而且深思熟虑;

  • 长时间思考,每项任务最多 30-60 分钟;

  • 编程能力显著优化。


有实测用户表示,DeepSeek R1-0528 似乎是唯一一个始终正确回答“9.9 - 9.11 是多少”的模型。


但他也称,“从我尝试的编码问题来看,它的性能比旧的 R1 好,但它落后于 o3 和 Claude 4。”



也有用户反映了该版本“过度思考”的问题,表示“给它一个高中数学题,它思考了 6 分钟多才做出回应。”



值得注意的是,R1 的思维链 (CoT) 行为似乎发生了重大变化。有网友评价,“之前的看起来就像 o 系列的推理,现在的则与 Gemini 类似。”也有网友认为,“无论如何,它的 CoT 更加‘面向用户’。”



2025-05-29 18:356908

评论

发布
暂无评论

科创人·观远数据CEO苏春园:让业务用起来,是BI行业推倒渗透率之墙的关键

科创人

大数据

【等保小知识】等保整改是什么意思?整改内容包括哪些?

行云管家

等保测评 等级测评 等保整改

Python 爬虫 JS 逆向 X-Bogus,signature 加密算法,AST 理论篇

梦想橡皮擦

Python 爬虫 7月月更

Kyligence 出席华为全球智慧金融峰会,加速拓展全球市场

Kyligence

数据湖 数据分析 OLAP

仅需一个依赖给Swagger换上新皮肤,既简单又炫酷

程序知音

JAVA编程规范之异常处理

源字节1号

微信小程序 软件开发 前端开发 后端开发

2022亚洲国际物联网展会

AIOTE智博会

物联网展览会

国产统信UOS系统运行小程序的探索

Geek_99967b

小程序

终于有人把操作系统、网络系统、线程进程、IO模型全部总结出来了

程序知音

Java 后端 操作系统 网络 TCP/IP

NFTScan 与 Port3 在 NFT 数据领域达成战略合作

NFT Research

C# 使用Timer和ProgressBar控件制作一个倒计时器

IC00

C# 7月月更

JS数组方法

bo

JavaScript 前端 7月月更

前两天面了个腾讯拿 38K 出来的,让我见识到了基础的天花板,今天share给大家~

程序知音

Java 程序员 java面试 后端技术 八股文

Linux 文件系统函数

贾献华

7月月更

SCA在得物DevSecOps平台上应用​

得物技术

安全 DevSecOps SCA

如何搭建一个好的知识库管理系统?

Geek_da0866

融云超级群的「新能力」

融云 RongCloud

ios Android;

设计消息队列存储消息数据的 MySQL 表格

Fan

架构实战营

strcmp() - 比较字符串

謓泽

7月月更

长期的远程工作面临的几个问题和持续改进的组织自动化

Ryan Zheng

远程办公

真人踩过的坑,告诉你避免自动化测试新手常犯的10个错误

禅道项目管理

自动化 测试 自动化测试

K8S多集群管理很难?试试Karmada | K8S Internals系列第3期

BoCloud博云

容器 容器云 K8s 多集群管理

乘数科技云管控平台适配阿里云PolarDB,共促云原生数据库生态繁荣

阿里云数据库开源

数据库 阿里云 开源数据库 polarDB PolarDB for PostgreSQL

企业进行知识管理有哪些好处?

Geek_da0866

百度APP Android包体积优化实践(二)Dex行号优化

百度Geek说

Java Andriod

今日分享| 阿里巴巴内部最新Docker精髓笔记

冉然学Java

Java Docker 阿里 #技术干货# Java 开发

Idea 连接 MySQL 数据库

攻城狮杰森

MySQL IDEA database 7月月更

学界VS工业界:深度学习究竟能不能打破视频编解码天花板

小红书技术REDtech

深度学习 音视频 视频编解码 音视频技术

2022年数据库审计产品排行榜-必看!

行云管家

数据库 数据库审计

2022长三角工业自动化展会将于10月在南京国际展览中心召开

AIOTE智博会

工业自动化展会 工业机器人展会 江苏工博会

实测思维链大变!DeepSeek R1一个“小升级”性能直逼o3,但仍“过度思考”?_AI&大模型_华卫_InfoQ精选文章