写点什么

实测思维链大变!DeepSeek R1 一个“小升级”性能直逼 o3,但仍“过度思考”?

  • 2025-05-29
    北京
  • 本文字数:555 字

    阅读完需:约 2 分钟

大小:264.67K时长:01:30
实测思维链大变!DeepSeek R1一个“小升级”性能直逼o3,但仍“过度思考”?

节前更新似乎已经是 DeepSeek 的惯例了。刚刚,DeepSeek 在 Huggingface 平台开源了 R1 的新版本 DeepSeek-R1-0528。


项目地址:https://huggingface.co/deepseek-ai/DeepSeek-R1-0528


据悉,新版本主要是在推理精度和代码生成速度的升级。在 Live CodeBench 基准测试中,DeepSeek-R1-0528 的性能可以媲美 OpenAI 的 o3(High)版本。



DeepSeek 官方对该版本的介绍是一次“小版本试升级”。不过,目前 DeepSeek 并没有发布有关新版本训练方法的技术报告。



不少用户都第一时间去实测了最新的 DeepSeek R1-0528,并整理出了升级亮点:


  • 现在能够像 Google 模型作深入推理;

  • 改进的写作任务,更自然、格式更好;

  • 独特的推理风格,不仅快速,而且深思熟虑;

  • 长时间思考,每项任务最多 30-60 分钟;

  • 编程能力显著优化。


有实测用户表示,DeepSeek R1-0528 似乎是唯一一个始终正确回答“9.9 - 9.11 是多少”的模型。


但他也称,“从我尝试的编码问题来看,它的性能比旧的 R1 好,但它落后于 o3 和 Claude 4。”



也有用户反映了该版本“过度思考”的问题,表示“给它一个高中数学题,它思考了 6 分钟多才做出回应。”



值得注意的是,R1 的思维链 (CoT) 行为似乎发生了重大变化。有网友评价,“之前的看起来就像 o 系列的推理,现在的则与 Gemini 类似。”也有网友认为,“无论如何,它的 CoT 更加‘面向用户’。”



2025-05-29 18:356625

评论

发布
暂无评论

海外云手机解决IP、成本、稳定性问题

Ogcloud

云手机 海外云手机 云手机海外版 海外原生IP 海外IP

座无虚席!首期流程挖掘实践训练营火爆收官

望繁信科技

数字化转型 流程挖掘 流程资产 流程智能 望繁信科技

828云服务器再添新选择!华为云Flexus X实例重磅亮相

平平无奇爱好科技

精彩回顾|博睿数据Bonree ONE 3.0产品发布会圆满落幕:三城联动 共襄盛举!

博睿数据

Facebook养号与推广技巧

Ogcloud

facebook 云手机 海外云手机 FB推广 FB引流

中国可观测日「成都站」圆满落幕

观测云

可观测性

华为云Flexus云服务器X实例828特惠!赋能企业云上提质增效

平平无奇爱好科技

Yihong,从多元职业到代码之路 | MarsCoders 开发者说

TRAE

Python 人工智能 编程 程序员 AI

高并发不慌!超实用缓存优化小窍门,你值得拥有

巧手打字通

redis 缓存 高并发 缓存架构 缓存加速

参与滴滴开源项目,获得精美礼品

XIAOJUSURVEY

GitHub 开源 活动 PR Issue

低代码开发应用:确保数字化项目成功的5个技巧

不在线第一只蜗牛

低代码 数字化

直播标准权威发布,阿里云RTS获首批卓越级评估认证

阿里云CloudImagine

云计算 音视频 视频云 超低延时直播

镜舟科技面对亿级数据分析场景,如何做到金融级放心用?

镜舟科技

大数据 金融 分析型数据库 StarRocks

如何免费调用有道翻译API实现多语言翻译

幂简集成

翻译软件 API

漆包线工厂生产管理MES系统功能介绍

万界星空科技

mes 万界星空科技 漆包线mes 铜线mes 漆包线

如何确定性能测试指标

老张

软件测试 性能测试 技术指标 高性能高可用

大咖领衔,2天AI创业创收训练营即刻启程!不要错过,速来占位!

霍格沃兹测试开发学社

振动韧性与智能的双翼,让数智金融飞向未来之屿

脑极体

AI

MatrixOne 助力某电信运营商构建低成本高性能车联网管理系统

MatrixOrigin

数据库 车联网 电信运营商

828云服务器选择多!华为云Flexus X实例让上云更轻松

平平无奇爱好科技

SaaS业务架构:业务能力分析

不在线第一只蜗牛

架构 SaaS

软件项目全套资料、全方案、源码梳理清单

金陵老街

开发文档 软件文档 实施文档 运维文档

828云服务选购好时机!华为云Flexus X实例刷新云上体验

平平无奇爱好科技

荣誉加冕|数造科技荣获“2024爱分析·数据智能优秀厂商”

数造万象

人工智能 大数据 敏捷开发 智能化 大模型

MES管理系统助力企业车间管理可视化

万界星空科技

数字化转型 mes 可视化大屏 万界星空科技 生产可视化

使用豆包Marscode 创建了一个”天气预报“小应用

TRAE

Python 人工智能 程序员 AI 项目

康养为松,智能为鹤:华为全屋智能画出的松鹤长春图

脑极体

AI

华为云Flexus X实例亮相828!云上管理更高效

平平无奇爱好科技

实测思维链大变!DeepSeek R1一个“小升级”性能直逼o3,但仍“过度思考”?_AI&大模型_华卫_InfoQ精选文章