限时领|《AI 百问百答》专栏课+实体书(包邮)! 了解详情
写点什么

实测思维链大变!DeepSeek R1 一个“小升级”性能直逼 o3,但仍“过度思考”?

  • 2025-05-29
    北京
  • 本文字数:555 字

    阅读完需:约 2 分钟

大小:264.67K时长:01:30
实测思维链大变!DeepSeek R1一个“小升级”性能直逼o3,但仍“过度思考”?

节前更新似乎已经是 DeepSeek 的惯例了。刚刚,DeepSeek 在 Huggingface 平台开源了 R1 的新版本 DeepSeek-R1-0528。


项目地址:https://huggingface.co/deepseek-ai/DeepSeek-R1-0528


据悉,新版本主要是在推理精度和代码生成速度的升级。在 Live CodeBench 基准测试中,DeepSeek-R1-0528 的性能可以媲美 OpenAI 的 o3(High)版本。



DeepSeek 官方对该版本的介绍是一次“小版本试升级”。不过,目前 DeepSeek 并没有发布有关新版本训练方法的技术报告。



不少用户都第一时间去实测了最新的 DeepSeek R1-0528,并整理出了升级亮点:


  • 现在能够像 Google 模型作深入推理;

  • 改进的写作任务,更自然、格式更好;

  • 独特的推理风格,不仅快速,而且深思熟虑;

  • 长时间思考,每项任务最多 30-60 分钟;

  • 编程能力显著优化。


有实测用户表示,DeepSeek R1-0528 似乎是唯一一个始终正确回答“9.9 - 9.11 是多少”的模型。


但他也称,“从我尝试的编码问题来看,它的性能比旧的 R1 好,但它落后于 o3 和 Claude 4。”



也有用户反映了该版本“过度思考”的问题,表示“给它一个高中数学题,它思考了 6 分钟多才做出回应。”



值得注意的是,R1 的思维链 (CoT) 行为似乎发生了重大变化。有网友评价,“之前的看起来就像 o 系列的推理,现在的则与 Gemini 类似。”也有网友认为,“无论如何,它的 CoT 更加‘面向用户’。”



2025-05-29 18:356580

评论

发布
暂无评论

泛型使用到原理,2020-2021阿里巴巴安卓面试真题解析

android 程序员 移动开发

浅谈ConcurrentHashMap,2021大厂Android面试题精选

android 程序员 移动开发

深入探索 Android 网络优化(三、网络优化篇,flutter页面跳转卡

android 程序员 移动开发

深入探索编译插桩技术(四、ASM 探秘,二本学渣考研失败

android 程序员 移动开发

注意-跳槽必看啊!2020BATJZ大厂面筋集合!(建议收藏),android开发网上购物app

android 程序员 移动开发

浅谈-Android-Handler,h5移动端开发面试题

android 程序员 移动开发

深度认识单例模式;在Android源码中的应用,华为Android面试真题解析

android 程序员 移动开发

来自Android菜鸟的思考:普通公司的程序员技术跟大厂的差距在哪?怎样才能达到大厂技术水平

android 程序员 移动开发

深入分析ConstraintLayout的原理及应用场景,万字总结

android 程序员 移动开发

深入学习-Gradle-自动化构建技术(六)Gradle-插件平台化框架-ByteX-探秘之旅

android 程序员 移动开发

没有对象怎么面向对象编程呢?真让人头秃!,android音视频编解码

android 程序员 移动开发

深入并发原理和大厂面试(二),kotlin协程的理解

android 程序员 移动开发

滴滴DoKit Android核心原理揭秘之函数耗时,app架构图怎么做

android 程序员 移动开发

最新 Android 热门开源项目公布,androidframework开发书籍

android 程序员 移动开发

浅谈Android热更新的前因后果 _ Android ,Android面试基础知识

android 程序员 移动开发

深入解析Android-Studio中Gradle依赖,flutter扫描二维码

android 程序员 移动开发

渣本转岗,从Java到Android,这一年我经历了太多太多,移动开发者大会

android 程序员 移动开发

月薪20+的Android面试都问些什么?,android实战开发记账本app视频

android 程序员 移动开发

深入理解 Activty 加载速度优化,android开发实战-记账本清风紫雪

android 程序员 移动开发

深入解析Android的StateListDrawable,项目实战

android 程序员 移动开发

深度探索 Gradle 自动化构建技术(四、自定义 Gradle 插件

android 程序员 移动开发

渣渣二本的辛酸面试之路:从深圳到杭州,从外包到蚂蚁金服

android 程序员 移动开发

来自程序员的感叹:我怎么就没有阿里,腾讯,安卓内存监控悬浮窗

android 程序员 移动开发

某 Android 大牛 “凡尔赛”,Android-Camera内存问题剖析

android 程序员 移动开发

深入理解AsyncTask的工作原理,成为阿里P7Android架构师到底有多难

android 程序员 移动开发

深入理解Flutter动画原理,一个月成功收割腾讯、阿里、字节offer

android 程序员 移动开发

渣本安卓客户端Android秋招总结(重排了字号),android项目实战手机安全卫士

android 程序员 移动开发

满足你各种姿势的最美Android开源日历,android音频

android 程序员 移动开发

最新-Android-面试点梳理,我收藏了你呢?,事件分发机制怎么回答

android 程序员 移动开发

没想到位图算法在Android RecyclerView中还可以这样应用!

android 程序员 移动开发

深入浅出Android性能调优【全面深入易理解】,来一份全面的面试宝典练练手

android 程序员 移动开发

实测思维链大变!DeepSeek R1一个“小升级”性能直逼o3,但仍“过度思考”?_AI&大模型_华卫_InfoQ精选文章