写点什么

DeepSeek 冷思考: 从技术迷恋转向技术的实用化

谢孟军

  • 2025-02-28
    北京
  • 本文字数:7188 字

    阅读完需:约 24 分钟

DeepSeek 冷思考: 从技术迷恋转向技术的实用化

本文整理自 InfoQ 策划的 DeepSeek 系列直播第八期节目。在直播中,极客邦科技创始人 &CEO 霍太稳对话积梦智能 CEO&TGO 鲲鹏会荣誉会长谢孟军,主要探讨了两个方面的问题:第一,DeepSeek 爆火背后,作为创业公司如何更好地打造差异化竞争优势;第二,作为普通人如何借 AI 之力成为“超级个体”。


谢孟军强调,在全民 AI 的时代,技术人尤其要避免陷入“技术自嗨”的陷阱,无论是个人还是企业,都需要从技术迷恋转向技术的实用化,从产品思维转向用户价值思维。技术本身并不重要,重要的是技术与场景的结合。  


下文为直播部分内容精选,完整直播回放可点击链接查看:https://www.infoq.cn/video/f7lcXthfXX0mNhyfAEaI


以下为谢孟军的分享实录部分(经编辑):

DeepSeek 现象级突破的技术解码


DeepSeek 无疑是一个具有“国运级”意义的现象级产品。它的技术突破主要体现在三个方面:低成本训练范式革新、国产算力适配突破和场景化模型蒸馏技术


首先, DeepSeek 采用了极简架构,能够以 3% 到 5% 的行业成本实现模型训练,大幅降低了资源占用。这种低成本训练模式加上开源的方式,极大地降低了模型开发门槛,让众多企业和研究机构能够参与其中。


其次,国产算力适配突破是 DeepSeek 带来的另一个重要影响。此前,国产芯片一直在努力适配国外框架,而 DeepSeek 的出现让国产芯片找到了用武之地。特别是华为的昇腾芯片,与 DeepSeek 的适配性非常好,推动了国内 GPU 厂商的发展。昇腾 910B 等产品与 DeepSeek 深度合作,实现了从硬件到技术链路的全面国产化,加速了国产化进程。如今,许多企业都在咨询如何私有化部署 DeepSeek 模型,这也为国产算力的发展提供了新的机遇。


最后, DeepSeek 不仅推出了 671B 的满血版模型,还通过蒸馏技术开发了多种轻量级版本,32B、18B 和 7B 等。这种从满血版到轻量版的跨越,为企业提供了灵活选择的空间,能够根据不同场景的需求进行适配。例如,企业可以根据自身业务蒸馏出投资版、制造业版、化工行业版或汽车零部件版等专属模型。同时,DeepSeek 在动态部署方面也具有优势,能够在复杂决策场景中使用满血版模型,在高并发交互场景中使用轻量级模型,实现混合式部署。

DeepSeek 爆火背后的“冷思考”


在 DeepSeek 爆火的当下,每个人似乎都在谈论它,仿佛不参与讨论就显得自己与 IT 圈脱节。朋友圈里每天都在刷屏,某某产品接入了 DeepSeek,仿佛不接入 DeepSeek 的产品都成了“垃圾产品”。而最引人注目的还是股票市场——DeepSeek 概念股的兴起确实带动了整个经济氛围的活跃。与此同时,我也发现,最近很多人在交流中对经济的信心似乎又回来了,这不得不说是一个非常积极的现象。


在 全民 AI 的时代,DeepSeek 如此火爆的背后,我们也需要进行一些“冷思考”。真正的问题是:DeepSeek 到底能用来做什么? 作为技术人,我们尤其需要避免陷入“技术自嗨”的陷阱。如今,很多人都在分享 DeepSeek 背后的技术实现逻辑,但 关键在于我们如何将它真正应用到实际场景中


在短视频平台上,大家都在宣传如何部署 DeepSeek,搭建个人 AI 知识库。但当你在自己的电脑上搭建起这样一个知识库后,你会发现它的能力其实非常有限。因为电脑本身的性能有限,你最多只能运行 7B 或 8B 的模型,而这些小模型的能力是远远不够的。搭建一个简单的 AI 知识库并不难,但当你的文件数量超过两三千份时,多路召回的效果会变得极差。在文件数量较少时,知识库的效果可能还不错,但要让它真正产生价值、提升生产力,还有很长的路要走。


另一方面,很多新媒体人在宣传所谓的“DeepSeek+”,比如“DeepSeek+ 王炸组合”,声称可以成倍提升功能效率。确实,DeepSeek 在办公效率方面,比如写作(如 Kimi)、图像处理(如剪映、PS)等工具的使用上,确实能带来一些帮助。但对我们技术人来说,更重要的是如何将 DeepSeek 更好地应用到更多实际场景中去,而不仅仅是停留在表面的效率提升。

如何打造差异化竞争优势


在当前 AI 技术快速发展的背景下,无论是个人还是公司,都需要思考如何打造差异化竞争优势。随着 AI 的兴起,作为技术人需要结合自身优势和经验,找准定位。拿我本人来说,有近 20 年的开源经验,同时也有七八年的创业经验,因此我希望将开源与商业化相结合,分享 AI 技术的同时,探讨如何提升决策能力。于是,我将自己的公众号从“Asta 聊工业”改为“AI 进厂的 Asta”,专注于分享 AI 在编程、开源和商业化方面的内容。在内容创作上,我尝试用 AI 辅助写作,提纲和核心内容仍需自己撰写,完后再让 AI 优化,这样既能保持个人写作风格,又能提升效率。


个人工具的全面 AI 化是提升效率的关键。我目前常用的 AI 工具包括以下几种:

  • Cursor:我每天都会用它来编写代码,尤其是前端开发,效率提升显著。

  • DeepSeek 和 Claude:将两者结合使用,Claude 在长文本创作上更符合我的写作风格,而 DeepSeek 则用于联网搜索技术报告。

  • Grok 3:其 Deep Search 功能非常强大,我正在不断尝试。

  • Ideogram:这是一个类似 Midjourney 的文生图工具,生成的图片设计感很强,我经常用它来生成图片。

  • Napkin:它可以将文档一键生成脑图或 PPT 格式的图表,非常适合快速制作 PPT。

  • Notion:我用它来收集各种想法和计划,同时也会将 Claude 生成的内容整理到 Notion 中。

  • 即梦 AI:我用它生成海报,效果不错,尤其是中文显示效果很好。

  • 创客贴:主要用于海报设计,其 AI 设计功能非常实用。

  • Gamma:用于快速生成 PPT,设计简洁且支持导出 PDF 和 PPT 格式。


我从 2009 年开始接触 Go 语言,而 GopherChina 也是从 2015 年开始举办,至今已经十年了。这十年间,Go 社区不断成熟,技术话题也逐渐趋同化。比如,大家讨论的大多是云计算、K8S 容器、微服务、监控等热门领域。这些内容在过去十年里已经被分享得非常充分,社区的成熟也意味着技术发展进入了一个稳定阶段。


随着 AI 时代的到来,技术人不能固步自封,必须勇敢拥抱变革。因此,我决定将 Go 社区全面升级为一个 AI 社区——ThinkIn AI。这个社区目前还处于起步阶段,但已经展现出巨大的潜力。在这个过程中,我们做了以下两件事:


第一,开发了一个 DeepSeek 模型兼容性检测工具。这个工具的灵感来源于朋友的提问:他们的电脑配置能否部署某个型号的 DeepSeek 模型,比如 1.5B、7B 或 8B 等。基于这个需求,我利用业余时间用 React 写了一个网页工具,通过显存和内存的检测,自动判断用户电脑能够部署的最大模型。这个工具开发过程非常高效,仅用了一个晚上的时间,而且完全通过对话式编程完成,我没有手写一行传统代码。推出后,这个工具受到了广泛关注,很多人反馈企业也有类似需求,希望了解服务器配置如何满足不同模型的部署要求。因此,我们又开发了一个企业部署服务器配置计算器。用户可以根据自己的需求选择模型大小(如 70B、671B 或 14B)、量化类型、序列长度、批次大小等参数,工具会计算出所需的显存、CPU 配置、模型参数占用等信息,并推荐适合的硬件配置,包括 GPU、CPU、内存和网络等。同时,我们在工具底部宣传了 ThinkIn AI 社区,目前社区已经吸引了大量用户,14 个群几乎都满了,这说明大家对 AI 的热情非常高涨。


第二,我们开始探索 DeepSeek 部署后的应用场景。目前,虽然已经有 Chatbox 和 Open Web UI 等客户端可以连接 DeepSeek,但我们认为 DeepSeek 客户端可以实现更多功能,尤其是对于企业私有化部署来说,需要更强大的智能体开发。因此,我们决定自己开发一个开源的客户端——DeepChat。这个项目完全开源,采用 Apache 协议,今天刚刚发布了 0.02 版本,支持联网功能,可以通过搜索引擎结合 DeepSeek 进行更强大的处理。我们的目标是将 DeepChat 打造成连接强大 AI 与个人世界的智能助手。未来,人们会越来越多地通过终端设备处理各种事务,包括电脑、平板和手机。我们希望在终端设备上开发更多小应用,比如下一个版本将支持文件上传和内容总结功能,用户可以上传多个文件并输出自己想要的格式。DeepChat 不仅可以连接企业的大脑,也可以连接个人电脑,用户可以选择连接本地的小 AI,也可以连接公网上的满血版 AI。我们还计划全面对接 MCP 协议,将个人智能体的功能整合进来,充分发挥终端设备的潜力。我们希望通过开源的方式,像 DeepSeek 一样,毫无保留地分享技术,打造一个全球知名的 AI 应用生态。


对于我们企业而言,从个人到社区,再到企业层面,我们的差异化优势其实非常明确。比如,我们将 Go 社区转型为以 DeepSeek 为核心的 AI 社区,这一转变本身就体现了我们的独特性。我们始终以开源项目为驱动,围绕 AI 编程、开源项目、DeepSeek 工具链以及 MCP 社区的终端应用展开工作。这种以开源为基础、以技术为核心的发展路径,是我们区别于其他社区和企业的关键所在。


在企业层面,我们面临的挑战是 如何在 DeepSeek 私有化部署这一竞争激烈的市场中找准自己的定位。如今,许多企业都在涉足 DeepSeek 的私有化部署,但我们必须思考:用户为什么选择我们?如何在众多竞争者中脱颖而出?这正是我们需要解决的问题。


我认为,实现差异化的核心在于“行业 Know-How + AI”。我们需要找到自己真正擅长的行业领域,并深入理解该行业的核心数据和业务流程。只有当我们清楚地知道行业数据的价值和业务流程的关键节点时,才能将 AI 技术精准地嵌入其中,从而发挥出我们的差异化优势。这种结合行业深度知识与 AI 技术的能力,才是我们能够在市场中立足的关键。

AI 技术商业化落地的“道”与“术”


所谓“道”,是指我们对场景选择和用户痛点的深刻理解。首先,我们必须从用户的真实痛点出发,这是商业化的基础。其次,商业模式的验证至关重要,需要从一开始就设计好盈利模式,思考如何持续赚钱。用户痛点的发现并非孤立的,而是通过与不同行业人士的交流逐渐明晰的。例如,有医院希望部署 DeepSeek 的私有化方案,但面临技术选型和硬件适配的难题;还有企业希望通过小模型解决特定业务问题,需求千差万别。这些痛点背后,反映出行业对 AI 技术的迫切需求,也凸显了我们作为技术提供方的机会。


仅仅发现痛点还不够,我们需要结合行业 Know-How 与 AI 技术,找到数据和业务流程中的关键点,将 AI 嵌入其中,实现差异化价值。比如,金融行业可以通过 AI 优化风险控制,医疗行业则可以利用 AI 提升诊断效率。这种结合行业深度知识与 AI 技术的能力,才是我们能够在市场中立足的关键。


在“术”的层面,我们则需要关注技术的成熟度和数据的积累。选择成熟的技术可以降低风险,而数据的积累和算法的优化则是持续迭代的基础。AI 技术的快速迭代要求我们不断优化模型,以适应市场的变化。

小结

在 AI 时代,每个人都有机会成为超级个体,无论是个人创业还是小团队创业,都需要 从技术的迷恋转向技术的实用化,从产品思维转向用户价值思维。技术本身并不重要,重要的是技术与场景的结合。同时,从单打独斗转向生态协同也是必然趋势。AI 的商业化落地需要构建完整的生态,包括技术提供方、数据支持方和应用场景方。


以下为对话实录部分(经编辑):

InfoQ:DeepSeek 出现之后,对积梦智能目前的业务以及所服务的客户带来了哪些直接的价值?


谢孟军: 虽然我们的传统业务还在继续推进,但我们也要更好地拥抱 AI 时代带来的变化。为此,我们专门开辟了一项新业务,开始 着手 DeepSeek 的私有化部署相关工作。这包括帮助客户梳理知识流程、清洗数据,以及构建高效的数据库和知识库,并协助他们将这些内容整合到业务流程中。


我们有几家制造业用户正在推进 DeepSeek 的私有化部署。其实这个思路源于去年底,当时我们服务的一家客户是做橡胶轮胎助剂的。他们内部积累了大量研发资料,研发部门有大约五十人,但这些数据不便外流,所以他们希望在内部建立一个研发资料知识库。去年,他们就已经开始与我们对接,探讨如何实现这个目标。当时我们告诉客户基座模型还在迭代,建议他们再等等,但千问 2.5 其实已经可用。然而,今年春节当 DeepSeek r1 发布后,客户过完年就立刻联系我们,表示一定要采用这个技术。他们希望通过 DeepSeek 赋能内部的研发资料库,提升研发效率和知识管理能力。

InfoQ:有观众提问:如果自己的公司想本地化部署、搭建自己的知识库,应该选择 DeepSeek 的哪一个版本,或者有没有其他更好的解决方案?


谢孟军: 我觉得搭建公司知识库的关键在于明确用途。如果只是搭建一个简单的知识库,我认为 32B 的模型其实就足够了,效果也不错。关于具体的硬件配置,大家可以访问 ++DeepSeek 模型兼容性检测 ++,通过这个工具检测一下自己所需的硬件配置。


私有化部署选什么版本的 DeepSeek 其实取决于具体的应用场景。如果条件允许,满血版当然是最好的,但成本确实很高,至少两三百万起步。如果需求没那么复杂,比如 7B 或 8B 的版本,我建议大家可以考虑买个 Mac mini,七八千块钱就能搞定,或者自己配一台台式机,大概一万元左右就能部署起来了。像我现在用的 Mac Pro,本机就能部署 14B 的模型。


我看到还有同学问满血版需要多少张显卡。这要看具体用什么型号的显卡了,比如 H200 还是 H20,不同显卡的数量要求是不一样的。如果是 H20 的话,大概需要 14 张到 16 张。现在大家在部署过程中确实会发现有不少问题,尤其是满血版的部署,并没有想象中那么简单。推理模型的优化参数和配置都需要仔细调整,过程中有不少需要注意的地方。

InfoQ:有观众提问:问题怎么转成向量去匹配相应的知识库?


谢孟军: 这个就是 RAG(Retrieval-Augmented Generation)技术。它的核心机制是这样的:当一个文档输入进来时,系统会将其分解为一个个小块,然后通过 embedding 模型将这些块转化为向量并存储起来。当你需要查询时,问题也会被转化为向量,然后在向量库中进行相似度搜索。不过,RAG 目前面临一个很大的问题:当文件数量很多,比如达到 5,000 个时,多路召回的结果会非常多,相似度匹配的结果也很多,这就很难确定到底哪个是最相关的。因此,上下文的重要性就凸显出来了。现在,大家开始转向一种新的模式——Graph RAG,也就是将知识图谱的概念与 RAG 结合。这样可以更好地处理上下文信息,提升检索的准确性和效率。

InfoQ:有观众提问:运维该如何提升效率,有什么建议?


谢孟军: 我建议使用 Cursor 写运维脚本,效率提升非常明显,因为运维工作本身就涉及大量脚本编写。我个人最大的感受是,我们的学习模式可能会因此改变。比如,我以前对前端开发不太熟悉,尤其是 TypeScript 和 React,但现在很多都能轻松上手,写得很快。为什么呢?因为我采用了“干中学、学中干”的方式——通过与 Cursor 对话,利用它强大的代码生成能力,它会根据你的需求生成代码。我们程序员已经掌握编程基本逻辑,比如如何管理包、下载和运行代码,而且 Cursor 生成的代码语法基本正确,只需要稍作检查即可运行。更重要的是,Cursor 会帮你生成目录树和文件结构。因为它已经学习了大量开源代码,所以它能合理设计目录架构。我觉得这种方式特别适合每一个 IT 人,因为它不仅提高了效率,还帮助我们在实践中学习新技术。

InfoQ:国内的代码开发工具你有用过吗?可以点评一下吗?


谢孟军: 国内目前我还没用过类似的产品。现在唯一值得期待的就是字节跳动的“Trae”。之前也有一些产品,比如百度的 Comate(文心快码),它们都是对标 Copilot 的。但 Copilot 其实是上一个年代的产品,体验非常差,如果国内的产品只是对标 Copilot,我觉得那还是上一代的东西。听说字节跳动的“Trae”可能会对标 Cursor,它在 3 月份应该会发布国内版。

InfoQ:你怎么看待 AI 领域里的创业新机会的?对于普通人来说,又如何借助 AI 成为一个超级个体?


谢孟军: 现在很多人都在提“一人团队”的概念,如果你创业的话,一人团队其实是个很好的选择。TGO 鲲鹏会的会员开设了“一人出海”的课程,值得去学习一下。我觉得一人团队的核心在于,现在各个细分赛道中确实出现了很多 AI 场景应用的机会。以前我们可能需要一个大团队来完成这些工作,因为涉及到各种协同和分工。但现在,借助 AI 工具,一个人就能搞定很多事情。比如我之前提到的 cursor,我有一个朋友,他以前完全没有编程基础,甚至不是计算机专业出身,但最近迷上了 cursor,天天在用它写小程序,甚至还成功上线了。当然,我会慢慢给他普及一些基础知识,因为他需要补充的地方还有很多。但这就是 AI 时代个体创业的魅力所在。不仅仅是 cursor,我很多时候有了一个想法,就会让 AI 帮我写草案,比如文章、设计文稿、API 文档,甚至针对 API 的测试用例,这些都可以通过 AI 快速生成。

InfoQ:比如你早上 9 点坐在办公室里,晚上 9 点离开办公室,在这 12 个小时里,你会用到哪些 AI 工具来提升工作效率?


谢孟军:Cursor 大概占了我 50% 的时间,我主要用它来辅助编程和生成代码。另外,我还会用 Claude,它能快速帮我把一些想法整理成初稿,完善成具体的方案。第三个用得比较多的是 Notion,我会把所有的东西都记录在里面。偶尔会用到 Napkin 和 Gamma,它能把文字内容快速转化为 PPT 格式。当然,还有一些小工具,比如即梦,会用来做海报,比如 AI 自动生成海报这类功能。

InfoQ:AI 帮助我们提升工作效率,未来也可能会改变我们的工作方式。AGI(通用人工智能)出现后,可能会取代我们 80% 甚至 90% 的工作。从你的角度来看,未来怎么去定义人在其中的价值?我们该如何更好地适应 AI 时代,或者迎接 AGI 的到来?


谢孟军: 我没有很深刻地思考过这个问题,只是有一些肤浅的看法。但我一直觉得,目前 AI 还只是一个辅助工具,它还无法完全替代人类。在很多场景里,AI 仍然做不到完全取代人的工作。人的认知很重要。现在很多时候,关键在于你的思维方式和视野有多宽。比如,就像刚才提到的,用 AI 去写东西,你需要先想清楚自己想写什么,以及这个东西能产生什么价值。这些需要人去思考。你不能让 AI 帮你完成整个闭环。比如,你让 AI 设计一个“利润率能达到 50% 的产品并上线”,这种要求实现的可能性并不大。

2025-02-28 10:1410396

评论

发布
暂无评论

条件过滤检索

DashVector

向量检索 大模型 向量数据库

HyperWorks的实体几何创建与六面体网格剖分

智造软件

Hypermesh 仿真分析 有限元

GreptimeDB 首位独立 Committer Eugene Tolbakov 是怎样炼成的?

Greptime 格睿科技

开源 时序数据库

人工智能 | 文生图大模型

测吧(北京)科技有限公司

测试

第73期 | GPTSecurity周报

云起无垠

【EMNLP2024】面向长文本的文视频表征学习与检索模型 VideoCLIP-XL

阿里云大数据AI技术

人工智能 自然语言处理 阿里云 论文 EMNLP

从微笑曲线底端崛起 ,中国县城工厂走向“新质供给”

Alter

百度沧海·存储统一技术底座架构演进

百度Geek说

Netty 如何自动探测内存泄露的发生

bin的技术小屋

内存泄露 Netty 内存泄露检测 netty内存管理 Java.

探讨拼多多商品 API 接口:运用及收益

科普小能手

API接口工具 API 接口 API 测试 pinduoduo API 拼多多API

云计算与低代码:实现无缝集成与高效部署的最佳实践

天津汇柏科技有限公司

云计算 低代码

JinaCLIP×Milvus:手把手教你搭建多模态RAG系统

Zilliz

多模态 rag clip模型 jinaclip

袋鼠云港口数智化解决方案发布,数智引领,加速“智变”

袋鼠云数栈

在使用Alt+Tab切换程序时 Windows 11 24H2会出现黑屏

吴脑的键客

windows Windows 10 Windows11

【JIT/极态云】技术文档--模型简介

武汉万云网络科技有限公司

低代码 开发工具

如何用CST自带宏提取材料的DK,Df值

思茂信息

cst cst使用教程 cst电磁仿真 cst仿真软件

数字化落地过程中的研发效能治理如何开展?

思码逸研发效能

DevOps 研发管理 绩效管理 研发度量 研发效能度量

压力测试,探索服务器性能瓶颈

测试人

软件测试

一文理解布隆过滤器和布谷鸟过滤器

京东科技开发者

Agent 智能体开发框架选型指南

Baihai IDP

程序员 AI 智能体 Agents

小间距LED显示屏,我们还可以了解哪些

Dylan

LED显示屏 全彩LED显示屏 led显示屏厂家 户内led显示屏 市场

glibc 内存分配与释放机制详解

vivo互联网技术

开源 glibc 内存管理 内存泄漏

融云「北极星」专业版:指标异常及时告警,趋势变化预先知悉

融云 RongCloud

融云:社交泛娱乐出海机会尚存,跨境电商异军突起

融云 RongCloud

白话文讲解大模型| Attention is all you need

阿里技术

架构 Transformer 大模型 LLM 白话文

腾讯云AI代码助手

全栈若城

阿里云 DataWorks 正式支持 SelectDB & Apache Doris 数据源,实现 MySQL 整库实时同步

SelectDB

数据库 大数据 数据分析 数据迁移 整库同步

Schema Free

DashVector

人工智能 大数据 AI 向量检索 大模型

GreptimeDB v0.9 重磅发布|引入日志存储引擎,支持日志指标数据联合分析!

Greptime 格睿科技

云原生 时序数据库

创元集团携手火山引擎,数据飞轮驱动美妆品牌数字化转型

字节跳动数据平台

大数据 数智化转型 数字化平台 企业 AI 应用

全域身份管理是IAM的重要发展方向

芯盾时代

iam 身份和访问管理 统一身份管理平台

DeepSeek 冷思考: 从技术迷恋转向技术的实用化_AI&大模型_InfoQ精选文章