50万奖金+官方证书,深圳国际金融科技大赛正式启动,点击报名 了解详情
写点什么

全网首测! Qwen3 vs Deepseek-R1 数据分析哪家强?

  • 2025-04-30
    北京
  • 本文字数:2653 字

    阅读完需:约 9 分钟

全网首测! Qwen3 vs Deepseek-R1 数据分析哪家强?

作者 | 李飞


昨天凌晨,阿里巴巴开源新一代通义千问模型 Qwen3,AI Agent 厂商数势科技的数据分析智能体 SwiftAgent 已率先完成全面适配,并发布了 Qwen3 与 DeepSeek-R1 的测评报告,下面是具体评测内容,我们来看看在企业级的数据分析和智能决策场景上,Qwen3 与 DeepSeek-R1 到底有哪些差异?


(声明: 本次测评主要针对 Qwen3-32B 和 Qwen3-235B-A22B, 对比 Qwen2.5-72B 和 R1 效果)


针对数据分析 Data Agent,我们有如下关键节点 (如图 1),分别是改写,任务编排,工具选择和参数解析,工具运行和总结等。其中数据查询工具又涵盖了复杂的能力,例如如何将用户的查询语句解析成对应的语义层要素 (时间,指标,维度,逻辑算子等)。不同节点的准确性对最终结果都会造成较大的影响。



图 1:数据分析 Agent 流程概要


当前在落地的过程中,不同厂商针对其中节点的准确性优化基本都是三种手段,分别是提示词工程、RAG 增强判断和模型微调等。这三种手段的实施成本是递进的,效果也不可控。因此,数势科技一直秉持积极拥抱最先进的开源大模型的原则,践行第一时间适配,以提高 Agent 产品的效果,降低交付中的实施成本。先说结论,在上下文改写、任务编排和工具调用、数据查询、图表生成、总结反思五个方面,Qwen3 对比 Qwen2.5 有极大的效果提升,对比 DeepSeek-R1 模型也不遑多让,甚至在某些环节上还有意外的惊喜。成本上,根据阿里官方的报告,Qwen3 模型在整体部署上成本极大地降低,进一步降低了各个企业部署和使用的门槛。



本次,数势科技的 SwiftAgent 产品针对其中的不同节点,对 Qwen3 大模型进行整体测评,并对比以往模型的效果。


上下文改写


Chat 类产品首先接收的就是用户的输入语句,由于会话通常存在上下文干扰,以及用户的输入往往都是非标准的,因此我们必须对用户当次的输入语句进行改写判断,符合“优质进,优质出”的原则。以下测试我们分别把上下文带入到大模型中进行改写,让大模型判断用户问题的语境并进行改写的判断。



总结:针对 Case1 的语境,不应该进行改写,出乎意料的只有 Qwen3-32B 回答准确;针对 Case2,由于本轮提问的语境是绝对时间,Qwen2.5-72B 会基于上轮时间进行推理,对本轮 Query 进行改写,其他模型则理解语境不会判断成改写。针对 Case3,INV 代表“当日库存量”的缩写,当大模型不理解该术语时,会擅自继承上轮内容并改写本轮 Query,4 个模型均没办法正确回答。


任务编排和工具调用



总结:Qwen2.5-72B 在数据分析任务拆解和工具调用选择上,均落后于其它三个模型。其中,Case2 中我们期望通过子任务的拆解执行提高最终结果生成的准确性,DeepSeek-R1 以及 Qwen3-32B 和 Qwen3-235B-A22B 推理和非推理模式均表现优秀,Qwen2.5-72B 无法成功拆解相应任务,Case3 中,Qwen2.5-72B 在第 5 步任务中无法识别到应该调用归因分析工具,其它三个模型均能做到。可见 Qwen3-32B 做到了成本下降了,效果反而更好了。


数据查询


数据要素解析中,对时间要素的识别往往是较难的,因为时间是带动态更新和逻辑推理特性的。例如:“我行销售额较去年增加多少”是时间的隐性推理,实际表达的时间是“今年”和“去年”。此外还有相对时间和绝对时间理解,以及周的开始和结束时间推理识别等。



总结:在这三种时间难例 Case 下,DeepSeek-R1 以及 Qwen3-32B 和 Qwen3-235B-A22B 推理和非推理模式均领先于 Qwen2.5-72B,其中 Qwen3-32B 的效果已经完全接近 R1 的识别效果。


数据要素解析中,对实体的抽取也是要素匹配的一个前提条件,实体抽取的质量好坏会干扰后面要素匹配的效果,针对以往的难例 case,不同模型的测试情况如下:



总结:DeepSeek-R1 和 Qwen3-32B 在 Case1 和 Case2 的效果优于其他模型,然而 DeepSeek-R1 在 Case3 上漏识别了维度,总体来看,实体语义识别的效果差距不大,反而 Qwen3-32B 的 Dense 模型效果要优于其他模型。


图表生成


本次评测中,我们采用 Echart 图表生成的方式来验证不同模型基于数据的理解后,生成并渲染图表的效果



总结:Qwen72B 对于数据理解和代码生成的能力弱于 Qwen3-32B, Case2 和 Case3 中甚至出现了数据遗漏的现象。此外,Qwen3-32B 在渲染排版上略逊色于 Qwen3-235B-A22B 和 DeepSeek-R1 模型。


总结反思


这里,我们测试了针对生成的错误代码,大模型是否可以结合错误反思并生成准确的代码。



总结:原始代码存在包括【类型错误】、【潜在的空列表错误】、【字符串与整数操作问题】等数据分析中常见的代码问题。经过四个不同模型反思优化后,Qwen2.5-72B 选择直接丢弃不符合数值格式的数据,虽然能够跑通,但并不是数据预处理时的最佳选择,优化了潜在的空列表错误。DeepSeek-R1 对数据进行了强制转换,但传入无法强制转换的类型时,依旧会报错,且并未解决潜在的空列表错误。Qwen3 的两个模型对数据类型做了最符合预期地处理,优先尝试转换为数值,无法强制转换才选择抛弃,但同样并未解决潜在的空列表错误。关于潜在的空列表错误,在二次提示优化后,四个模型均给出优化方案,达到预期。


此外,我们还测了一些其他和数据分析相关的大模型能力,例如数学推理计算能力,我们从网上借鉴了一些数学测试题,先说结论,DeepSeek-R1 模型和 Qwen3-235B-A22B 在数学计算推理能力上要优于另外两种模型,符合 Scale Law 的认知。



具体来说,Case1 中,DeepSeek-R1 模型和 Qwen3-235B-A22B 均回答正确,其他两个模型回答错误。Case2 和 Case3 中所有模型均回答准确。


综上所述,在数据分析 Agent 构建方面,Qwen3 模型的发布对于 Agent 的构建有极大的提升作用。无论是在任务规划、代码生成、数学计算和语义识别等方面,Qwen3 模型都表现较为出色,其中 Qwen3-32B 模型也远优于上一代模型,甚至接近于 DeepSeek-R1 模型,且部署成本更低,消费级显卡即可实现推理自由,对企业使用大模型来说,是重大的利好。


在 Qwen3 模型发布的首日,数势科技 SwiftAgent 率先完成了对 Qwen3 的全面适配,并对 Agent 的中间环节进行了能力升级和创新性功能开发,为企业客户构建 AI 驱动的数据分析和智能决策提供了更高性能、更低成本的智能产品。


今日荐文


刚刚,Qwen3 终于发布!混合推理模式、支持MCP,成本仅DeepSeek R1三分之一,网友喊话小扎:工程师要赶紧加班了


细扒字节Seed 逆天招人要求!这5%本地顶级大脑做出了首个跨7大语言代码修复基准,让大模型成本狂降83%!


曝百川智能老班底所剩无几;小红书取消员工大小周、竞业;马拉松亚军“松延动力 N2”以 5.7 万元拍卖价成交 | AI周报


“DeepSeek不是万能的”,李彦宏今年押注AI 应用:模型价再“打骨折”,重点布局多智能体、多模态


2025-04-30 16:4817871

评论

发布
暂无评论

未来已来:云原生时代(二)云计算发展现状调研

看,未来

云原生

Docker实践经验(四)docker 上部署 mysql8 主从复制

看,未来

docker之搭建zookeeper和kafka集群

echoes

对象存储 S3 在分布式文件系统中的应用

焱融科技

对象存储 存储 分布式存储 云存储

什么是时序数据库

领创集团Advance Intelligence Group

React 实现 PDF 文件在线预览 - 手把手教你写 React PDF 预览功能

蒋川

JavaScript react.js 低代码 CRM pdf预览

优秀标杆!华泰证券多芯协同云网管理平台

BoCloud博云

多云管理平台 多云管理

面向高校 | “云原生技术应用与实践”示范课程项目开放申报

阿里巴巴云原生

阿里云 云原生 云原生课程

“Docker 实践经验” 系列导航

看,未来

云原生

Vue进阶(贰零捌):ES6 对象解构

No Silver Bullet

ES6 5月月更 对象解构

硬之城获阿里云首批产品生态集成认证,携手阿里云共建新合作

阿里巴巴云原生

阿里云 云原生 合作伙伴 合作

「开源人的福音」一键部署Java构件到Sonatype

Jianmu

后端 持续集成 开源项目 部署 Java构件

国产ETL数据仓库调度平台TASKCTL对于Kettle作业类型的转换使用

敏捷调度TASKCTL

DevOps 数据仓库 kettle ETL 自动化运维

Docker实践经验(二)镜像的构建、镜像仓库、压缩、导入

看,未来

Spring之 @Component和@ComponentScan注解用法介绍和注意事项

echoes

基于边缘计算的云游戏场景实践

火山引擎边缘云

最佳实践 边缘计算 实时音视频 云游戏

Kubernetes下Stdout日志白名单最佳实践

观测云

可观测性 可观测

架构实战营 - 第 6 期 模块七课后作业

乐邦

「架构实战营」

Docker 实践经验(三):Docker 容器数据卷

看,未来

Docker 实践经验(五)docker上部署 redis 三主三从集群

看,未来

云原生

战码先锋直播预告丨参与ArkUI,共建OpenHarmony繁荣生态

OpenHarmony开发者

Open Harmony

易周金融分析 |“一参一控一牌”落地;两家支付机构更名

易观分析

金融 银行

Docker 实践经验(一)简介、安装与实操

看,未来

云原生

Docker 实践经验(六):Docker 网络

看,未来

云原生

图解 DevOps

看,未来

UniqueMergeTree:支持实时更新删除的ClickHouse表引擎

字节跳动数据平台

Clickhouse 表引擎 实时

书单 | 5月,这10本上榜新书带你打开新世界的大门!

博文视点Broadview

11年程序员给本科、研究生应届生以及准备从事后台开发同学的建议,学习进阶之路

C++后台开发

后台开发 社招 应届生 Linux服务器开发 校招

自动驾驶等级家喻户晓,小微企业宽带等级你知道吗?

脑极体

Vue3 Typescript + Axios 全栈开发教程:手把手教你写「待办清单」APP

蒋川

typescript 低代码 Vue3 axios 全栈开发

未来已来:云原生时代(一)云计算如何一步步走来?

看,未来

全网首测! Qwen3 vs Deepseek-R1 数据分析哪家强?_生成式 AI_李飞_InfoQ精选文章