写点什么

全网首测! Qwen3 vs Deepseek-R1 数据分析哪家强?

  • 2025-04-30
    北京
  • 本文字数:2653 字

    阅读完需:约 9 分钟

全网首测! Qwen3 vs Deepseek-R1 数据分析哪家强?

作者 | 李飞


昨天凌晨,阿里巴巴开源新一代通义千问模型 Qwen3,AI Agent 厂商数势科技的数据分析智能体 SwiftAgent 已率先完成全面适配,并发布了 Qwen3 与 DeepSeek-R1 的测评报告,下面是具体评测内容,我们来看看在企业级的数据分析和智能决策场景上,Qwen3 与 DeepSeek-R1 到底有哪些差异?


(声明: 本次测评主要针对 Qwen3-32B 和 Qwen3-235B-A22B, 对比 Qwen2.5-72B 和 R1 效果)


针对数据分析 Data Agent,我们有如下关键节点 (如图 1),分别是改写,任务编排,工具选择和参数解析,工具运行和总结等。其中数据查询工具又涵盖了复杂的能力,例如如何将用户的查询语句解析成对应的语义层要素 (时间,指标,维度,逻辑算子等)。不同节点的准确性对最终结果都会造成较大的影响。



图 1:数据分析 Agent 流程概要


当前在落地的过程中,不同厂商针对其中节点的准确性优化基本都是三种手段,分别是提示词工程、RAG 增强判断和模型微调等。这三种手段的实施成本是递进的,效果也不可控。因此,数势科技一直秉持积极拥抱最先进的开源大模型的原则,践行第一时间适配,以提高 Agent 产品的效果,降低交付中的实施成本。先说结论,在上下文改写、任务编排和工具调用、数据查询、图表生成、总结反思五个方面,Qwen3 对比 Qwen2.5 有极大的效果提升,对比 DeepSeek-R1 模型也不遑多让,甚至在某些环节上还有意外的惊喜。成本上,根据阿里官方的报告,Qwen3 模型在整体部署上成本极大地降低,进一步降低了各个企业部署和使用的门槛。



本次,数势科技的 SwiftAgent 产品针对其中的不同节点,对 Qwen3 大模型进行整体测评,并对比以往模型的效果。


上下文改写


Chat 类产品首先接收的就是用户的输入语句,由于会话通常存在上下文干扰,以及用户的输入往往都是非标准的,因此我们必须对用户当次的输入语句进行改写判断,符合“优质进,优质出”的原则。以下测试我们分别把上下文带入到大模型中进行改写,让大模型判断用户问题的语境并进行改写的判断。



总结:针对 Case1 的语境,不应该进行改写,出乎意料的只有 Qwen3-32B 回答准确;针对 Case2,由于本轮提问的语境是绝对时间,Qwen2.5-72B 会基于上轮时间进行推理,对本轮 Query 进行改写,其他模型则理解语境不会判断成改写。针对 Case3,INV 代表“当日库存量”的缩写,当大模型不理解该术语时,会擅自继承上轮内容并改写本轮 Query,4 个模型均没办法正确回答。


任务编排和工具调用



总结:Qwen2.5-72B 在数据分析任务拆解和工具调用选择上,均落后于其它三个模型。其中,Case2 中我们期望通过子任务的拆解执行提高最终结果生成的准确性,DeepSeek-R1 以及 Qwen3-32B 和 Qwen3-235B-A22B 推理和非推理模式均表现优秀,Qwen2.5-72B 无法成功拆解相应任务,Case3 中,Qwen2.5-72B 在第 5 步任务中无法识别到应该调用归因分析工具,其它三个模型均能做到。可见 Qwen3-32B 做到了成本下降了,效果反而更好了。


数据查询


数据要素解析中,对时间要素的识别往往是较难的,因为时间是带动态更新和逻辑推理特性的。例如:“我行销售额较去年增加多少”是时间的隐性推理,实际表达的时间是“今年”和“去年”。此外还有相对时间和绝对时间理解,以及周的开始和结束时间推理识别等。



总结:在这三种时间难例 Case 下,DeepSeek-R1 以及 Qwen3-32B 和 Qwen3-235B-A22B 推理和非推理模式均领先于 Qwen2.5-72B,其中 Qwen3-32B 的效果已经完全接近 R1 的识别效果。


数据要素解析中,对实体的抽取也是要素匹配的一个前提条件,实体抽取的质量好坏会干扰后面要素匹配的效果,针对以往的难例 case,不同模型的测试情况如下:



总结:DeepSeek-R1 和 Qwen3-32B 在 Case1 和 Case2 的效果优于其他模型,然而 DeepSeek-R1 在 Case3 上漏识别了维度,总体来看,实体语义识别的效果差距不大,反而 Qwen3-32B 的 Dense 模型效果要优于其他模型。


图表生成


本次评测中,我们采用 Echart 图表生成的方式来验证不同模型基于数据的理解后,生成并渲染图表的效果



总结:Qwen72B 对于数据理解和代码生成的能力弱于 Qwen3-32B, Case2 和 Case3 中甚至出现了数据遗漏的现象。此外,Qwen3-32B 在渲染排版上略逊色于 Qwen3-235B-A22B 和 DeepSeek-R1 模型。


总结反思


这里,我们测试了针对生成的错误代码,大模型是否可以结合错误反思并生成准确的代码。



总结:原始代码存在包括【类型错误】、【潜在的空列表错误】、【字符串与整数操作问题】等数据分析中常见的代码问题。经过四个不同模型反思优化后,Qwen2.5-72B 选择直接丢弃不符合数值格式的数据,虽然能够跑通,但并不是数据预处理时的最佳选择,优化了潜在的空列表错误。DeepSeek-R1 对数据进行了强制转换,但传入无法强制转换的类型时,依旧会报错,且并未解决潜在的空列表错误。Qwen3 的两个模型对数据类型做了最符合预期地处理,优先尝试转换为数值,无法强制转换才选择抛弃,但同样并未解决潜在的空列表错误。关于潜在的空列表错误,在二次提示优化后,四个模型均给出优化方案,达到预期。


此外,我们还测了一些其他和数据分析相关的大模型能力,例如数学推理计算能力,我们从网上借鉴了一些数学测试题,先说结论,DeepSeek-R1 模型和 Qwen3-235B-A22B 在数学计算推理能力上要优于另外两种模型,符合 Scale Law 的认知。



具体来说,Case1 中,DeepSeek-R1 模型和 Qwen3-235B-A22B 均回答正确,其他两个模型回答错误。Case2 和 Case3 中所有模型均回答准确。


综上所述,在数据分析 Agent 构建方面,Qwen3 模型的发布对于 Agent 的构建有极大的提升作用。无论是在任务规划、代码生成、数学计算和语义识别等方面,Qwen3 模型都表现较为出色,其中 Qwen3-32B 模型也远优于上一代模型,甚至接近于 DeepSeek-R1 模型,且部署成本更低,消费级显卡即可实现推理自由,对企业使用大模型来说,是重大的利好。


在 Qwen3 模型发布的首日,数势科技 SwiftAgent 率先完成了对 Qwen3 的全面适配,并对 Agent 的中间环节进行了能力升级和创新性功能开发,为企业客户构建 AI 驱动的数据分析和智能决策提供了更高性能、更低成本的智能产品。


今日荐文


刚刚,Qwen3 终于发布!混合推理模式、支持MCP,成本仅DeepSeek R1三分之一,网友喊话小扎:工程师要赶紧加班了


细扒字节Seed 逆天招人要求!这5%本地顶级大脑做出了首个跨7大语言代码修复基准,让大模型成本狂降83%!


曝百川智能老班底所剩无几;小红书取消员工大小周、竞业;马拉松亚军“松延动力 N2”以 5.7 万元拍卖价成交 | AI周报


“DeepSeek不是万能的”,李彦宏今年押注AI 应用:模型价再“打骨折”,重点布局多智能体、多模态


2025-04-30 16:481

评论

发布
暂无评论

大作业--APP的注册与登录

王一凡

产品经理训练

初识Golang之语法基础介绍

Kylin

读书笔记 3月日更 Go 语言

Zookeeper.03 - 实现分布式锁

insight

zookeeper 3月日更

C/C++ 性能优化背后的方法论:TMAM

vivo互联网技术

c c++ 性能优化 cpu

上万字详解Spark Core(建议收藏)

五分钟学大数据

大数据 spark 28天写作 3月日更

翻译:《实用的Python编程》06_02_Customizing_iteration

codists

Python

Wireshark 数据包分析学习笔记 Day14

穿过生命散发芬芳

Wireshark 数据包分析 3月日更

从容一些,不必赶「Day 25」

道伟

28天写作

故事开始了,Python 图像算法取经之旅 365 天的第 1 天

梦想橡皮擦

28天写作 3月日更

“时间”都去哪儿了?性能调优分析方法与案例详解

京东科技开发者

数据库 客户端

大作业—产品文档

三笠

产品

uc01. 备案合同

新盛

大作业6

YING꯭YING

少些爹味才是好爹——再谈自主性

Justin

心理学 教育 28天写作 游戏设计

JVM笔记 -- 来,教你类加载子系统

秦怀杂货店

Java JVM 类加载 虚拟机

大作业附件1

三笠

什么时候编程语言不重要

soolaugust

编程语言

GoPath模式和GoMoudle模式的相爱相杀

happlyfox

28天写作 3月日更 Go 语言

电影AI修复,让重温经典有了新的可能

华为云开发者联盟

AI 电影 华为云视频 视频增强 经典

朋友,你听说过跨域吗

河磨

spring CORS 跨域

算法攻关-爬楼梯最小花费_0076

小诚信驿站

刘晓成 小诚信驿站 28天写作 算法攻关 爬楼梯最小花费

图解堆排序

Silently9527

Java 排序算法 堆排序

第8周大作业

八达鸟

一招让Kafka达到最佳吞吐量

万俊峰Kevin

kafka go-zero Go 语言

网上签约备案系统-需求文档

新盛

第 8 周作业 _ prd

园子

ECMAScript 2017(ES8)新特性简介

程序那些事

ecmascript 程序那些事 ecmascript 2017 es8

知识图谱上的图神经网络

博文视点Broadview

怎么找属于自己最优的2B增长模型?

boshi

销售管理 SaaS 七日更

架构实践全景图

博文视点Broadview

EGG公链生态项目——EFTalk上的巴莱特定律

币圈那点事

区块链

全网首测! Qwen3 vs Deepseek-R1 数据分析哪家强?_生成式 AI_李飞_InfoQ精选文章