写点什么

腾讯大模型 APP 真实测评!七家国产大模型“battle”,元宝顶得住吗?

  • 2024-05-31
    北京
  • 本文字数:2286 字

    阅读完需:约 8 分钟

大小:1.16M时长:06:46
腾讯大模型APP真实测评!七家国产大模型“battle”,元宝顶得住吗?

作者 | 华卫

 

“腾讯做大模型不争一时之先。”

 

5 月 30 日,腾讯基于混元大模型的 App“腾讯元宝”正式上线,苹果及安卓应用商店均可下载。腾讯云副总裁、腾讯混元大模型负责人刘煜宏表示:“过去的一年,我们持续推进腾讯混元大模型的能力爬坡,希望腾讯元宝最终服务于每个普通人的生活。”

 

相比此前测试阶段的混元小程序版本,面向工作效率场景,腾讯元宝提供了 AI 搜索、AI 总结、AI 写作等核心能力;面向日常生活场景,元宝提供了多个特色 AI 应用,并新增了创建个人智能体等玩法。

 

那么,这些功能的实际表现到底如何呢?

 

拿到腾讯元宝的体验资格后,我们马上逐一试用了它的亮点功能,并特别针对文生图和 AI 写作方面,通过同题多解的方式,将其与多个国内知名的大模型进行了对比和评估。

 

创作效果:有提升潜力

 

首先,来直击一下元宝与各大模型“battle”的实况。

 

  • 文生图

 

在这一功能上,我们选择了百度文心一格、阿里通义万相、讯飞星火、美图 MiracleVision 4.0 、字节跳动豆包五个模型对比效果,对他们的理解和内容生成能力逐一进行了测评。另外,考虑到涉及的这些大模型都源自国产,我们特意选取了中国文言文作为输入素材,以此来考察它们在处理本国语言古典文本上的能力。

 

从生成图中所涵盖各实体元素的完整程度和整体画面的协调性来说,元宝的表现是排在前列的。

 

提示词为:林中有寿鹿仙狐,树上有灵禽玄鹤。瑶草奇花不谢,青松翠柏长春。仙桃常结果,修竹每留云。一条涧壑藤萝密,四面原堤草色新。

 

生成结果如下:

(从左到右分别是元宝、豆包、讯飞星火、美图 MiracleVision 4.0、文心一格的输出结果)

 


(通义万相的输出结果)

 

  • AI 写作

 

据介绍,在 AI 写作方面,元宝不仅支持多轮问答,还能够将对话的内容整理成报告,按照要求进行结构化输出。这一功能上,我们将其与文心一言、通义千问、Kimi、豆包四个模型对比效果。

 

以测评案例来看,相较而言,腾讯元宝的生成内容展现出了包含起承转合的完整情节,故事框架也已具备雏形,但语句间的逻辑衔接略显生硬、人物描写也较为生涩。

 

提示词:唐僧师徒四人穿越到现代后的第一天,会发生什么故事?写一个 300 字左右的小故事。

 

元宝的生成结果如下:

 

可以小夸一下的是,元宝留意到了唐僧师徒四人需要吃素的人物细节,在人设和故事设定方面理解得还不错。



再看豆包的生成结果,其语句结构明显更为成熟了,各个段落环节之间衔接得也比较自然。

 


到文心一言这里,无论语句组织还是文字逻辑,都展现出不错的效果。

 


而 Kimi 和通义千问的生成结果,开始呈现出更显著的变化。除语句构造外,整个故事的人物设定、叙事角度、情节架构都更加立体,并都在结尾处给读者构建了一个引人入胜的虚构世界。

 


(Kimi 的输出结果)

 


(通义千问的输出结果)

 

效率、娱乐方面:表现不俗

 

当前,大模型仍在快速发展期,从模型能力到应用落地都存在较大“时延”。数据显示,当前人们使用大模型相关产品时,有超过 65%的需求,集中在工作/学习效率场景,但相关的 AI 产品解决方案尚不成熟。针对效率场景的三大核心需求:信息获取、处理和生产,腾讯元宝均进行了产品化探索。

 

  • AI 搜索

 

AI 搜索方面,腾讯元宝接入了微信搜一搜、搜狗搜索等搜索引擎,并通过 AI 搜索增强,提升时新类和知识类问题效果,比传统搜索更有效率;同时,内容覆盖微信公众号等腾讯生态内容及互联网权威信源,答案准确性更高;此外,元宝还会提供所引用的参考资料,并给出相关推荐,方便快速溯源及延伸阅读。

 

我们输入一个近日引发热议的美国 AI 禁令问题:如何看待中国人被限制在美从事 AI 相关工作?

生成结果如下:

 

  • AI 总结

 

AI 总结方面,无论是希望快速了解一本书或是一个新领域,还是处理复杂繁冗的报告、文献,元宝都能帮上忙。据介绍,元宝可上传最多 10 个 PDF、word、txt 等多种格式的文档,并能够一次性解析多个微信公众号链接、网址,支持 256K 的原生窗口上下文。

 

例如,我们输入:请总结一下 AI 前线公众号这一年来的内容输出亮点。

 

生成结果如下:

 

 

除了满足效率需要,腾讯元宝在日常生活场景,也提供了丰富的应用及玩法,包括百变 AI 头像、口语陪练、超能翻译官等,均免费开放。同时,元宝也支持用户根据个性化需求,快速创建个人专属的智能体,赋予角色设定,或让 AI 自动生成智能体相关信息,并复刻自己的音色。结合腾讯生态场景,元宝还将于近期推出腾讯新闻哥、《庆余年》主题等特色智能体。

 

视频、3D 生成功能后续上线

 

腾讯元宝产品能力升级的背后,是混元底层模型的持续迭代。

 

自 2023 年 9 月首次亮相以来,腾讯混元大模型的参数规模已从千亿升级至万亿,预训练语料从万亿升级至 7 万亿 tokens,并率先升级为多专家模型结构(MoE),整体性能相比 Dense 版本提升超 50%。除不断提升通用大模型能力外,腾讯混元也支持角色扮演、FunctionCall、代码生成等领域能力,数理能力提升 50 %。

 

在多模态方面,腾讯混元文生图大模型是业内首个中文原生 DiT 架构模型,采用了 Sora、Stable Diffusion 3 等行业顶尖产品的同款架构,生成效果相比上代提升超 20%。目前,该模型已经全面开源,在 Github 获得 2000+star,相关能力也全面融入腾讯元宝。

 

此外,腾讯混元大模型在视频、3D 生成等方面也持续探索,目前已经支持 16s 视频生成,单图仅需 30 秒即可生成 3D 模型,相关能力也将于后续在元宝中上线。

 

目前,腾讯内部有超 600 个业务及场景都已经接入腾讯混元,腾讯广告、微信读书、腾讯会议、腾讯文档、腾讯客服等,都已经基于混元实现了智能化升级。据了解,为了满足开发者及企业客户对于通用模型能力的需求,腾讯混元大模型已通过腾讯云对外开放,可通过 API 调用,也可以作为基底模型,为不同产业场景构建专属应用。

2024-05-31 17:5311018

评论

发布
暂无评论
发现更多内容

分布式系统架构设计

C++后台开发

数据库 分布式 后端开发 C/C++后台开发 C/C++开发

如何管理您的知识库?

Geek_da0866

零基础前端培训学习有用吗

小谷哥

一文讲透研发,SRE,运维,DevOps 的区别

Bytebase

DevOps SRE dba database

INFINI 产品更新啦 20220815

极限实验室

elasticsearch infini gateway INFINI Labs 新版本/特性发布 INFINI Console

如何维护您的知识库?

Geek_da0866

EMAS Serverless搭建《私人云相册》小程序赢中秋好礼

移动研发平台EMAS

小程序 阿里云 Serverless 中秋节 云相册

Web Service 接口怎么测试

和牛

Python 接口 测试 Web Service

我们还需要 SRE 吗?

Bytebase

DevOps SRE developer

盒马销量预测核心算法的技术演进

阿里技术

大数据 算法

java培训班学习后怎样才能找到工作

小谷哥

Go-Excelize API源码阅读(十一)—— GetActiveSheetIndex()

Regan Yue

Go 开源 源码刨析 8月日更 8月月更

家电上云后,智能家居如何构建场景化应用

华为云开发者联盟

云计算 后端 IoT 智能家居

深度学习公式推导(2):激活函数与偏置

老崔说架构

Postman如何做接口测试:导入 swagger 接口文档

和牛

测试 Postman

开源一夏 | 使用 CSS 的仿 GitHub 登录页面

海拥(haiyong.site)

开源 8月月更

旅游吗?腾云驾雾的那种

天翼云开发者社区

前端培训中怎么提升开发技术水平?

小谷哥

大数据培训中心哪家比较靠谱

小谷哥

EMAS Serverless系列~4步教你快速搭建小程序

hum建应用专家

Serverless #EMAS

架构实战营毕业总结

Geek_Q

一不小心晋级“CCF国际AIOps挑战赛”决赛?

天翼云开发者社区

建设医共体,患者有“医”靠!

天翼云开发者社区

未来源码丨会写代码的AI开源了!C语言写得比Codex还要好,掌握12种编程语言丨CMU

MobTech袤博科技

c 开源 AI

数字先锋 | 海南省数据产品超市:让买数据产品像逛超市一样方便

天翼云开发者社区

数字化

大数据软件开发哪里的培训比较好

小谷哥

十年数智求索路,餐饮SaaS头部企业客如云如何走向盈利

ToB行业头条

网页制作常见问题网页的必要性与方法

Baklib

SPI:Java的高可扩展利器

华为云开发者联盟

Java 开发

2022 智能云边开源峰会|Kyligence 邀您“云”上相约

Kyligence

人工智能 云原生 边缘计算 开源峰会

文档管理是企业进步必不可少的要素

Baklib

腾讯大模型APP真实测评!七家国产大模型“battle”,元宝顶得住吗?_生成式 AI_华卫_InfoQ精选文章