写点什么

“超级知识助手”来了,科大讯飞发布首个长文本、长图文、长语音的大模型,触达企业落地最后一公里

  • 2024-04-26
    北京
  • 本文字数:3433 字

    阅读完需:约 11 分钟

“超级知识助手”来了,科大讯飞发布首个长文本、长图文、长语音的大模型,触达企业落地最后一公里

4 月 26 日,讯飞星火大模型 V3.5(以下简称“讯飞星火”)春季上新。面向用户高效准确知识获取的痛点,科大讯飞发布业界首个长文本、长图文、长语音大模型,不仅能够把各种信息来源的海量文本、图文资料、会议录音等进行快速学习,还能够在各种行业场景给出专业、准确回答。


科大讯飞进一步升级星火语音大模型,首发多情感超拟人合成,具备情绪表达能力,并推出一句话声音复刻功能,让科技更有温度。


同时,面向企业应用场景,科大讯飞推出星火智能体平台,帮助企业解决大模型落地的最后一公里难题。

持续用技术进步解决真实刚需,讯飞星火也在获得越来越多用户的认可。据七麦数据显示,讯飞星火 APP 在安卓端的下载量已经超过 9600 万次,在国内工具类通用大模型 APP 中排名第一。


首发长文本、长图文、长语音大模型,助力知识高效获取


为什么科大讯飞要做长文本、长图文、长语音的大模型?通过讯飞星火 APP 可以看到,用户使用的最高峰不是周末,而是工作日的上午 9:30 和下午 3:30。这意味着,大部分用户用讯飞星火来解决和工作相关的刚需问题。而高效的知识获取是用户和开发者都高度关注的问题。


科大讯飞分析发现,在知识获取和学习的过程中,广大用户能拿到的资料往往不仅是现成的长文本,还有随手可见的报刊书籍内容、各种研讨会的 PPT 内容,老师黑板上的板书、同学的笔记,以及各种会议录音、访谈,各种网上的发布会、培训教育视频等,能不能把这些文本、图片、语音等都上传到讯飞星火中,快速地获取知识?


为此,科大讯飞推出首个支持长文本、长图文、长语音的大模型,来解决用户真实场景中多源信息的获取需求。



本次讯飞星火长文本功能全新升级后,具备长文档信息抽取、长文档知识问答、长文档归纳总结、长文档文本生成等能力,总体已经达到 GPT-4 Turbo 4 月最新长文本版本的 97%水平,而在银行、保险、汽车、电力等多个垂直领域的知识问答任务上,讯飞星火长文本总体水平已经超过 GPT-4 Turbo。


长文本功能的落地需要解决信息高效处理的问题:面对上百万甚至上千万文字,长文本大模型消耗的运算资源非常大。



为了解决大模型应用效率和准确率问题,刘庆峰谈道,基于讯飞星火 V3.5 对长文本的理解、学习、回答能力,科大讯飞进行了重要的模型剪枝和蒸馏,从而推出业界性能最优的 130 亿参数的大模型,在效果损失仅 3%以内的情况下,使得星火在文档上传解析处理、知识问答的首响时间以及文字生成方面都获得了极大的效率提升。测试显示,在保障长文本效果的情况下,无论是 10K、64K、128K token,还是更长的文本上,星火大模型的性能都做到业界最优。


面向复杂的图文场景,科大讯飞在图文识别、公式识别大赛多年国际第一的技术积累基础上,首次推出星火图文识别大模型。



相比传统小模型逐行文字识别的限制,星火图文识别大模型具有三大优势:

  • 能够直接处理非常复杂的版面分析,目前已经覆盖 31 个典型场景,比如书刊、学术论文、专利、报纸、海报、PPT 等,同时能自动识别标注出 18 类不同的版面要素,比如页眉、页脚、标题、段落、表格、公式、印章、手写等;

  • 融合篇章上下文语义进行文字识别,识别更精准;

  • 面向教育、金融、医疗、科研等专业领域深度优化,能自动实现更多领域的专业符号识别。



根据国际公开的权威英文测试集来看,讯飞星火的图文识别效果超过微软和谷歌。从典型应用场景来看,在科研、金融以及企业产品技术文档等识别效果都处于业界领先地位。


此外,面对广泛的音视频信息高效获取需求,科大讯飞也推出长语音功能,将国际领先的语音识别和翻译技术结合起来,可以实现会议录音、学习视频等的一键研读,实现音视频场景的高效知识获取。

发布合同助手、升级 AI 学习机,以技术进步解决真实刚需


讯飞星火长文本、长图文、长语音能力的升级,进一步推动大模型在各个场景的落地。刘庆峰重点介绍了讯飞星火在招投标、合同、教育等场景下的应用。



在招投标场景,此前凭借讯飞星火领先的文本理解、逻辑推理和数学能力,科大讯飞和国家能源物资公司在企业采购场景合作了智能无人评审系统,已经在国资委网站上被作为典型案例推荐。据介绍,在国家能源集团已评审 5.7 万余单,评审准确率达 97%。这一次,叠加本次升级的长文本和长图文能力,可以让评标更便捷、更高效、更准确。



日常生活中,我们在买卖商品、装修房屋或者是购买汽车保险时经常会遇到各种各样的合同,看不懂存在风险怎么办?科大讯飞推出星火合同助手,它可以对我们的合同进行风险审核、合同比对,摘要总结以及合同生成,迅速识别潜在风险漏洞,成为你口袋里的“法务助手”。



在教育场景,科大讯飞进一步升级了讯飞 AI 学习机产品,不仅对作文的批改、对理科的批改更加精准,也让智能化辅学更有针对性更高效;也结合本次多模态能力升级了百科问答功能,星火大模型理解并融合了大量图书知识,对于孩子的奇思妙问等复杂问题,“爱因斯坦”和他的大咖虚拟人朋友都能回答,让孩子们在趣味互动中学知识、长见识,同时提升了孩子主动提问的意愿和能力。


智慧黑板也再次升级,搭载长文本和长语音能力,让实录转写效率得以提升的同时,提升篇章梳理能力。其次是星火教师助手,融入长文本能力后,可以把优质教辅内容融入,教师在备课的过程中就可以直接融入教辅教参中的内容,进一步丰富备课资源,提升备课效率。


此外,星火科研助手目前已在中国科学院、三亚崖州湾科技城、北京邮电大学、哈尔滨工业大学等机构高校铺开应用。多模态能力升级下,讯飞星火科研助手也进一步提升了论文问答、综述生成、实验解读等的效果,使得解析的学术资料更加丰富,进一步赋能高校和科研院所的科研工作。

能“情感共鸣”,还能“一句话声音复刻”


万物互联时代下需要更真实的 AI 语音交互。年初讯飞星火 V3.5 发布会上,科大讯飞推出了超拟人对话功能,AI 的声音更自然更真实,拟人度达到了 83%,受到用户的广泛欢迎。无论是语音可懂度、流畅度还是表现力,效果均超过 OpenAI、微软。


此次科大讯飞发布多情感超拟人合成,进一步提升了情绪表达的可感知度,对高兴、抱歉、安慰、撒娇、困惑等情绪表达的可感知度达到 85%以上,AI 语音更加生动、真实。


昊铂 HT 2024 款车型行业率先搭载科大讯飞超拟人合成技术,已在 4 月 25 日正式全球上市。



除了超拟人对话,科大讯飞还推出“一句话声音复刻”功能,一句话就可以定制你的 AI 助手声音。比如模仿小朋友的声音,每天给爷爷奶奶读书读报;在我们出差的时候,模仿我们的声音给孩子讲故事。这个功能可以让世界变得更有温度。


刘庆峰谈道,科大讯飞在个性化语音合成一直处于业界领先,目前已进阶至一句话声音复刻。当年讯飞 AI 模仿林志玲的声音需要去台湾录一个星期的声音,到后来模仿郭德纲需要一天的声音,再往后需要 5 分钟的录音,现在一句话就可以模仿。大家可以在讯飞星火 APP 上体验。

发布星火智能体平台,为企业注入新质生产力


自今年 1 月 30 日发布以来,讯飞星火 V3.5 作为首个全国产算力训练的大模型,受到了各行业伙伴和开发者的广泛欢迎。据刘庆峰介绍,大模型云边端的整体解决方案正在赋能汽车、家电、运营商等越来越多的行业;在过去不到 3 个月的时间里,讯飞新增了 55 万实名认证的开发者,其中一半以上来自企业。



对企业来说,如何高效地获取和学习知识同样是痛点,科大讯飞给出的答案是智能体,并面向企业场景推出全新的智能体平台。


企业构建智能体的环节主要涉及任务理解、外部信源打通、内部各个 IT 系统打通以及私域知识深入融合等环节,最终根据每个任务的执行结果输出答案,这样一个完整的过程才能够最终完成智能体的构建。



刘庆峰谈道,在讯飞星火智能体平台上,针对用户的输入,首先,基于讯飞星火大模型非常聪明的底座能力,会自动实现用户输入的精准理解和任务规划。其次,解析完了相关的任务和对应的工具之后,讯飞星火也构建形成了包括天气、航班、企查查等成体系的外部信息来源的对接;同时,星火智能体平台还通过互认证的机制,实现了往往是独立的、隔离的 OA 系统、CRM 系统以及 ERP 系统的打通,完成相应操作;最后,通过私域知识融入机制,智能体平台很容易实现企业所属行业以及企业私域知识的融入,实现更精准的专业理解和知识问答。


此外,星火智能体平台还可以通过拖拽方式实现新智能体的创建和多智能体的协作。星火智能体平台,敏捷触达大模型应用企业落地的最后一公里。


据刘庆峰透露,科大讯飞将在 6 月 27 日发布讯飞星火大模型 V4.0,进一步解放生产力、释放想象力。


今年全国两会上,开展“人工智能+”行动,加快发展新质生产力首次写入《政府工作报告》。大模型带来的知识管理革命正在上演,无论企业还是个人,都可以站在人工智能的肩膀上,实现新的比较优势。

2024-04-26 13:077070

评论

发布
暂无评论
发现更多内容

如何通过ETLCloud实现跨系统数据同步?

谷云科技RestCloud

MySQL 数据库 数据同步 ETL 数据集成

通义灵码+云效 DevOps MCP:通过云效工作项自动生成代码并提交请求

阿里巴巴云原生

阿里云 云原生 通义灵码 MCP

通义灵码+云效 DevOps MCP:通过云效工作项自动生成代码并提交请求

阿里云云效

阿里云 通义灵码 MCP

Java面试八股文大全(附各大厂面试真题及答案)

Geek_Yin

编程 程序员 java面试 Java面试题

Java基础八股文面试题总结+答案解析

Geek_Yin

编程 程序员 java面试 Java面试题

2025最新版Java面试八股文PDF

Geek_Yin

编程 程序员 java面试 Java面试题

家具工厂MES生产管理系统解决方案

万界星空科技

制造业 mes 万界星空科技mes 家具行业 家具mes

AI 本地化部署的详细方案

北京木奇移动技术有限公司

软件外包公司 AI技术应用 AI本地化部署

“一代更比一代强”:现代 RAG 架构的演进之路

Baihai IDP

AI LLM 检索增强生成

华南会议|最新日程,2025 Altair区域技术交流会,报名火热进行中!

Altair RapidMiner

人工智能 AI 汽车 数字孪生 CAE

背完这套 Java 面试八股文,offer拿到手软

Geek_Yin

编程 程序员 java面试 Java面试题

告别“算不清的账”,甲方安全的“ROI 之痛”有救了!

塞讯科技

rol

快手基础大模型团队7篇论文入选人工智能领域顶会ACL 2025

快手技术

acl 快手 论文解读 学术成果

昇腾NPU上基于MindIE服务的AIME和MATH500测评方案

小顺637

大模型 昇腾

埃文科技智能数据引擎产品入选《中国网络安全细分领域产品名录》

郑州埃文科技

Vue3组件通信全攻略:多种方式详解+实战场景,轻松玩转复杂数据流!

量贩潮汐·WholesaleTide

JavaScript Vue 3

一文就可搞清楚的HarmonyOS NEXT解锁模态页面的“真香”操作

程序员Feri

HarmonyOS NEXT

什么是Redis缓存穿透?redis面试题及答案乐分享(附面试题大全)

程序员高级码农

redis 程序员

如何批量查询手机号码归属地,在线工具平台,可按省份分离、按城市分开、按号段分类、按移动联通电信来分别导出excel。

飞舞的键盘

鸿蒙仓颉语言开发教程:仓颉语言中的状态存储

幽蓝计划

DePIN的底层逻辑:让物理基础设施加速市场化

PowerVerse

加密货币 去中心化 算力 #区块链 DePIN

HTTP2.0 从原理到实践,保证把你治得服服帖帖!

左诗右码

郑州工程技术学院赴埃文科技开展访企拓岗促就业活动

郑州埃文科技

最全的Java面试八股文合集

Geek_Yin

编程 程序员 java面试 Java面试题

AI本地化部署的流程

北京木奇移动技术有限公司

AI技术 软件外包公司 AI本地化

使用 Run:ai Model Streamer 实现模型的高效加载

Se7en

5月 | 塞讯模拟攻击库更新汇总

塞讯科技

网络安全

中烟创新AI审核平台,打造烟草行业采购全链条合规管理新范式

中烟创新

深度解读「高盛」人形机器人双研报:主流人形机器人公司梳理和商业化瓶颈(附报告)

机器人头条

科技 大模型 人形机器人 具身智能

中科大、月之暗面等开源对话式语音合成模型 MoonCast;ChatGPT 发布「录音模式」,自动录音和生成会议纪要丨日报

声网

Redis 数据恢复的月光宝盒,闪回到任意指定时间

百度Geek说

“超级知识助手”来了,科大讯飞发布首个长文本、长图文、长语音的大模型,触达企业落地最后一公里_生成式 AI_Xue Liang_InfoQ精选文章