【AICon】AI 基础设施、LLM运维、大模型训练与推理,一场会议,全方位涵盖! >>> 了解详情
写点什么

“超级知识助手”来了,科大讯飞发布首个长文本、长图文、长语音的大模型,触达企业落地最后一公里

  • 2024-04-26
    北京
  • 本文字数:3433 字

    阅读完需:约 11 分钟

“超级知识助手”来了,科大讯飞发布首个长文本、长图文、长语音的大模型,触达企业落地最后一公里

4 月 26 日,讯飞星火大模型 V3.5(以下简称“讯飞星火”)春季上新。面向用户高效准确知识获取的痛点,科大讯飞发布业界首个长文本、长图文、长语音大模型,不仅能够把各种信息来源的海量文本、图文资料、会议录音等进行快速学习,还能够在各种行业场景给出专业、准确回答。


科大讯飞进一步升级星火语音大模型,首发多情感超拟人合成,具备情绪表达能力,并推出一句话声音复刻功能,让科技更有温度。


同时,面向企业应用场景,科大讯飞推出星火智能体平台,帮助企业解决大模型落地的最后一公里难题。

持续用技术进步解决真实刚需,讯飞星火也在获得越来越多用户的认可。据七麦数据显示,讯飞星火 APP 在安卓端的下载量已经超过 9600 万次,在国内工具类通用大模型 APP 中排名第一。


首发长文本、长图文、长语音大模型,助力知识高效获取


为什么科大讯飞要做长文本、长图文、长语音的大模型?通过讯飞星火 APP 可以看到,用户使用的最高峰不是周末,而是工作日的上午 9:30 和下午 3:30。这意味着,大部分用户用讯飞星火来解决和工作相关的刚需问题。而高效的知识获取是用户和开发者都高度关注的问题。


科大讯飞分析发现,在知识获取和学习的过程中,广大用户能拿到的资料往往不仅是现成的长文本,还有随手可见的报刊书籍内容、各种研讨会的 PPT 内容,老师黑板上的板书、同学的笔记,以及各种会议录音、访谈,各种网上的发布会、培训教育视频等,能不能把这些文本、图片、语音等都上传到讯飞星火中,快速地获取知识?


为此,科大讯飞推出首个支持长文本、长图文、长语音的大模型,来解决用户真实场景中多源信息的获取需求。



本次讯飞星火长文本功能全新升级后,具备长文档信息抽取、长文档知识问答、长文档归纳总结、长文档文本生成等能力,总体已经达到 GPT-4 Turbo 4 月最新长文本版本的 97%水平,而在银行、保险、汽车、电力等多个垂直领域的知识问答任务上,讯飞星火长文本总体水平已经超过 GPT-4 Turbo。


长文本功能的落地需要解决信息高效处理的问题:面对上百万甚至上千万文字,长文本大模型消耗的运算资源非常大。



为了解决大模型应用效率和准确率问题,刘庆峰谈道,基于讯飞星火 V3.5 对长文本的理解、学习、回答能力,科大讯飞进行了重要的模型剪枝和蒸馏,从而推出业界性能最优的 130 亿参数的大模型,在效果损失仅 3%以内的情况下,使得星火在文档上传解析处理、知识问答的首响时间以及文字生成方面都获得了极大的效率提升。测试显示,在保障长文本效果的情况下,无论是 10K、64K、128K token,还是更长的文本上,星火大模型的性能都做到业界最优。


面向复杂的图文场景,科大讯飞在图文识别、公式识别大赛多年国际第一的技术积累基础上,首次推出星火图文识别大模型。



相比传统小模型逐行文字识别的限制,星火图文识别大模型具有三大优势:

  • 能够直接处理非常复杂的版面分析,目前已经覆盖 31 个典型场景,比如书刊、学术论文、专利、报纸、海报、PPT 等,同时能自动识别标注出 18 类不同的版面要素,比如页眉、页脚、标题、段落、表格、公式、印章、手写等;

  • 融合篇章上下文语义进行文字识别,识别更精准;

  • 面向教育、金融、医疗、科研等专业领域深度优化,能自动实现更多领域的专业符号识别。



根据国际公开的权威英文测试集来看,讯飞星火的图文识别效果超过微软和谷歌。从典型应用场景来看,在科研、金融以及企业产品技术文档等识别效果都处于业界领先地位。


此外,面对广泛的音视频信息高效获取需求,科大讯飞也推出长语音功能,将国际领先的语音识别和翻译技术结合起来,可以实现会议录音、学习视频等的一键研读,实现音视频场景的高效知识获取。

发布合同助手、升级 AI 学习机,以技术进步解决真实刚需


讯飞星火长文本、长图文、长语音能力的升级,进一步推动大模型在各个场景的落地。刘庆峰重点介绍了讯飞星火在招投标、合同、教育等场景下的应用。



在招投标场景,此前凭借讯飞星火领先的文本理解、逻辑推理和数学能力,科大讯飞和国家能源物资公司在企业采购场景合作了智能无人评审系统,已经在国资委网站上被作为典型案例推荐。据介绍,在国家能源集团已评审 5.7 万余单,评审准确率达 97%。这一次,叠加本次升级的长文本和长图文能力,可以让评标更便捷、更高效、更准确。



日常生活中,我们在买卖商品、装修房屋或者是购买汽车保险时经常会遇到各种各样的合同,看不懂存在风险怎么办?科大讯飞推出星火合同助手,它可以对我们的合同进行风险审核、合同比对,摘要总结以及合同生成,迅速识别潜在风险漏洞,成为你口袋里的“法务助手”。



在教育场景,科大讯飞进一步升级了讯飞 AI 学习机产品,不仅对作文的批改、对理科的批改更加精准,也让智能化辅学更有针对性更高效;也结合本次多模态能力升级了百科问答功能,星火大模型理解并融合了大量图书知识,对于孩子的奇思妙问等复杂问题,“爱因斯坦”和他的大咖虚拟人朋友都能回答,让孩子们在趣味互动中学知识、长见识,同时提升了孩子主动提问的意愿和能力。


智慧黑板也再次升级,搭载长文本和长语音能力,让实录转写效率得以提升的同时,提升篇章梳理能力。其次是星火教师助手,融入长文本能力后,可以把优质教辅内容融入,教师在备课的过程中就可以直接融入教辅教参中的内容,进一步丰富备课资源,提升备课效率。


此外,星火科研助手目前已在中国科学院、三亚崖州湾科技城、北京邮电大学、哈尔滨工业大学等机构高校铺开应用。多模态能力升级下,讯飞星火科研助手也进一步提升了论文问答、综述生成、实验解读等的效果,使得解析的学术资料更加丰富,进一步赋能高校和科研院所的科研工作。

能“情感共鸣”,还能“一句话声音复刻”


万物互联时代下需要更真实的 AI 语音交互。年初讯飞星火 V3.5 发布会上,科大讯飞推出了超拟人对话功能,AI 的声音更自然更真实,拟人度达到了 83%,受到用户的广泛欢迎。无论是语音可懂度、流畅度还是表现力,效果均超过 OpenAI、微软。


此次科大讯飞发布多情感超拟人合成,进一步提升了情绪表达的可感知度,对高兴、抱歉、安慰、撒娇、困惑等情绪表达的可感知度达到 85%以上,AI 语音更加生动、真实。


昊铂 HT 2024 款车型行业率先搭载科大讯飞超拟人合成技术,已在 4 月 25 日正式全球上市。



除了超拟人对话,科大讯飞还推出“一句话声音复刻”功能,一句话就可以定制你的 AI 助手声音。比如模仿小朋友的声音,每天给爷爷奶奶读书读报;在我们出差的时候,模仿我们的声音给孩子讲故事。这个功能可以让世界变得更有温度。


刘庆峰谈道,科大讯飞在个性化语音合成一直处于业界领先,目前已进阶至一句话声音复刻。当年讯飞 AI 模仿林志玲的声音需要去台湾录一个星期的声音,到后来模仿郭德纲需要一天的声音,再往后需要 5 分钟的录音,现在一句话就可以模仿。大家可以在讯飞星火 APP 上体验。

发布星火智能体平台,为企业注入新质生产力


自今年 1 月 30 日发布以来,讯飞星火 V3.5 作为首个全国产算力训练的大模型,受到了各行业伙伴和开发者的广泛欢迎。据刘庆峰介绍,大模型云边端的整体解决方案正在赋能汽车、家电、运营商等越来越多的行业;在过去不到 3 个月的时间里,讯飞新增了 55 万实名认证的开发者,其中一半以上来自企业。



对企业来说,如何高效地获取和学习知识同样是痛点,科大讯飞给出的答案是智能体,并面向企业场景推出全新的智能体平台。


企业构建智能体的环节主要涉及任务理解、外部信源打通、内部各个 IT 系统打通以及私域知识深入融合等环节,最终根据每个任务的执行结果输出答案,这样一个完整的过程才能够最终完成智能体的构建。



刘庆峰谈道,在讯飞星火智能体平台上,针对用户的输入,首先,基于讯飞星火大模型非常聪明的底座能力,会自动实现用户输入的精准理解和任务规划。其次,解析完了相关的任务和对应的工具之后,讯飞星火也构建形成了包括天气、航班、企查查等成体系的外部信息来源的对接;同时,星火智能体平台还通过互认证的机制,实现了往往是独立的、隔离的 OA 系统、CRM 系统以及 ERP 系统的打通,完成相应操作;最后,通过私域知识融入机制,智能体平台很容易实现企业所属行业以及企业私域知识的融入,实现更精准的专业理解和知识问答。


此外,星火智能体平台还可以通过拖拽方式实现新智能体的创建和多智能体的协作。星火智能体平台,敏捷触达大模型应用企业落地的最后一公里。


据刘庆峰透露,科大讯飞将在 6 月 27 日发布讯飞星火大模型 V4.0,进一步解放生产力、释放想象力。


今年全国两会上,开展“人工智能+”行动,加快发展新质生产力首次写入《政府工作报告》。大模型带来的知识管理革命正在上演,无论企业还是个人,都可以站在人工智能的肩膀上,实现新的比较优势。

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2024-04-26 13:075454

评论

发布
暂无评论

两步实现让antd与IDE和睦相处的处理案例

袋鼠云数栈

大数据 开源

ffmpeg实现web在线转码

lo

4月月更

Web 3.0的未来产业趋势

王强

Web 3.0

数栈在湖仓一体上的探索与实践

袋鼠云数栈

数据库 大数据 数据湖 湖仓一体

深入理解 Page Cache

swordholder

Linux Performance Linux Kenel PageCache

Ribbon从入门到源码解析

李子捌

微服务 SpringCloud Ribbon

CTF逆向涉及的各种加密算法

网络安全学海

网络安全 信息安全 CTF 渗透测试 漏洞挖掘

Linux之last命令

入门小站

Linux

在线QuartzCron定时任务表达式在线生成

入门小站

工具

【愚公系列】2022年04月 MinIO文件存储服务器-window11下的安装

愚公搬代码

4月月更

如何保证同事的代码不会腐烂?一文带你了解 阿里巴巴 COLA 架构

Zhendong

Java 架构 4月月更

Improvements of Job Scheduler and Query Execution on Flink OLAP

Apache Flink

大数据 flink 编程 实时计算 OLAP

netty系列之:netty中的核心MessageToMessage编码器

程序那些事

Java Netty 程序那些事 4月月更

一个公式告诉你:如何提升团队的研发效率?

凌晞

技术管理 研发效率

关于元宇宙热的冷思考

CECBC

每个计算机人才都应该知道的IP地址分类

喀拉峻

计算机基础 IP

活动预告 | OpenMLDB Meetup No.2

第四范式开发者社区

人工智能 机器学习 数据库 Meetup OpenMLDB

实战异地多活架构之王者荣耀商城

晨亮

「架构实战营」

Vue DevTools 使用指南 - 如何安装和使用 Vue DevTools 调试 Vue 组件

蒋川

Vue vue devtools

龙蜥开源Plugsched:首次实现 Linux kernel 调度器热升级 | 龙蜥技术

OpenAnolis小助手

Linux 内核 龙蜥社区 Plugsched

私有链还有未来吗?

CECBC

一起看看 Go 1.18 新特性之多模块工作区模式

宇宙之一粟

Go 语言 4月月更

融合通信常见问题3月刊 | 云信小课堂

网易云信

前端

使用FFMPEG自动剪辑视频

十三

在线JSON美化格式化工具

入门小站

工具

【PIMF】OpenHarmony啃论文成长计划——浅谈中间件

离北况归

中间件 OpenHarmony 啃论文

React代码规范

Teobler

React 代码规范 编码规范 react规范

百度信誉保障服务架构全解析

百度Geek说

后端

基于 HTML+CSS+JS 的石头剪刀布游戏

海拥(haiyong.site)

html 大前端 游戏 4月月更

墨水屏的“硬伤”与福气

脑极体

什么是元宇宙?为何要关注它?

CECBC

“超级知识助手”来了,科大讯飞发布首个长文本、长图文、长语音的大模型,触达企业落地最后一公里_生成式 AI_Lucien_InfoQ精选文章