AI实践哪家强?来 AICon, 解锁技术前沿,探寻产业新机! 了解详情
写点什么

“超级知识助手”来了,科大讯飞发布首个长文本、长图文、长语音的大模型,触达企业落地最后一公里

  • 2024-04-26
    北京
  • 本文字数:3433 字

    阅读完需:约 11 分钟

“超级知识助手”来了,科大讯飞发布首个长文本、长图文、长语音的大模型,触达企业落地最后一公里

4 月 26 日,讯飞星火大模型 V3.5(以下简称“讯飞星火”)春季上新。面向用户高效准确知识获取的痛点,科大讯飞发布业界首个长文本、长图文、长语音大模型,不仅能够把各种信息来源的海量文本、图文资料、会议录音等进行快速学习,还能够在各种行业场景给出专业、准确回答。


科大讯飞进一步升级星火语音大模型,首发多情感超拟人合成,具备情绪表达能力,并推出一句话声音复刻功能,让科技更有温度。


同时,面向企业应用场景,科大讯飞推出星火智能体平台,帮助企业解决大模型落地的最后一公里难题。

持续用技术进步解决真实刚需,讯飞星火也在获得越来越多用户的认可。据七麦数据显示,讯飞星火 APP 在安卓端的下载量已经超过 9600 万次,在国内工具类通用大模型 APP 中排名第一。


首发长文本、长图文、长语音大模型,助力知识高效获取


为什么科大讯飞要做长文本、长图文、长语音的大模型?通过讯飞星火 APP 可以看到,用户使用的最高峰不是周末,而是工作日的上午 9:30 和下午 3:30。这意味着,大部分用户用讯飞星火来解决和工作相关的刚需问题。而高效的知识获取是用户和开发者都高度关注的问题。


科大讯飞分析发现,在知识获取和学习的过程中,广大用户能拿到的资料往往不仅是现成的长文本,还有随手可见的报刊书籍内容、各种研讨会的 PPT 内容,老师黑板上的板书、同学的笔记,以及各种会议录音、访谈,各种网上的发布会、培训教育视频等,能不能把这些文本、图片、语音等都上传到讯飞星火中,快速地获取知识?


为此,科大讯飞推出首个支持长文本、长图文、长语音的大模型,来解决用户真实场景中多源信息的获取需求。



本次讯飞星火长文本功能全新升级后,具备长文档信息抽取、长文档知识问答、长文档归纳总结、长文档文本生成等能力,总体已经达到 GPT-4 Turbo 4 月最新长文本版本的 97%水平,而在银行、保险、汽车、电力等多个垂直领域的知识问答任务上,讯飞星火长文本总体水平已经超过 GPT-4 Turbo。


长文本功能的落地需要解决信息高效处理的问题:面对上百万甚至上千万文字,长文本大模型消耗的运算资源非常大。



为了解决大模型应用效率和准确率问题,刘庆峰谈道,基于讯飞星火 V3.5 对长文本的理解、学习、回答能力,科大讯飞进行了重要的模型剪枝和蒸馏,从而推出业界性能最优的 130 亿参数的大模型,在效果损失仅 3%以内的情况下,使得星火在文档上传解析处理、知识问答的首响时间以及文字生成方面都获得了极大的效率提升。测试显示,在保障长文本效果的情况下,无论是 10K、64K、128K token,还是更长的文本上,星火大模型的性能都做到业界最优。


面向复杂的图文场景,科大讯飞在图文识别、公式识别大赛多年国际第一的技术积累基础上,首次推出星火图文识别大模型。



相比传统小模型逐行文字识别的限制,星火图文识别大模型具有三大优势:

  • 能够直接处理非常复杂的版面分析,目前已经覆盖 31 个典型场景,比如书刊、学术论文、专利、报纸、海报、PPT 等,同时能自动识别标注出 18 类不同的版面要素,比如页眉、页脚、标题、段落、表格、公式、印章、手写等;

  • 融合篇章上下文语义进行文字识别,识别更精准;

  • 面向教育、金融、医疗、科研等专业领域深度优化,能自动实现更多领域的专业符号识别。



根据国际公开的权威英文测试集来看,讯飞星火的图文识别效果超过微软和谷歌。从典型应用场景来看,在科研、金融以及企业产品技术文档等识别效果都处于业界领先地位。


此外,面对广泛的音视频信息高效获取需求,科大讯飞也推出长语音功能,将国际领先的语音识别和翻译技术结合起来,可以实现会议录音、学习视频等的一键研读,实现音视频场景的高效知识获取。

发布合同助手、升级 AI 学习机,以技术进步解决真实刚需


讯飞星火长文本、长图文、长语音能力的升级,进一步推动大模型在各个场景的落地。刘庆峰重点介绍了讯飞星火在招投标、合同、教育等场景下的应用。



在招投标场景,此前凭借讯飞星火领先的文本理解、逻辑推理和数学能力,科大讯飞和国家能源物资公司在企业采购场景合作了智能无人评审系统,已经在国资委网站上被作为典型案例推荐。据介绍,在国家能源集团已评审 5.7 万余单,评审准确率达 97%。这一次,叠加本次升级的长文本和长图文能力,可以让评标更便捷、更高效、更准确。



日常生活中,我们在买卖商品、装修房屋或者是购买汽车保险时经常会遇到各种各样的合同,看不懂存在风险怎么办?科大讯飞推出星火合同助手,它可以对我们的合同进行风险审核、合同比对,摘要总结以及合同生成,迅速识别潜在风险漏洞,成为你口袋里的“法务助手”。



在教育场景,科大讯飞进一步升级了讯飞 AI 学习机产品,不仅对作文的批改、对理科的批改更加精准,也让智能化辅学更有针对性更高效;也结合本次多模态能力升级了百科问答功能,星火大模型理解并融合了大量图书知识,对于孩子的奇思妙问等复杂问题,“爱因斯坦”和他的大咖虚拟人朋友都能回答,让孩子们在趣味互动中学知识、长见识,同时提升了孩子主动提问的意愿和能力。


智慧黑板也再次升级,搭载长文本和长语音能力,让实录转写效率得以提升的同时,提升篇章梳理能力。其次是星火教师助手,融入长文本能力后,可以把优质教辅内容融入,教师在备课的过程中就可以直接融入教辅教参中的内容,进一步丰富备课资源,提升备课效率。


此外,星火科研助手目前已在中国科学院、三亚崖州湾科技城、北京邮电大学、哈尔滨工业大学等机构高校铺开应用。多模态能力升级下,讯飞星火科研助手也进一步提升了论文问答、综述生成、实验解读等的效果,使得解析的学术资料更加丰富,进一步赋能高校和科研院所的科研工作。

能“情感共鸣”,还能“一句话声音复刻”


万物互联时代下需要更真实的 AI 语音交互。年初讯飞星火 V3.5 发布会上,科大讯飞推出了超拟人对话功能,AI 的声音更自然更真实,拟人度达到了 83%,受到用户的广泛欢迎。无论是语音可懂度、流畅度还是表现力,效果均超过 OpenAI、微软。


此次科大讯飞发布多情感超拟人合成,进一步提升了情绪表达的可感知度,对高兴、抱歉、安慰、撒娇、困惑等情绪表达的可感知度达到 85%以上,AI 语音更加生动、真实。


昊铂 HT 2024 款车型行业率先搭载科大讯飞超拟人合成技术,已在 4 月 25 日正式全球上市。



除了超拟人对话,科大讯飞还推出“一句话声音复刻”功能,一句话就可以定制你的 AI 助手声音。比如模仿小朋友的声音,每天给爷爷奶奶读书读报;在我们出差的时候,模仿我们的声音给孩子讲故事。这个功能可以让世界变得更有温度。


刘庆峰谈道,科大讯飞在个性化语音合成一直处于业界领先,目前已进阶至一句话声音复刻。当年讯飞 AI 模仿林志玲的声音需要去台湾录一个星期的声音,到后来模仿郭德纲需要一天的声音,再往后需要 5 分钟的录音,现在一句话就可以模仿。大家可以在讯飞星火 APP 上体验。

发布星火智能体平台,为企业注入新质生产力


自今年 1 月 30 日发布以来,讯飞星火 V3.5 作为首个全国产算力训练的大模型,受到了各行业伙伴和开发者的广泛欢迎。据刘庆峰介绍,大模型云边端的整体解决方案正在赋能汽车、家电、运营商等越来越多的行业;在过去不到 3 个月的时间里,讯飞新增了 55 万实名认证的开发者,其中一半以上来自企业。



对企业来说,如何高效地获取和学习知识同样是痛点,科大讯飞给出的答案是智能体,并面向企业场景推出全新的智能体平台。


企业构建智能体的环节主要涉及任务理解、外部信源打通、内部各个 IT 系统打通以及私域知识深入融合等环节,最终根据每个任务的执行结果输出答案,这样一个完整的过程才能够最终完成智能体的构建。



刘庆峰谈道,在讯飞星火智能体平台上,针对用户的输入,首先,基于讯飞星火大模型非常聪明的底座能力,会自动实现用户输入的精准理解和任务规划。其次,解析完了相关的任务和对应的工具之后,讯飞星火也构建形成了包括天气、航班、企查查等成体系的外部信息来源的对接;同时,星火智能体平台还通过互认证的机制,实现了往往是独立的、隔离的 OA 系统、CRM 系统以及 ERP 系统的打通,完成相应操作;最后,通过私域知识融入机制,智能体平台很容易实现企业所属行业以及企业私域知识的融入,实现更精准的专业理解和知识问答。


此外,星火智能体平台还可以通过拖拽方式实现新智能体的创建和多智能体的协作。星火智能体平台,敏捷触达大模型应用企业落地的最后一公里。


据刘庆峰透露,科大讯飞将在 6 月 27 日发布讯飞星火大模型 V4.0,进一步解放生产力、释放想象力。


今年全国两会上,开展“人工智能+”行动,加快发展新质生产力首次写入《政府工作报告》。大模型带来的知识管理革命正在上演,无论企业还是个人,都可以站在人工智能的肩膀上,实现新的比较优势。

2024-04-26 13:076814

评论

发布
暂无评论
发现更多内容

为什么将网络虚拟化与实现服务器虚拟化不同?

九河云安全

Nginx的常用功能总结

程序员阿杜

Java nginx 8月日更

沙场秋点兵——MySQL容器化性能测试对比

焱融科技

MySQL 云计算 容器 高性能 分布式存储

针对于香港服务器快速威胁检测是加强安全的关键

九河云安全

2021 营销数字化的下一个站点

人称T客

云原生 | 混沌工程工具 ChaosBlade Operator 入门篇

RadonDB

混沌工程 RadonDB KubeSphere

关于测试的三个关键问题

QualityFocus

测试 质量 测试文化 测试落地

团队对质量负责,“我”可以不负责?

BY林子

敏捷测试 责任流程模型

Camtasia添加弹题交互教程

淋雨

视频剪辑 Camtasia 录屏软件

Zilliz 陈室余:音视频相似性检索的技术实现丨ECUG Meetup 回顾

七牛云

AI 音视频 ECUG 七牛云

一文带你认识LPWA通信技术

华为云开发者联盟

物联网 通信 NB-IoT LPWA SigFox

基于香港云服务器的解决方案可以增强金融服务公司在降低成本的同时降低风险

九河云安全

YYDS!浪潮云蝉联中国政务云服务运营市场占有率第一

云计算

香港云服务器的火爆市场,下一个未来发展将会怎么改变?

九河云安全

直播回顾 | 为什么在开发流程中应用静态代码分析工具?

鉴释

软件开发生命周期 在线研讨会 静态代码分析

云计算重塑生命科学行业,北鲲云加速生物制药企业转型

北鲲云

iOS官方瘦身方案ODR(一):初见On-Demand Resources

LabLawliet

ios 独立开发者 优化技巧 Apple Developer 8月日更

面向大规模商业系统的数据库设计和实践

百度Geek说

数据库 后端 数据库设计 数字化

时序数据库永远的难关 — 时间线膨胀(高基数 Cardinality)问题的解决方案

阿里巴巴中间件

云计算 阿里云 云原生 中间件 时序数据库

亏损、退市、卖身...区块链如何挽救影视行业?

旺链科技

区块链 版权保护 影视行业

真正决定你成败的,是时间管理!

博文视点Broadview

香港云服务器的性能提升对行业服务带来显著动力

九河云安全

难以置信!一篇文章就梳理清楚了 Python OpenCV 的知识体系

梦想橡皮擦

8月日更

使用 PolarDB 和 ECS 搭建门户网站

若尘

阿里云 Polar 8月日更

价值连城 神经网络- 吴恩达Andrew Ng Coursera Neural Networks and Deep Learning John 易筋 ARTS 打卡 Week 58

John(易筋)

ARTS 打卡计划

测试开发之系统篇-按需创建测试虚拟机

禅道项目管理

虚拟机 自动化测试 测试开发

聊聊Go语言中的数组与切片

架构精进之路

8月日更

oeasy教您玩转vim - 3 - # 打开文件

o

在 Dubbo3.0 上服务治理的实践

阿里巴巴中间件

云计算 Serverless 云原生 dubbo 中间件

单元测试:GTest之事件机制(一)

正向成长

测试 测试 单元测试 GTest

全民K歌跨端体系建设

Edwiin

跨端 hippy 全民K歌

“超级知识助手”来了,科大讯飞发布首个长文本、长图文、长语音的大模型,触达企业落地最后一公里_生成式 AI_Xue Liang_InfoQ精选文章