写点什么

成本最高降 90%!百度发布端到端语音语言大模型,已在文小言上线

  • 2025-04-01
    北京
  • 本文字数:729 字

    阅读完需:约 2 分钟

大小:383.32K时长:02:10
成本最高降90%!百度发布端到端语音语言大模型,已在文小言上线

3 月 31 日,百度发布业界首个基于全新互相关注意力(Cross-Attention)的端到端语音语言大模型,实现超低时延与超低成本,在电话语音频道的语音问答场景中,调用成本较行业均值下降约 50%-90%。当日,文小言宣布品牌焕新,率先接入该模型,还带来多模型融合调度、图片问答等功能升级。



文小言最核心的三个场景依然是:搜、创、聊,支持这三个核心场景下有各种模型和技术。相比产品本身形象的升级,最重要的有两件事情:开放和应用,即能够兼容各种优秀先进模型、把各种先进模型能力用

 

文小言除了视觉变化,内核已经从单引擎大模型驱动,变成由多模型引擎驱动。更新后的文小言支持“多模型融合调度”,通过整合百度自研的文心 X1、文心 4.5 等顶尖模型,并接入 DeepSeek-R1 等第三方优质模型,实现了多模型间的智能协同。

 

百度自研大模型不但能“看”,更能“说”和“听”,背后就是其端到端语音大模型。新的端到端语音模型体验比原来会很大的提升,比如能够识别儿童的含糊发音,理解能力更符合儿童的习惯。

 

接入全新的端到端语音语言大模型后,文小言不仅能支持更拟真的语聊效果,而且支持重庆、广西、河南、广东、山东等特色方言。据介绍,语音大模型具备极低的训练和使用成本,极快的推理响应速度,语音交互时,可将用户等待时长从行业常见的 3-5 秒降低至 1 秒左右。

 

用户可以选择“自动模式”,一键调用最优模型组合,也可根据需求灵活选择单一模型完成特定任务,大幅提升响应速度与任务处理能力。

 

同时,文小言还加强了图片问答功能,用户拍摄或上传图片,以文字或语音提问即可直接获取深度解析。例如,拍摄一道数学题可实时生成解题思路与视频解析;上传多款商品图可对比参数、价格,辅助购物决策;拍摄杯子设计图后,AI 可自动解析风格并生成同款手机壳、支架等周边产品。



2025-04-01 16:255936

评论

发布
暂无评论

【JavaScript】:有关js类型转换的那些事...

翼同学

JavaScript 编程语言、 8月月更 学习分享

未来,人人都是创造者

石云升

开源 未来技术趋势 8月月更

数字化转型别着急,先看看如何打通数据孤岛吧

雨果

数字化转型 打通数据孤岛

NFT盲盒游戏商城交易系统开发技术

薇電13242772558

NFT 盲盒

App Push 通用测试方案

转转技术团队

测试工具

低成本、强交互、沉浸式的云游戏,究竟如何实现?

阿里云CloudImagine

视频云 云游戏

【数据结构实践】手把手带你实现 Python 自定义数组

迷彩

开源 数据结构 面向对象 数组操作 8月月更

【CSS】字体样式,包括字体系列、大小、修饰、粗细、简写...

翼同学

CSS 编程语言 8月月更

讲真,这份秋招豪礼【面试锦囊】真舍不得给你们

浅羽技术

面试 面试题 秋招 8月月更 秋招你准备的怎样了

云原生(二十五) | Kubernetes篇之Kubernetes(k8s)临时存储

Lansonli

云原生 k8s 8月月更

倒计时1天!计算巢软件免费试用中心发布,即刻报名!

阿里云弹性计算

计算巢 试用中心

Http缓存原来如此,牛波牛波

知识浅谈

HTTP缓存 8月月更

如何学习一项新技术?

平凡人生

{版本发布公告}HMS Core 6.6.0来啦

HarmonyOS SDK

合合信息对于表格识别与内容提炼技术理解及研发趋势

合合技术团队

人工智能 表格识别 合合信息

解决在 Spring Boot 中运行 JUnit 测试遇到的 NoSuchMethodError 错误

HoneyMoose

数字馆藏电子商务平台开发:如何发展数字藏品?

开源直播系统源码

软件开发 区块链技术 NFT 数字藏品 数字藏品开发

用两个栈实现队列

掘金安东尼

算法 前端 8月月更

精细化资产管理

IT资讯搬运工

iofod——WeUI基础组件解析

独来独往

前端 低代码 开发工具 weui iofod

《 合 成 大 西 瓜 》 重 制 版 !( 联 机 版 在 做 了 )

HullQin

CSS JavaScript html 前端 8月月更

java的可变参数

TimeFriends

8月月更

基于SpringBoot的SSMP整合

SpringBoot 2 Mybatis-Plus 8月月更

图文详解:内存总是不够,我靠HBase说服了Leader为新项目保驾护航

浅羽技术

数据库 大数据 微服务 HBase 8月月更

leetcode 594. Longest Harmonious Subsequence 最长和谐子序列(简单).md

okokabcd

LeetCode 算法与数据结构

【Java·访问修饰符】:default、public、protected、private

翼同学

Java 学习 编程语言 8月月更

Docker下Prometheus和Grafana三部曲之二:细说Docker编排

程序员欣宸

Grafana Prometheus 8月月更

Linux热潮下,来呆猫云工作站玩转云上部署Linux工作流新思路

科技怪咖

Go-Excelize API源码阅读(二十)——SetDefinedName

Regan Yue

Go 开源 源码阅读 8月日更 8月月更

一个奇葩的线上问题,导致我排查了一天

艾小仙

Java elasticsearch 程序员 ELK

不容错过!什么是领域驱动设计?为什么落地这么难?

京东科技开发者

前端 代码 领域驱动模型DDD 中台架构 研发提效

成本最高降90%!百度发布端到端语音语言大模型,已在文小言上线_AI&大模型_褚杏娟_InfoQ精选文章