写点什么

成本最高降 90%!百度发布端到端语音语言大模型,已在文小言上线

  • 2025-04-01
    北京
  • 本文字数:729 字

    阅读完需:约 2 分钟

大小:383.32K时长:02:10
成本最高降90%!百度发布端到端语音语言大模型,已在文小言上线

3 月 31 日,百度发布业界首个基于全新互相关注意力(Cross-Attention)的端到端语音语言大模型,实现超低时延与超低成本,在电话语音频道的语音问答场景中,调用成本较行业均值下降约 50%-90%。当日,文小言宣布品牌焕新,率先接入该模型,还带来多模型融合调度、图片问答等功能升级。



文小言最核心的三个场景依然是:搜、创、聊,支持这三个核心场景下有各种模型和技术。相比产品本身形象的升级,最重要的有两件事情:开放和应用,即能够兼容各种优秀先进模型、把各种先进模型能力用

 

文小言除了视觉变化,内核已经从单引擎大模型驱动,变成由多模型引擎驱动。更新后的文小言支持“多模型融合调度”,通过整合百度自研的文心 X1、文心 4.5 等顶尖模型,并接入 DeepSeek-R1 等第三方优质模型,实现了多模型间的智能协同。

 

百度自研大模型不但能“看”,更能“说”和“听”,背后就是其端到端语音大模型。新的端到端语音模型体验比原来会很大的提升,比如能够识别儿童的含糊发音,理解能力更符合儿童的习惯。

 

接入全新的端到端语音语言大模型后,文小言不仅能支持更拟真的语聊效果,而且支持重庆、广西、河南、广东、山东等特色方言。据介绍,语音大模型具备极低的训练和使用成本,极快的推理响应速度,语音交互时,可将用户等待时长从行业常见的 3-5 秒降低至 1 秒左右。

 

用户可以选择“自动模式”,一键调用最优模型组合,也可根据需求灵活选择单一模型完成特定任务,大幅提升响应速度与任务处理能力。

 

同时,文小言还加强了图片问答功能,用户拍摄或上传图片,以文字或语音提问即可直接获取深度解析。例如,拍摄一道数学题可实时生成解题思路与视频解析;上传多款商品图可对比参数、价格,辅助购物决策;拍摄杯子设计图后,AI 可自动解析风格并生成同款手机壳、支架等周边产品。



2025-04-01 16:256309

评论

发布
暂无评论

WGCLOUD和zabbix、prometheus(普罗米修斯)有什么区别

王逅逅

服务器部署 运维平台 zabbix Prometheus linux security

【架构训练营模块一作业】微信业务架构图 & 学生管理系统

yhjhero

架构实战营

虎符宣布开启平台币回购计划 HOO应声大涨20%

区块链前沿News

Hoo虎符 Hoo 虎符交易所 虎符平台币

Flink 实现 MySQL CDC 动态同步表结构

腾讯云大数据

flink 源码 流计算 Oceanus

2022年运维工程师必备利器-云管平台

行云管家

云计算 运维 云管平台 2022

Think in Mingdao——人人都是全栈工程师

明道云

写给Android开发者的芯片知识

轻口味

人工智能 android 行业资讯 芯片 1月月更

多协议接入框架 xRPC 发布在即,为你解读更多 APISIX 生态细节

API7.ai 技术团队

后端开发 api 网关 后端技术 后端数据

从重大漏洞应急看云原生架构下的安全建设与安全运营(下)

腾讯安全云鼎实验室

云原生 安全漏洞 容器安全 安全服务

Linux之grep命令

入门小站

Linux

源码深度剖析:Eureka与Ribbon是怎么做服务发现的?

碌碌无为小码农

Java 架构 程序人生 编程语言 经验分享

你会几种读取/加载 properties配置文件方法

华为云开发者联盟

Java 开发 ClassLoader properties 配置文件

深入浅出 Apache Pulsar(5)Pulsar Connectors

云智慧AIOps社区

Java kafka 云原生 消息中间件 Apache Pulsar 消息系统

学生管理系统架构设计

孙强

架构实战营

2021 大促 AntMonitor 总结 - 云原生 Prometheus 监控实践

SOFAStack

云原生 分布式架构 SIGMA

做了5年后端研发,靠着这份面试题跟答案,我从12K变成了30K

碌碌无为小码农

Java 架构 程序人生 编程语言 经验分享

基于esbuild的universal bundler设计

字节跳动终端技术

json 字节跳动 前端 火山引擎 lynx

超赞:不愧是“阿里内部Redis学习笔记”从头到尾,全是精华

碌碌无为小码农

Java 面试 程序人生 编程语言 经验分享

从交换机安全配置,看常见局域网攻击

网络安全学海

网络安全 信息安全 渗透测试 WEB安全 安全漏洞

云平台和云管平台的三大区别详细解析-行云管家

行云管家

云计算 云服务 云平台 云管平台

SQL基于时间的盲注过程

喀拉峻

网络安全

剖析CWE视图的层次定义和解析方式

华为云开发者联盟

存储 视图 cwe CWE节点 CWE视图

恒源云(GPUSHARE)_【Object Detection 20年】小结

恒源云

深度学习 计算机视觉 目标检测

在线TOML转YAML工具

入门小站

工具

书单 | 致敬计算机视觉领域经典著作!

博文视点Broadview

虎啸龙吟之国产数据库风云榜-2022年01月

墨天轮

数据库 国产数据库

介绍一种在ABAP内核态进行内表高效拷贝的方法,和对应的Java和JavaScript版本的伪实现

汪子熙

Java JavaScript abap 1月月更

ReactNative进阶(三十三):Mac 下 homebrew 的安装和 brew 命令的使用

No Silver Bullet

homebrew React Native 1月月更

鸿蒙轻内核源码分析:Newlib C

华为云开发者联盟

鸿蒙 内核 LiteOS-M Newlib C Newlib

☕【Java深层系列】「并发编程系列」让我们一起探索一下CountDownLatch的技术原理和源码分析

码界西柚

Java 并发编程 jdk8 1月月更

2022 福虎芯旺 | 旺链科技新春线上年会回顾

旺链科技

区块链 产业区块链 年会

成本最高降90%!百度发布端到端语音语言大模型,已在文小言上线_AI&大模型_褚杏娟_InfoQ精选文章