

 写点什么

asr模型

收录了 asr模型频道下的 50 篇内容

性能超越经典 ASR 模型：谷歌重磅推出全新语音识别数据增强方法

该数据增强方案虽然方法简单，但是效果很强大

作者 : Daniel S. ParkWilliam Chan 译者: 马卓奇

2019-04-28

9767

基于 BERT 的 ASR 纠错

本文介绍小爱算法团队基于近年来流行的BERT预训练模型在这个问题上所进行的一些技术探索，以及在业务场景中的落地情况。

作者 : DataFunTalk

2020-07-20

准确率提升近 4%，自研 ASR 模型助力公安机关筑牢反诈安全网

作为计算机的“耳朵”，ASR技术（自动语音识别技术）的兴起改变了人机交互方式，人们可以通过语音完成信息搜索、通话等操作，体验更自然、便捷、流畅的智能服务。

中关村科金

2023-08-04

谷歌语音人工智能 AudioPaLM，语音传输瞬间翻译

AudioPaLM是基于PaLM-2 LLM的，在翻译基准测试上优于OpenAI的Whisper。

作者：Anthony Alford 译者: 刘雅梦策划: 丁晓昀

2023-08-02

NVIDIA 开源 NeMo：基于 PyTorch，允许快速创建会话式人工智能模型

允许开发者快速构建、训练和微调会话式人工智能模型。

作者 : Oleksii Kuchaiev 译者: Sambodhi 策划: 赵钰莹

2020-10-13

三星电子 (Samsung Electronics) 借助 Cloud TPU 和 TensorFlow 增强 Bixby

作为 Google Cloud 的合作伙伴，三星使用 Cloud TPU —— Google Cloud 的内置机器学习处理器，更快地训练其 ASR 模型，并最终提升 Bixby 的准确性。

作者 : Google Cloud

2021-04-15

从算法到应用：滴滴端到端语音 AI 技术实践

本文介绍滴滴端到端语音AI技术实践经验。

作者 : DataFunTalk

2020-02-05

779

“像把大象塞进冰箱一样困难”，端侧大模型是噱头还是未来？

随着大模型技术的发展进入深水区，AI 应用的体验、成本、与隐私性正在成为愈来愈关键的命题。大模型若能直接在终端侧部署，对产业应用毫无疑问有着巨大的吸引力。那么，端侧大模型落地应如何克服庞大的模型尺寸与计算复杂度呢？

作者 : Kitty 策划: QCon全球软件开发大会

2025-10-16

不到 25MB！端侧 TTS 模型 KittenTTS 开源；Aqua Voice 发布 ASR 模型，专为人机对话设计丨日报

开发者朋友们大家好：

RTE开发者社区

2025-08-23

通义发布小尺寸多模态模型 Qwen2.5-Omni-3B；英伟达开源 ASR 模型 Parakeet TDT 0.6B 丨日报

开发者朋友们大家好：

RTE开发者社区

2025-05-06

滴滴语音交互自然语言理解探索与实践

自然语言理解技术让语音助手变得像人一样和用户进行交流。本文主要讲解滴滴语音交互中自然语言理解技术的一些探索和实践。

作者 : 滴滴技术

2020-12-03

微软开源 VibeVoice-ASR 模型，支持一小时长音频处理；苹果首款 AI 设备：AirTag 尺寸胸针，双摄三麦丨日报

开发者朋友们大家好：

RTE开发者社区

01-23

云端太贵、本地不够聪明，英特尔押注“端云混合 AI”：智能体 PC 会替人完成工作

AI Agent真正进入普通人工作流的方式？

作者 : 褚杏娟

04-29

小数据量语音合成技术在作业帮的应用

随着深度学习的发展以及计算能力的不断提升，基于神经网络的语音合成方案逐步成为语音合成领域的研究热点。

作者 : 作业帮语音技术团队策划: 刘燕

2022-05-29

音频内容理解的关键技术

本文介绍用机器辅助处理音频及视频的内容理解

作者 : DataFunTalk

2019-05-31

7565

AI 一周热闻：华为豪掷 3.3 亿剑桥买地，自建光芯片工厂；比特大陆 IPO 失败，组织架构调整

AI一周热闻集合。

作者 : Jack Clark 译者: Debra

2019-03-28

2934

CosyVoice3 和 Fun-ASR 开源轻量版；Gemini 原生音频模型升级，函数调用更准确丨日报

开发者朋友们大家好：

RTE开发者社区

2025-12-16

马志强：语音识别技术研究进展和应用落地分享丨 RTC Dev Meetup

本文内容源自「RTC Dev Meetup 丨语音处理在实时互动领域的技术实践和应用】的演讲分享，分享讲师为寰语科技语音识别研究主管马志强。

音视频

语音识别

RTE开发者社区

2022-06-09

利用 NLU 标签优化 ASR 重评分模型

本文提出通过多任务学习框架，将自然语言理解目标融入语音识别重评分模型的训练过程，实验表明该方法可使罕见词识别错误率相对降低3%，并探讨了动态权重分配及半监督学习等优化方向。

语音识别

自然语言理解

qife122

2025-08-06

2024 通义语音 AI 技术图景，大模型引领 AI 再进化

本文将回顾最近一年通义实验室在语音AI经典的原子能力，如语音识别、语音合成、说话人识别的研究进展，并介绍语音AI结合大模型的多模态研究及应用进展。最后开源是降低AI研究和应用门槛的最有效手段，本文将会总结当前团队的开源情况，供读者鉴阅。

通义千问

阿里技术

2023-12-29

创作场景

asr模型

性能超越经典 ASR 模型：谷歌重磅推出全新语音识别数据增强方法

基于 BERT 的 ASR 纠错

准确率提升近 4%，自研 ASR 模型助力公安机关筑牢反诈安全网

谷歌语音人工智能 AudioPaLM，语音传输瞬间翻译

NVIDIA 开源 NeMo：基于 PyTorch，允许快速创建会话式人工智能模型

三星电子 (Samsung Electronics) 借助 Cloud TPU 和 TensorFlow 增强 Bixby

从算法到应用：滴滴端到端语音 AI 技术实践

“像把大象塞进冰箱一样困难”，端侧大模型是噱头还是未来？

不到 25MB！端侧 TTS 模型 KittenTTS 开源；Aqua Voice 发布 ASR 模型，专为人机对话设计丨日报

通义发布小尺寸多模态模型 Qwen2.5-Omni-3B；英伟达开源 ASR 模型 Parakeet TDT 0.6B 丨日报

滴滴语音交互自然语言理解探索与实践

微软开源 VibeVoice-ASR 模型，支持一小时长音频处理；苹果首款 AI 设备：AirTag 尺寸胸针，双摄三麦丨日报

云端太贵、本地不够聪明，英特尔押注“端云混合 AI”：智能体 PC 会替人完成工作

小数据量语音合成技术在作业帮的应用

音频内容理解的关键技术

AI 一周热闻：华为豪掷 3.3 亿剑桥买地，自建光芯片工厂；比特大陆 IPO 失败，组织架构调整

CosyVoice3 和 Fun-ASR 开源轻量版；Gemini 原生音频模型升级，函数调用更准确丨日报

马志强：语音识别技术研究进展和应用落地分享丨 RTC Dev Meetup

利用 NLU 标签优化 ASR 重评分模型

2024 通义语音 AI 技术图景，大模型引领 AI 再进化

热点文章