收录了 asr模型 频道下的 50 篇内容
该数据增强方案虽然方法简单,但是效果很强大
本文介绍小爱算法团队基于近年来流行的BERT预训练模型在这个问题上所进行的一些技术探索,以及在业务场景中的落地情况。
作为计算机的“耳朵”,ASR技术(自动语音识别技术)的兴起改变了人机交互方式,人们可以通过语音完成信息搜索、通话等操作,体验更自然、便捷、流畅的智能服务。
AudioPaLM是基于PaLM-2 LLM的,在翻译基准测试上优于OpenAI的Whisper。
允许开发者快速构建、训练和微调会话式人工智能模型。
作为 Google Cloud 的合作伙伴,三星使用 Cloud TPU —— Google Cloud 的内置机器学习处理器,更快地训练其 ASR 模型,并最终提升 Bixby 的准确性。
本文介绍滴滴端到端语音AI技术实践经验。
自然语言理解技术让语音助手变得像人一样和用户进行交流。本文主要讲解滴滴语音交互中自然语言理解技术的一些探索和实践。
随着深度学习的发展以及计算能力的不断提升,基于神经网络的语音合成方案逐步成为语音合成领域的研究热点。
本文介绍用机器辅助处理音频及视频的内容理解
本文内容源自「RTC Dev Meetup 丨语音处理在实时互动领域的技术实践和应用】的演讲分享,分享讲师为寰语科技语音识别研究主管马志强。
本文提出通过多任务学习框架,将自然语言理解目标融入语音识别重评分模型的训练过程,实验表明该方法可使罕见词识别错误率相对降低3%,并探讨了动态权重分配及半监督学习等优化方向。
本文将回顾最近一年通义实验室在语音AI经典的原子能力,如语音识别、语音合成、说话人识别的研究进展,并介绍语音AI结合大模型的多模态研究及应用进展。最后开源是降低AI研究和应用门槛的最有效手段,本文将会总结当前团队的开源情况,供读者鉴阅。
本文深入解析某中心Alexa实时对话翻译功能的技术架构,包括并行语音识别系统、语言识别模型及针对会话语音优化的翻译引擎,涵盖6种语言对的低延迟处理与声学模型训练细节。
在针对言语障碍患者的语音识别比赛中,多支参赛队的ASR模型在性能上超过基线模型whisper-large-v2
本文介绍RescoreBERT模型如何通过知识蒸馏和判别式训练,高效利用BERT改进语音识别的二次排序,降低错误率13%的同时满足实时性需求,并已投入实际应用。