收录了 asr模型 频道下的 50 篇内容
该数据增强方案虽然方法简单,但是效果很强大
本文介绍小爱算法团队基于近年来流行的BERT预训练模型在这个问题上所进行的一些技术探索,以及在业务场景中的落地情况。
作为计算机的“耳朵”,ASR技术(自动语音识别技术)的兴起改变了人机交互方式,人们可以通过语音完成信息搜索、通话等操作,体验更自然、便捷、流畅的智能服务。
AudioPaLM是基于PaLM-2 LLM的,在翻译基准测试上优于OpenAI的Whisper。
允许开发者快速构建、训练和微调会话式人工智能模型。
作为 Google Cloud 的合作伙伴,三星使用 Cloud TPU —— Google Cloud 的内置机器学习处理器,更快地训练其 ASR 模型,并最终提升 Bixby 的准确性。
本文介绍滴滴端到端语音AI技术实践经验。
自然语言理解技术让语音助手变得像人一样和用户进行交流。本文主要讲解滴滴语音交互中自然语言理解技术的一些探索和实践。
随着深度学习的发展以及计算能力的不断提升,基于神经网络的语音合成方案逐步成为语音合成领域的研究热点。
本文介绍用机器辅助处理音频及视频的内容理解
本文内容源自「RTC Dev Meetup 丨语音处理在实时互动领域的技术实践和应用】的演讲分享,分享讲师为寰语科技语音识别研究主管马志强。
本文将回顾最近一年通义实验室在语音AI经典的原子能力,如语音识别、语音合成、说话人识别的研究进展,并介绍语音AI结合大模型的多模态研究及应用进展。最后开源是降低AI研究和应用门槛的最有效手段,本文将会总结当前团队的开源情况,供读者鉴阅。
在运营商家宽业务支撑场景中,存在多个APP和系统需要与装维人员交互,传统的功能按钮点击型操作交互界面,越来越难以满足装维人员工作提效的迫切需求。家宽施工调度系统所需的AI语音能力主要包括ASR(音转字)和TTS(字转音)。
摘要:在本文中,我们展示了CLAS,一个全神经网络组成,端到端的上下文ASR模型,通过映射所有的上下文短语,来融合上下文信息。在实验评估中,我们发现提出的CLAS模型超过了标准的shallow fusion偏置方法。
通用 ASR 的字准确率虽然已经非常高,但是在面向具体的场景(游戏场景、私聊场景、群聊场景、主播场景)时,还是存在场景不匹配的问题,因为通用的 ASR 在这些领域中的应用相对比较困难,主要存在以下问题。
在滴滴也有丰富的语音交互场景落地,为了更快更稳定地输出语音识别模型,提高业务识别准确率,我们开发了语音识别模型自学习平台。
日前,火山语音团队七篇论文成功入选国际顶会Interspeech2022,内容涵盖音频合成、音频理解等多个技术方向的创新突破。Interspeech作为国际语音通信协会ISCA组织的语音研究领域的顶级会议之一,也被称为全球最大的综合性语音信号处理盛会,在世界范围内享有极高声
6月8日记者获悉,ICPR2022多模态字幕识别比赛(Multimodal Subtitle Recognition简称MSR竞赛)日前正式结束,共有376位来自各大高校和企业的选手参赛。