写点什么

asr模型

收录了 asr模型 频道下的 50 篇内容

性能超越经典ASR模型:谷歌重磅推出全新语音识别数据增强方法
性能超越经典 ASR 模型:谷歌重磅推出全新语音识别数据增强方法

该数据增强方案虽然方法简单,但是效果很强大

基于BERT的ASR纠错
基于 BERT 的 ASR 纠错

本文介绍小爱算法团队基于近年来流行的BERT预训练模型在这个问题上所进行的一些技术探索,以及在业务场景中的落地情况。

准确率提升近 4%,自研 ASR 模型助力公安机关筑牢反诈安全网

作为计算机的“耳朵”,ASR技术(自动语音识别技术)的兴起改变了人机交互方式,人们可以通过语音完成信息搜索、通话等操作,体验更自然、便捷、流畅的智能服务。

谷歌语音人工智能AudioPaLM,语音传输瞬间翻译
谷歌语音人工智能 AudioPaLM,语音传输瞬间翻译

AudioPaLM是基于PaLM-2 LLM的,在翻译基准测试上优于OpenAI的Whisper。

NVIDIA开源NeMo:基于PyTorch,允许快速创建会话式人工智能模型
NVIDIA 开源 NeMo:基于 PyTorch,允许快速创建会话式人工智能模型

允许开发者快速构建、训练和微调会话式人工智能模型。

三星电子 (Samsung Electronics) 借助 Cloud TPU 和 TensorFlow 增强 Bixby
三星电子 (Samsung Electronics) 借助 Cloud TPU 和 TensorFlow 增强 Bixby

作为 Google Cloud 的合作伙伴,三星使用 Cloud TPU —— Google Cloud 的内置机器学习处理器,更快地训练其 ASR 模型,并最终提升 Bixby 的准确性。

从算法到应用:滴滴端到端语音AI技术实践
从算法到应用:滴滴端到端语音 AI 技术实践

本文介绍滴滴端到端语音AI技术实践经验。

滴滴语音交互自然语言理解探索与实践
滴滴语音交互自然语言理解探索与实践

自然语言理解技术让语音助手变得像人一样和用户进行交流。本文主要讲解滴滴语音交互中自然语言理解技术的一些探索和实践。

小数据量语音合成技术在作业帮的应用
小数据量语音合成技术在作业帮的应用

随着深度学习的发展以及计算能力的不断提升,基于神经网络的语音合成方案逐步成为语音合成领域的研究热点。

音频内容理解的关键技术
音频内容理解的关键技术

本文介绍用机器辅助处理音频及视频的内容理解

马志强:语音识别技术研究进展和应用落地分享丨RTC Dev Meetup
马志强:语音识别技术研究进展和应用落地分享丨 RTC Dev Meetup

本文内容源自「RTC Dev Meetup 丨语音处理在实时互动领域的技术实践和应用】的演讲分享,分享讲师为寰语科技语音识别研究主管马志强。

音视频
语音识别
2024通义语音AI技术图景,大模型引领AI再进化
2024 通义语音 AI 技术图景,大模型引领 AI 再进化

本文将回顾最近一年通义实验室在语音AI经典的原子能力,如语音识别、语音合成、说话人识别的研究进展,并介绍语音AI结合大模型的多模态研究及应用进展。最后开源是降低AI研究和应用门槛的最有效手段,本文将会总结当前团队的开源情况,供读者鉴阅。

通义千问
Any to Any 实时变声的实现与落地丨RTC Dev Meetup
Any to Any 实时变声的实现与落地丨 RTC Dev Meetup

本文基于声网音频体验算法专家冯建元在活动中分享内容整理。

音频
RTC Dev Meetup
生态专栏
语音处理
从 Encoder-Decoder 模型入手,探索语境偏移解决之道

​​摘要:在本文中,我们展示了CLAS,一个全神经网络组成,端到端的上下文ASR模型,通过映射所有的上下文短语,来融合上下文信息。在实验评估中,我们发现提出的CLAS模型超过了标准的shallow fusion偏置方法。

神经网络
ASR
语境偏移
CLAS
ASR模型
如何解决 Iterative 半监督训练 在 ASR 训练中难以落地的问题丨RTC Dev Meetup
如何解决 Iterative 半监督训练 在 ASR 训练中难以落地的问题丨 RTC Dev Meetup

通用 ASR 的字准确率虽然已经非常高,但是在面向具体的场景(游戏场景、私聊场景、群聊场景、主播场景)时,还是存在场景不匹配的问题,因为通用的 ASR 在这些领域中的应用相对比较困难,主要存在以下问题。

RTC Dev Meetup
生态专栏
语音处理
滴滴出行场景中语音识别模型的自学习平台化实践
滴滴出行场景中语音识别模型的自学习平台化实践

在滴滴也有丰富的语音交互场景落地,为了更快更稳定地输出语音识别模型,提高业务识别准确率,我们开发了语音识别模型自学习平台。

火山语音 7 篇论文入选国际顶会 Interspeech

日前,火山语音团队七篇论文成功入选国际顶会Interspeech2022,内容涵盖音频合成、音频理解等多个技术方向的创新突破。Interspeech作为国际语音通信协会ISCA组织的语音研究领域的顶级会议之一,也被称为全球最大的综合性语音信号处理盛会,在世界范围内享有极高声

国内首个:ICPR2022 多模态字幕识别比赛日前结束

6月8日记者获悉,ICPR2022多模态字幕识别比赛(Multimodal Subtitle Recognition简称MSR竞赛)日前正式结束,共有376位来自各大高校和企业的选手参赛。

AI 克隆声音,只需 3 分钟(附最全教程)

无论是 C 端的内容生产者,想要使用进行内容生产,还是 B 端用户做商业化落地,部署这套 GPT-Sovits 软件都需要面临一些技术挑战,今天我们就来给大家介绍一下,如何通过阿里云函数计算快速托管 GPT-Sovits 来解决这些挑战。

阿里云
AI
云原生
函数计算
asr模型专题_资料-InfoQ中文网