写点什么

端到端英语发音检错在作业帮的应用

  • 2022-09-12
    北京
  • 本文字数:2815 字

    阅读完需:约 9 分钟

端到端英语发音检错在作业帮的应用

文 / 杨帆,王强强

背景与需求

目前,英语是世界通用语言,掌握了英语就有了与世界沟通、交流的工具。但是,中国普遍存在的“哑巴英语”、“中式英语”、发音不准等现象,极大地影响了英语学习者的听说能力,以及在实际生活中对英语的使用。近年来,随着素质教育改革,英语口语考试被逐步纳入中高考,学生们提升口语水平的需求也日益凸显。然而,口语学习需要大量的练习、及时的反馈和针对性的指导,但课上、课后都很难有一对一的教学机会;老师通常需要花费数倍于批改书面试卷的时间,才能完整地听完学生的语音并给出全面的反馈。采用计算机辅助语言学习技术,通过检测英语学习者的发音是否正确、错误的具体原因,可以及时、高效、便捷地提供针对性的发音指导,且不受传统面授的时空限制。

行业现状

现有的语音评测应用主要是对学习者的发音进行打分,但是很少反馈失分的具体原因并进行针对性地指导,对学习者改善发音助力有限。近年来,音素级发音检错技术在研究领域获得了越来越多的关注,可以检测学习者发音中多读、漏读和错读的音素,还可以通过根据发音错误诊断推送相应的文字及视频发音教程,给学习者提供针对性的专家级发音指导意见。依托作业帮专业的英语教师团队、丰富的口语练习题库、庞大的下沉市场用户规模、海量的中国学生口语练习数据,英语发音检错技术可以在课上、课后为所有英语学习者提供个性化、精准化的辅导,实现科技助力因材施教、教育普惠、“让优质教育触手可及”。


传统的语音评测主要通过强制对齐(Forced Alignment)获得朗读文本中各个音素在音频中的起止时间,然后在各个音素片段内计算目标发音音素与其它音素的概率比值,即 GOP(Goodness of pronunciation)分数,最后通过设定阈值等方式判断各个音素的发音是否正确,或者综合各音素的 GOP 分数回归得到单词、句子的评分。


这类方案主要存在以下几点问题:


  • 发音错误时强制对齐得到的时间边界可能与实际发音音素序列的时间边界不一致,导致计算的实际发音的概率值偏低,无法提供准确的检错与诊断;若在对齐网络中扩展常见的发音错误,需要专家知识并且很难覆盖实际应用中的各种可能;

  • 强制对齐方案无法准确地处理增读、漏读音素的情况,尤其是增读;

  • GOP 计算对时间边界比较敏感,但是很难获得含准确的时间边界标注的大批量语料库;

  • 传统的帧级识别模型,不论是 GMM-HMM 还是神经网络模型,训练流程都较为繁琐。近年来,端到端模型也被广泛应用于语音识别领域,并达到了和传统方法可比的性能,大大简化了模型的训练流程。在发音检错场景下,采用端到端音素识别可以直接识别学习者的实际发音音素序列,然后,通过最短编辑距离与目标发音音素序列进行匹配、对比,得到正确朗读、增读、漏读、错读音素的检错与诊断结果。相对于传统的强制对齐方案,该方案不需要精确的时间边界,并且能够很方便地检测增读、漏读音素的情况。

作业帮的实践

为了便于后续讨论,首先介绍我们采用的数据集和评价指标。评价发音检错与诊断任务最常用的数据集是 L2-ARCTIC[1]。L2-ARCTIC 是由第一语言分别为印地语、韩语、普通话、西班牙语、阿拉伯语和越南语的非英语母语人士录制的英语句子朗读数据,包含音频、提示文本和标注,标注了音频中增读、漏读和错读的音素。发音检错与诊断任务的评价指标主要有:


  • 虚警率:实际发音正确的音素中,被检测为发音错误的比例;

  • 召回率:实际发音错误的音素中,被检测为发音错误的比例;

  • 诊断正确率:正确地判断为发音错误的音素中,识别为实际发音音素的比例。下面介绍端到端发音检错技术在作业帮落地实践过程中遇到的问题与解决方案。

端到端模型选型

目前主流的端到端语音识别技术有 CTC(Connectionist Temporal Classification)、基于 attention 的 encoder-decoder(AED)、RNN-T(Recurrent Neural Network Transducer)三类[2]。其中,CTC 基于条件独立性假设,即假设序列中的每个元素是互相独立的,而 AED 和 RNN-T 模型均采用自回归解码,即每一时刻的输出都依赖于之前的输出,隐式地学习了序列中的语言模型。虽然在语音识别任务上,相对于 CTC,AED 和 RNN-T 模型都有更好的效果,但是考虑到在发音检错任务中,学习者发音错误后的音素序列模式可能与常见的音素组合不一致,为了避免语言模型对发音错误召回的影响,我们首先验证了 CTC 模型的效果。

基于 attention 的文本信息融合

实验结果表明,仅采用 CTC 音素识别准确率较低,发音检错虚警率约为 21%,这在教学场景下是不可接受的。借鉴人进行发音评价的过程,在无文本参考的情况下转写实际发音音素序列较为困难,但是已知目标发音,判断实际发音与目标发音是否相近,这一任务就相对简单许多。同样的,将目标发音序列也作为模型输入,为模型提供额外的先验知识,可以降低模型学习的难度。


参考论文[3]中的实现,模型结构如下图所示:



发音错误数据增强

由于标注真实发音错误的音频需要专业人士耗费大量的时间精细地标注,较难大批量获取,因而模型训练集中绝大部分为发音正确的数据。为了增强模型的检错能力,避免原样输出参考音素序列,采用随机替换输入音素序列中的音素来模拟发音错误的情况。


优化后,虚警率由原来的 21%显著降低至 9%左右,同时,诊断正确率也由原来的 65%提升至 77%。但是,发音错误召回率仅有 57%。

确定功能边界

分析发现,高频虚警、高频未召回的音素对主要为发音相近的音素,如将元音/ɪ/误识别为/iː/。相较于明显的发音错误,这类细微的纠音在实际教学活动中优先级较低。为了进一步降低虚警率,鼓励学习者大胆开口说英语,通过与有多年教学经验的教研们沟通,我们约定了对/ʌ/和/ɑː/、/s/和/θ/、词尾的/s/和/z/等发音相近的音素对纠音优先级相对较低。这样,虚警率进一步降低至 7%,不考虑此类发音错误,召回率也提升至 67%。


最终实现的发音检错功能如下图所示:



总结与展望

我们通过将端到端音素识别用于发音检错,避免了传统的强制对齐方案训练流程复杂、时间边界不准、无法处理音素增读漏读的问题。并通过基于 attention 的文本信息融合、发音错误数据增强,取得了显著的检错效果提升。最后,结合实际教学需求,降低发音相近音素的纠音的优先级,进一步优化了实际应用场景下的效果体验。未来可能的优化方向包括:


  • 标注实际应用场景下的真实发音数据;

  • 通过 multi-task 知识迁移的方式,引入发音属性识别等信息,提升模型的音素区分能力;

  • 基于音频和视频的多模态特征融合方案,可以在很大程度上尤其是在噪声环境下提升检错准确率。参考文献


[1]  Zhao G, Sonsaat S, Silpachai A, et al. L2-ARCTIC: A non-native English speech corpus[C]//INTERSPEECH. 2018: 2783-2787.


[2]  Prabhavalkar R, Rao K, Sainath T N, et al. A Comparison of Sequence-to-Sequence Models for Speech Recognition[C]//Interspeech. 2017: 939-943.


[3]  Fu K, Lin J, Ke D, et al. A Full Text-Dependent End to End Mispronunciation Detection and Diagnosis with Easy Data Augmentation Techniques[J]. arXiv preprint arXiv:2104.08428, 2021.

2022-09-12 18:303162
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 535.1 次阅读, 收获喜欢 1977 次。

关注

评论

发布
暂无评论
发现更多内容

鸿蒙之旅:半年内参加了三次HarmonyOS NEXT比赛,以为可以躺平赚钱,结果全军覆没,惨败。快来围观吧!!!

莓创技术

HarmonyOS 鸿蒙系统 HDC2024

蓝易云 - mybatisplus多租户原理略解

百度搜索:蓝易云

云计算 运维 mybatis 云服务器 高防服务器

统计分析绘图软件:GraphPad Prism 10 (Win/Mac)激活版

你的猪会飞吗

mac软件下载 Mac破解软件

可图Kolors-LoRA风格故事挑战赛

IT蜗壳-Tango

淘宝买家秀API深度解析:数据驱动的热门晒单与趋势预测

代码忍者

从 MySQL 迁移到 TiDB:使用 SQL-Replay 工具进行真实线上流量回放测试 SOP

PingCAP

MySQL 数据库 TiDB

指如疾风,势如闪电-StarRocks Fast Schema Evolution in V3.3.0

Ding_Kai

大数据 LakeHouse StarRocks

CADintosh X for Mac(CAD制图软件) v8.8.7 (745)激活版

Mac相关知识分享

cad软件

开源图片编辑器的插件化架构

秦少卫

开源图片编辑器 开源vue图片编辑器 vue图片编辑器 开源在线PS源码 开源海报编辑

华为专家带你玩转To B产品设计,助力企业转型!

轶天下事

深度解析 MetaArena 游戏引擎,如何让 GameFi 应用更具生命力?

股市老人

电商数据挖掘:淘宝/天猫商品详情API实战解析与应用

代码忍者

Agisoft Metashape Professional for mac(三维建模重建软件)激活版

Mac相关知识分享

PingCAP 崔秋当选 CCF 数据库专业委员会执行委员

PingCAP

TiDB CCF pingCAP

蓝易云 - Python动态变量名定义与调用方法

百度搜索:蓝易云

Python 云计算 Linux 运维 云服务器

蓝易云 - git快速查看某个文件修改的所有commit

百度搜索:蓝易云

git 云计算 运维 云服务器 高防服务器

iCalamus for mac(功能全面的版面设计工具) v2.27注册激活版

Mac相关知识分享

版面设计

Steinberg Dorico Pro for Mac(乐谱编写软件) v5.1.51中文激活版

Mac相关知识分享

音乐制作软件 乐谱制作

2024黑帽大会最热门的九大AI网络安全工具

我再BUG界嘎嘎乱杀

AI 黑客 网络安全 信息安全 网安

降级攻击可“复活”数以千计的Windows漏洞

我再BUG界嘎嘎乱杀

黑客 网络安全 信息安全 漏洞 网安

解析淘宝买家秀API返回值中的热门晒单与趋势预测

技术冰糖葫芦

Intel:13/14代酷睿补丁几乎无损性能!未来所有产品都安全

E科讯

交互式原型设计工具:Axure RP 8 for Mac 汉化版

你的猪会飞吗

Mac破解软件 Mac软件下载站

延迟降10倍,冷查不担心

Ding_Kai

实时数仓 存算分离 StarRocks 湖仓一体 starrocks查询性能优化

蓝易云 - dockerfile基于apline将JDK20打包成镜像

百度搜索:蓝易云

Docker 云计算 jdk 运维 高防服务器

GitHub爆赞的Web安全防护指南,网络安全零基础入门必备教程!

我再BUG界嘎嘎乱杀

黑客 网络安全 信息安全 WEB安全 网安

淘宝/天猫商品详情API返回值实战解析

技术冰糖葫芦

API Explorer api 货币化 API 接口 API 测试

蓝易云 - 跨境服务器选哪个平台好?

百度搜索:蓝易云

云计算 服务器 云服务器 跨境电商 高防服务器

掌握这种思维,让你每句话直击要害,颠覆你的职场表现

轶天下事

全球化浪潮下的数据库革新:嘉里物流 TiDB 实践价值的设想

PingCAP

数据库 物流 TiDB

Parallels Desktop 18 for Mac (Pd18虚拟机) v18.3.2永久激活版

Mac相关知识分享

pd虚拟机

端到端英语发音检错在作业帮的应用_AI&大模型_作业帮技术团队_InfoQ精选文章