NVIDIA 初创加速计划,免费加速您的创业启动 了解详情
写点什么

作业帮直播课“语音弹幕”功能研发实践

  • 2021-02-28
  • 本文字数:2923 字

    阅读完需:约 10 分钟

作业帮直播课“语音弹幕”功能研发实践

点击屏幕上的小话筒,大声喊出答案,就会看到自己的语音变成文字飘在屏幕上方,不仅如此,还能看到同一小组其他伙伴的发言。在作业帮直播课“小组直播间”,“语音弹幕”这一互动形式让小学生感到新奇。


喜欢这一功能的不仅是小学生。在“小组直播间”产品用户调研中,“语音弹幕”功能在语文学科的主讲老师中的使用率高达 92%。看图说话、读古诗是老师们最爱的使用场景。


从沉默到活跃,“语音弹幕”这一“短频快”的互动方式打开了作业帮直播课全新的教学互动形式。在 AI 技术的赋能下,在线课堂热闹了起来。

大班小组化:用互动打破孤独感

孤独感,是曹越对传统大班直播课的评价,“一个学生对着一块屏幕,孤独地看视频。”


曹越是作业帮直播课小学产品的负责人。在曹越看来,由课件、老师、聊天区构成的“三分屏”模式并未充分尊重小学生的天性。“学习并非单向投喂的过程,氛围感的建立非常重要。”


在大班课内建立以 6 人为单位的小组,通过师生间互相可以看见的“双向视频”模式,以及小组 PK 赢学分等激励机制,“小组直播间”重塑了大班直播课的形态。


2020 年 1 月,作业帮在小学各年段的大班直播课中上线了“小组直播间”功能。“我们希望打造一个学习的‘场’,让学员感受到有同伴,就跟线下一样,和自己的伙伴一起学习。老师和学生给你点赞加油,就跟真实的课堂一样。”


互动是打破孤独感的利器,小组则能营造沉浸的学习氛围。在小组化学习理念的驱使下,作业帮产品和技术用了近一年的时间,借助 AI 语音交互、视觉互动等手段,不断充盈着小组直播间,而“语音弹幕”作为首个语音识别类的功能,拉近了在线直播课上师生、同学之间的距离。



图注:“语音弹幕”功能使用场景示例


在三分屏模式下,“是否卡”、“选项卡”、“投票卡”是学生和老师交流的唯一途径。在一节 60~90 分钟的课上机械而重复的点击回答卡片,学生难免会感觉无聊。


在和小学生和家长的大量接触中,作业帮小学部产品经理聂靖骐感到,对于小学阶段的孩子来说,激发学习兴趣、营造学习氛围才是重点。


在一次刷短视频弹幕的时候,聂靖骐脑子里突然闪过一个念头,“如果上课可以发弹幕,孩子们会发什么?”因为互动性强,弹幕已经成为年轻人中颇受欢迎的交流方式。“这么有趣的方式,为什么不能接入‘小组直播间’的课堂?”


但对于小学生来说,困难也是显而易见的。


“有时候自己发弹幕,都会担心打字的过程错过了精彩内容,对于小孩子来说,像成年人那样快速打字,更是不太现实的。”


再退一步来说,即使打字速度能跟上,打字过程中,键盘遮挡了一半的屏幕,非常容易错过关键信息。


如果换成语音,会不会好一些?

语音弹幕功能上线

2020 年 7 月,在团队内部讨论后,研发“语音弹幕”的需求正式提上了日程。


刚接到这一需求时,作业帮智能语音技术负责人王强强觉得这是个“科技含量”并不高的功能。王强强曾是清华大学语音实验室的技术负责人,在他看来,“语音弹幕”技术并无值得同行称道的创新之处,但一次和阿里研发人员的聊天却转变了他的看法。


"我女儿上二年级,特别喜欢你们的语音弹幕功能,她说电脑竟然能听懂她说的话,非常‘amazing’。"专业技术人员觉得稀松平常的设计,但却给低龄儿童带来十足惊喜。


本着“试水”的心态研发上线后,“语音弹幕”功能良好的反馈也让团队感到惊喜。


从技术层面来说,语音识别在行业里并无秘密,但从在线教育场景来看,语音弹幕的瞬时高并发成为了最大难点。由于之前并无准备,暑假期间高频次的使用,让后端机器差点儿没扛住。


“你就想象一堂课上万学生同时开麦说话,要同时扛住几万路并发,咱们机器压力得有多大?”


原本这功能都没有申请新的预算,但为了扛住这份“甜蜜的负担”,王强强团队紧急增加机器,投入几十万把集群扩了一倍。“我们技术总负责人拍板,学员反馈好,加机器也要上。”


回顾这一次研发经历,王强强更加深刻地体会到用户反馈的重要性。“我们做技术的不能闭门造车,研发的最终目的还是为了用户体验更好。”

行业“最强算法”:不只差了一点点

不打无准备之战。在扛过了 2020 年暑期课程的难关后,王强强化被动为主动,通过更加灵活的架构、行业最低的动态扩收容成本,同时还有阿里、腾讯等多家技术备份,迎接寒假课程。


在硬件准备到位后,王强强开始对语音识别技术的准确率精细打磨。新闻联播主持人口播,系统的语音识别准确率可以达到 99%,但在低龄小学生语音的场景下,准确率会因各种原因大打折扣。


“尚处语言学习阶段的小学生语音表达不清晰、答非所问,又或者家长在一旁干扰,加之方言和口音、环境噪音等因素,都会影响语音识别的准确率。”


在王强强看来,方言识别在全行业尚无好的解决办法,只能靠手动标记;而对于环境噪音,采取传统噪声抑制加深度学习的方法,在语音弹幕场景下取得了良好的效果。


在教育领域内容识别上,作业帮有足够大的资源库。在这方面,即使和互联网大厂相比,作业帮都有足够的底气做到最好。



图注:作业帮产品研发团队讨论场景


“我们的用户量足够大。你让几千个孩子去说,一定有十几二十个说得标准的,我们依托这样的场景,研发一套算法将好的话语快速‘挑’出来。”


摈弃手工标数据,王强强带领团队研发一套自动筛选算法,能在短时间内自动挑选领域内数据,并迅速学习增强自身模型能力。“目前我们这套算法应该是行业里最快,不是说差了一点点,应该是差了很多。”


除了在技术上不断精进外,王强强也积极推动着产品、研发闭环的打造。在他看来,技术埋头研发,然后推销给别的部门的方式,非常被动。“我相信所有的大厂,阿里、腾讯其实他们都这么干,但现实情况是,如果不能预判用户的需求,总是被动响应,做完一个东西再去推销,肯定行不通。”


过去一年,王强强花了大量的精力在公司内部做培训,打入业务方,充分尊重用户反馈,而他对自己的定位,也不再是单纯的技术人员,而是多面手。


“我们是做技术的,但我们也可以是产品,可以是研发,也可以是销售,甚至可以是 HR。”

回归教育本质:科技助力拓展更多可能性

2016 年,阿尔法狗的爆火,让 AI 技术突然进入了普通大众的视野,但对王强强来说,AI 技术的发展应用前景远不止于此。“我出去都不说自己是做 AI 的,就说是做语音识别的。”在王强强看来,目前 AI 功能在应用层面还是比较简单的,远未到人工智能的程度。


在他看来,AI 行业现在有点类似于 20 世纪初汽车行业的发展状况。1903 年内燃机刚上路时,伦敦街头仍会出现“马拉汽车”的景象,“当时好多人都不看好它,因为它老出问题,老抛锚,但 100 年过去,马车消失了,马路上跑的都是汽车。”王强强相信,虽然目前 AI 技术仍处于感知智能阶段,远未达到认知智能的预期,但是它的前景依然远大。


而在线教育,则是 AI 技术落地很广的一个应用场景,每一个在线课堂上的学生,对它的应用都有感知。而未来,AI 交互将更加智能、自然,更加显著地提升在线课堂的交互体验。


基于对未来 AI 发展趋势的预判,新一代家长的教育理念也随之升级,越早让孩子接触,便能触发越多的可能性。而对于那些暂无机会直接接触优质信息资源的孩子来说,在线教育则以跨越时间、空间的普惠性,缩短着由资源差异带来的信息差距。


正如作业帮创始人侯建彬所说,“在线教育的最大价值,还是在于普惠。在此之前,整个教培体系从不缺乏优秀的老师和优质的内容,缺乏的是把这些资源放大、迁移、匹配的便捷管道。”

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2021-02-28 14:002760

评论

发布
暂无评论
发现更多内容

Adobe Substance 3D Painter(pt3D绘画软件)激活版

iMac小白

深入了解WebRTC:实现实时音视频通信的关键技术和应用场景

熬夜磕代码、

与AI相伴的一年

对枪吧

聚道云软件连接器助力知名美妆科技公司实现金蝶软件与银行系统对接

聚道云软件连接器

案例分享

MATLAB R2023b for Mac 最新破解版下载

iMac小白

办公软件套装mac Office2021中文破解版下载

iMac小白

如何使用C语言进行并发编程?

百度搜索:蓝易云

Linux 运维 C语言 posix pthread

基于大模型的图像视频处理技术总结

lisa

Solana主流钱包盘点和评测:Phantom,Bitget钱包,Ledger等

BlockChain先知

运用AI技术实现农作物现代化管理

金铲铲的科学猫

分享一套超有价值的JAVA开源MES系统

万界星空科技

mes #开源 云mes 开源mes 万界星空科技

Solana主流钱包盘点和评测:Phantom,Bitget钱包,Ledger等

大瞿科技

Farewell to Pika, Embracing the Arrival of PikiwiDB in 2024

apache/dubbo-go

搜索引擎优化指南:SEO关键字、长尾关键字、短尾关键字以及反向链接

小万哥

程序人生 软件工程 后端开发 技术写作 SEO 优化

好用的音频制作:Logic Pro X中文免激活最新

胖墩儿不胖y

Mac软件 音频制作软件 音频管理工具

AutoCAD 2024 for mac中文破解版下载

iMac小白

Downie 4 v4.7.1中文版 Downie 4 安装下载

iMac小白

StartAllBack(win11开始菜单增强工具)特别版下载

iMac小白

Pytorch和CUDA版本对应关系

百度搜索:蓝易云

Linux nvidia 运维 PyTorch cuda

聚道云软件连接器助力某券商公司实现资金系统与易快报的智能对接

聚道云软件连接器

案例分享

Solana主流钱包盘点和评测:Phantom,Bitget钱包,Ledger等

石头财经

Acrobat Pro DC 2023 for Mac(PDF编辑器) 2023.006.20380永久激活版

mac

苹果mac Windows软件 PDF编辑和管理软件 Acrobat Pro DC

想在DataGrip里写SQL般丝滑的写FlinkSQL?安装它就完事儿了

泊浮目

vscode FlinkSQL 提高效率 效能提升

解密2023年云原生的安全优化升级,告别高危漏洞、与数据泄露说“再见”(安全管控篇)

洛神灬殇

云原生 安全技术 开源安全技术与实践 #技术人的2023总结 火山引擎开发者社区

基于Java的XML编辑器 Oxygen XML Editor激活中文版

mac大玩家j

xml Mac软件 xml编辑器

i人福音:人工智能

双耳是聂

4K Video Downloader(高清视频下载软件)特别版下载

iMac小白

AI大模型引领数智未来

坚果

坚果派

非技术人员怎么去判断体育赛事系统代码质量与规范

软件开发-梦幻运营部

AI与深度学习的一年

十九是一只猫

PS插件 Cartoon Maker - Clone激活中文最新版 一键生成卡通动漫风格插件

iMac小白

作业帮直播课“语音弹幕”功能研发实践_AI&大模型_筱澍_InfoQ精选文章