阿里云「飞天发布时刻」2024来啦!新产品、新特性、新能力、新方案,等你来探~ 了解详情
写点什么

作业帮直播课“语音弹幕”功能研发实践

  • 2021-02-28
  • 本文字数:2923 字

    阅读完需:约 10 分钟

作业帮直播课“语音弹幕”功能研发实践

点击屏幕上的小话筒,大声喊出答案,就会看到自己的语音变成文字飘在屏幕上方,不仅如此,还能看到同一小组其他伙伴的发言。在作业帮直播课“小组直播间”,“语音弹幕”这一互动形式让小学生感到新奇。


喜欢这一功能的不仅是小学生。在“小组直播间”产品用户调研中,“语音弹幕”功能在语文学科的主讲老师中的使用率高达 92%。看图说话、读古诗是老师们最爱的使用场景。


从沉默到活跃,“语音弹幕”这一“短频快”的互动方式打开了作业帮直播课全新的教学互动形式。在 AI 技术的赋能下,在线课堂热闹了起来。

大班小组化:用互动打破孤独感

孤独感,是曹越对传统大班直播课的评价,“一个学生对着一块屏幕,孤独地看视频。”


曹越是作业帮直播课小学产品的负责人。在曹越看来,由课件、老师、聊天区构成的“三分屏”模式并未充分尊重小学生的天性。“学习并非单向投喂的过程,氛围感的建立非常重要。”


在大班课内建立以 6 人为单位的小组,通过师生间互相可以看见的“双向视频”模式,以及小组 PK 赢学分等激励机制,“小组直播间”重塑了大班直播课的形态。


2020 年 1 月,作业帮在小学各年段的大班直播课中上线了“小组直播间”功能。“我们希望打造一个学习的‘场’,让学员感受到有同伴,就跟线下一样,和自己的伙伴一起学习。老师和学生给你点赞加油,就跟真实的课堂一样。”


互动是打破孤独感的利器,小组则能营造沉浸的学习氛围。在小组化学习理念的驱使下,作业帮产品和技术用了近一年的时间,借助 AI 语音交互、视觉互动等手段,不断充盈着小组直播间,而“语音弹幕”作为首个语音识别类的功能,拉近了在线直播课上师生、同学之间的距离。



图注:“语音弹幕”功能使用场景示例


在三分屏模式下,“是否卡”、“选项卡”、“投票卡”是学生和老师交流的唯一途径。在一节 60~90 分钟的课上机械而重复的点击回答卡片,学生难免会感觉无聊。


在和小学生和家长的大量接触中,作业帮小学部产品经理聂靖骐感到,对于小学阶段的孩子来说,激发学习兴趣、营造学习氛围才是重点。


在一次刷短视频弹幕的时候,聂靖骐脑子里突然闪过一个念头,“如果上课可以发弹幕,孩子们会发什么?”因为互动性强,弹幕已经成为年轻人中颇受欢迎的交流方式。“这么有趣的方式,为什么不能接入‘小组直播间’的课堂?”


但对于小学生来说,困难也是显而易见的。


“有时候自己发弹幕,都会担心打字的过程错过了精彩内容,对于小孩子来说,像成年人那样快速打字,更是不太现实的。”


再退一步来说,即使打字速度能跟上,打字过程中,键盘遮挡了一半的屏幕,非常容易错过关键信息。


如果换成语音,会不会好一些?

语音弹幕功能上线

2020 年 7 月,在团队内部讨论后,研发“语音弹幕”的需求正式提上了日程。


刚接到这一需求时,作业帮智能语音技术负责人王强强觉得这是个“科技含量”并不高的功能。王强强曾是清华大学语音实验室的技术负责人,在他看来,“语音弹幕”技术并无值得同行称道的创新之处,但一次和阿里研发人员的聊天却转变了他的看法。


"我女儿上二年级,特别喜欢你们的语音弹幕功能,她说电脑竟然能听懂她说的话,非常‘amazing’。"专业技术人员觉得稀松平常的设计,但却给低龄儿童带来十足惊喜。


本着“试水”的心态研发上线后,“语音弹幕”功能良好的反馈也让团队感到惊喜。


从技术层面来说,语音识别在行业里并无秘密,但从在线教育场景来看,语音弹幕的瞬时高并发成为了最大难点。由于之前并无准备,暑假期间高频次的使用,让后端机器差点儿没扛住。


“你就想象一堂课上万学生同时开麦说话,要同时扛住几万路并发,咱们机器压力得有多大?”


原本这功能都没有申请新的预算,但为了扛住这份“甜蜜的负担”,王强强团队紧急增加机器,投入几十万把集群扩了一倍。“我们技术总负责人拍板,学员反馈好,加机器也要上。”


回顾这一次研发经历,王强强更加深刻地体会到用户反馈的重要性。“我们做技术的不能闭门造车,研发的最终目的还是为了用户体验更好。”

行业“最强算法”:不只差了一点点

不打无准备之战。在扛过了 2020 年暑期课程的难关后,王强强化被动为主动,通过更加灵活的架构、行业最低的动态扩收容成本,同时还有阿里、腾讯等多家技术备份,迎接寒假课程。


在硬件准备到位后,王强强开始对语音识别技术的准确率精细打磨。新闻联播主持人口播,系统的语音识别准确率可以达到 99%,但在低龄小学生语音的场景下,准确率会因各种原因大打折扣。


“尚处语言学习阶段的小学生语音表达不清晰、答非所问,又或者家长在一旁干扰,加之方言和口音、环境噪音等因素,都会影响语音识别的准确率。”


在王强强看来,方言识别在全行业尚无好的解决办法,只能靠手动标记;而对于环境噪音,采取传统噪声抑制加深度学习的方法,在语音弹幕场景下取得了良好的效果。


在教育领域内容识别上,作业帮有足够大的资源库。在这方面,即使和互联网大厂相比,作业帮都有足够的底气做到最好。



图注:作业帮产品研发团队讨论场景


“我们的用户量足够大。你让几千个孩子去说,一定有十几二十个说得标准的,我们依托这样的场景,研发一套算法将好的话语快速‘挑’出来。”


摈弃手工标数据,王强强带领团队研发一套自动筛选算法,能在短时间内自动挑选领域内数据,并迅速学习增强自身模型能力。“目前我们这套算法应该是行业里最快,不是说差了一点点,应该是差了很多。”


除了在技术上不断精进外,王强强也积极推动着产品、研发闭环的打造。在他看来,技术埋头研发,然后推销给别的部门的方式,非常被动。“我相信所有的大厂,阿里、腾讯其实他们都这么干,但现实情况是,如果不能预判用户的需求,总是被动响应,做完一个东西再去推销,肯定行不通。”


过去一年,王强强花了大量的精力在公司内部做培训,打入业务方,充分尊重用户反馈,而他对自己的定位,也不再是单纯的技术人员,而是多面手。


“我们是做技术的,但我们也可以是产品,可以是研发,也可以是销售,甚至可以是 HR。”

回归教育本质:科技助力拓展更多可能性

2016 年,阿尔法狗的爆火,让 AI 技术突然进入了普通大众的视野,但对王强强来说,AI 技术的发展应用前景远不止于此。“我出去都不说自己是做 AI 的,就说是做语音识别的。”在王强强看来,目前 AI 功能在应用层面还是比较简单的,远未到人工智能的程度。


在他看来,AI 行业现在有点类似于 20 世纪初汽车行业的发展状况。1903 年内燃机刚上路时,伦敦街头仍会出现“马拉汽车”的景象,“当时好多人都不看好它,因为它老出问题,老抛锚,但 100 年过去,马车消失了,马路上跑的都是汽车。”王强强相信,虽然目前 AI 技术仍处于感知智能阶段,远未达到认知智能的预期,但是它的前景依然远大。


而在线教育,则是 AI 技术落地很广的一个应用场景,每一个在线课堂上的学生,对它的应用都有感知。而未来,AI 交互将更加智能、自然,更加显著地提升在线课堂的交互体验。


基于对未来 AI 发展趋势的预判,新一代家长的教育理念也随之升级,越早让孩子接触,便能触发越多的可能性。而对于那些暂无机会直接接触优质信息资源的孩子来说,在线教育则以跨越时间、空间的普惠性,缩短着由资源差异带来的信息差距。


正如作业帮创始人侯建彬所说,“在线教育的最大价值,还是在于普惠。在此之前,整个教培体系从不缺乏优秀的老师和优质的内容,缺乏的是把这些资源放大、迁移、匹配的便捷管道。”

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2021-02-28 14:002756

评论

发布
暂无评论
发现更多内容

React技术栈支援Vue项目,你需要提前了解的 | 京东云技术团队

京东科技开发者

Vue 前端 React 企业号10月PK榜

数据飞轮拆解车企数据驱动三板斧:数据分析、市场画像、A/B实验

字节跳动数据平台

大数据 数字化转型 云服务 数据平台 火山引擎

Explore IPQ8072 and IPQ9574-QCN9274 -the limitless potential of the from speed to security

wifi6-yiyi

IPQ8072 WiFi7

数仓实时场景下表行数估算不准确引起的的性能瓶颈问题案例

华为云开发者联盟

数据库 后端 华为云 数仓 华为云开发者联盟

揭秘产品经理提升效率的秘密武器:在线白板工具你绝对不能错过!

彭宏豪95

产品 产品经理 科技 在线白板 办公软件

需要获取产品License

矩视智能

深度学习 机器视觉

第8期 | GPTSecurity周报

云起无垠

Arbitrum链阿尔比特ARBT共识铸币模式系统开發(源码搭建)

l8l259l3365

如何从单体架构迁移到微服务架构:挑战和最佳实践

互联网工科生

微服务 单体

IPSec VPN原理介绍 | 京东物流技术团队

京东科技开发者

vpn IPsec 企业号10月PK榜

第7期 | GPTSecurity周报

云起无垠

「智造」第1期:锻造行业智能制造规划

用友BIP

智能制造

Photomatix Pro for Mac(HDR图像处理器) v7.1.16永久激活版

mac

苹果mac Windows软件 Photomatix Pro HDR合成软件

AlDente Pro for Mac中文激活版下载

iMac小白

AlDente Pro下载 AlDente Pro破解版 AlDente Pro mac

东莞理工网安学院举办“火焰杯”软件测试高校就业选拔赛颁奖典礼

测试人

软件测试

KubeEdge v1.15.0发布!新增5大特性

华为云开发者联盟

云计算 云原生 后端 华为云 华为云开发者联盟

mac系统软件推荐 iStatistica Pro最新中文免激活

mac大玩家j

Mac软件 系统监控软件 系统优化工具

智慧云-实现企业APP梦想,10倍轻松便捷

知者如C

SecureCRT for mac注册破解版下载

iMac小白

SecureCRT下载 SecureCRT破解版 SecureCRT注册 SecureCRT激活 SecureCRT mac

C++中的多线程编程:高效的并发处理方式

高端章鱼哥

c++ 多线程编程

云安全中的生成式AI:雷声大雨点小?!

树上有只程序猿

云安全 生成式人工智能

强大视频工具:VideoProc Converter 4K激活中文最新版

胖墩儿不胖y

Mac软件推荐 视频处理软件 视频工具 视频转换器

数字化建设之路始于选型,企业该如何避免选型“坑”?

优秀

数字化转型 数字化建设

Android Kotlin 协程初探 | 京东物流技术团队

京东科技开发者

kotlin andiod 企业号10月PK榜

Acrobat Pro DC 2022 for Mac中文破解版下载

iMac小白

Adobe Acrobat Pro DC下载 Adobe Acrobat Pro DC破解

3D模型如何添加表面贴图?

3D建模设计

材质 纹理 贴图

10月24日程序员节

小齐写代码

cmp云管平台专业厂商哪家好?有什么优势?

行云管家

公有云 数据安全 云管平台 云管理 云数据安全

音画双绝,坚果O2超短焦系列引领超短焦投影进入三色激光时代

Geek_2d6073

ARBT阿尔比特项目代币合约质押分红挖矿系统开发(源码搭建)

l8l259l3365

前端CodeReivew实践 | 京东云技术团队

京东科技开发者

前端 敏捷开发 Code Review 代码评审 企业号10月PK榜

作业帮直播课“语音弹幕”功能研发实践_AI&大模型_筱澍_InfoQ精选文章