AI实践哪家强?来 AICon, 解锁技术前沿,探寻产业新机! 了解详情
写点什么

探索在线教育场景下的数字化应用,作业帮 NLP 技术分享

  • 2021-06-28
  • 本文字数:1782 字

    阅读完需:约 6 分钟

探索在线教育场景下的数字化应用,作业帮NLP技术分享

近日,QCon 全球软件开发大会在北京国际会议中心举行,150 余位演讲嘉宾现场分享最新技术创新和实践,为大家带来一场浩瀚的技术之旅。受大会邀请,作业帮中台产研中心蒋宏飞博士,在会上分享了 NLP((Natural Language Processing)技术在在线教育服务中的实践和创新。


数字化的终极追求是因材施教


"DT(Data technology)的本质就是可以批量化生产个性化的产品和服务。"对于这句互联网“名言”,蒋宏飞解释说,这里面的两个关键词就是批量化、个性化,原本他们是矛盾的,批量化意味着强调效率,而个性化意味着强调体验,这是个“两难”的问题。如果能逐步达到“数字化”,那么这个矛盾就可以得到不同程度的化解。


蒋宏飞说,在企业数字化中,非常核心的一块是"用户数字化"。用户数字化的终极追求莫不过人们耳熟能详的这些词:用户画像、用户分层、用户运营、千人千面等等。在教育场景下,就是个性化教学、个性化学习规划、个性化题目推荐等。


蒋宏飞表示,在目前主要的互联网商业模式中,在线教育服务的主流模式是双师直播大班课。在这种模式中,人的服务占很大比重,人与人的沟通占服务的很大比重。这是在线教育服务的主要特点。


在线教育服务中的“数字化挑战”


他说,在线教育服务场景下主要用户数据类型包括:打点行为类数据。这个是大家最常见的,是结构化的;第二类:评价类数据,这些数据有结构化,也有非结构化的;第三类:问卷类数据。这里面有一部分也会是开放式主观反馈,属于非结构化文本数据;第四类:服务沟通类数据。上课时和主讲/辅导老师以及其他同学的弹幕互动,和辅导老师以及客服的沟通等等。这些数据都是非结构化文本数据。


蒋宏飞表示,这所有数据中,非结构化文本数据大量存在与在线教育场景中,属于核心业务环节产生的数据,量大而且内容丰富。但这些数据的结构化处理对"数字化"意义重大,在技术上也是最具挑战的。


“非结构化数据的结构化,是全面数字化的最后一道障碍。”蒋宏飞说,在传统的数字化建设中,一般都会经过这几步:数据采集、数据治理、数据挖掘、数据分析、智能应用。在线上教育这种重“沟通服务”的场景里,文本结构化变成不可或缺的重要一环,介于数据治理和数据挖掘之间。而要做好文本数据的结构化,打通这个“数字化”的关键环节,就需要用 NLP 技术。



作业帮的 FTP 应用和实践


蒋宏飞表示,NLP 在工业界落地的两种主流技术方案粗粗划分下大致分为词式、语义式。FTP(Fast Text Processing)平台(编者注:借用了计算机领域的一个术语,实际上两者没有任何关系)对应的是后者。为什么要做这个平台?蒋宏飞说,远景目标是赋能公司业务运营数字化、精细化、智能化。具体考虑三点:一是业务的需求越来越多,越来越复杂,要的越来越着急;二是沉淀下来的数据和模型,希望能在后续不断复用起来;三是算法方面也不能一直写临时训练脚本,需要有个平台积累起来,让算法能力有个持续建设成长的承载。


蒋宏飞说,FTP 着重一个快字。为了实现这个目标,它的第一个策略就是优先处理头部典型数据。技术点就是主动学习+聚类,找到头部聚集的簇中,代表性的质心数据,将人工标注收益最大化;第二个策略是自训练,迭代起来,用高置信度复核数据充实训练数据,让模型尽快学习完善,并自动标注数据。



他说,FTP 里面涉及到的技术点非常丰富,应用场景也极为多样,包括从个性化服务支撑、用户专题研究、用户反馈深度挖掘再到质量保障辅助等等。作业帮在 FTP 中融合了很多结合业务场景的经验和微创新,也陆续产出了一些专利。


以质量保障辅助为例,作业帮的用户群广,很多都是偏远地区的孩子,网络质量、手机质量等等千差万别。事先很难能测的很全面,所以 FTP 也会支持质量保障部的同学做一些监测方面的数据打标辅助。这样就能帮助质量保障部的同学及时发现问题,以支持研发同学尽快调整优化保障使用不同机型的学生都能有流畅的听课体验。


“在线教育服务场景中的文本数据结构化是 NLP 应用的又一个广阔战场。”蒋宏飞表示,在线教育服务场景的支撑技术落地上,还面临很多开放性挑战,希望与大家一起去探索、实践、赋能。



QCon 是由 InfoQ 中国主办的综合性技术盛会,每年在伦敦、北京、纽约、圣保罗、上海、旧金山召开。自 2007 年 3 月份开始举办以来,已经有超万名有多年从业经验的技术人员参加过 QCon 大会。QCon 内容源于实践并面向社区,演讲嘉宾依据热点话题,面向 5 年以上工作经验的技术团队负责人、机构师、工程总监、开发人员分享技术创新和实践。

2021-06-28 11:421341

评论

发布
暂无评论
发现更多内容

直播带货源码开发中,如何降低直播中的延迟?

开源直播系统源码

软件开发 直播系统 直播源码

用Python编写学生成绩管理系统(内附源码)

王小王-123

Python 系统设计 用python编写成绩管理系统 学生成绩管理系统

国内首批!阿里云云原生数据湖产品通过信通院评测认证

阿里云大数据AI技术

大数据 运维 存储

用Python写一个简易机器人,超级简单!

王小王-123

python编写机器人 python项目 语法知识大全

IOS技术分享| iOS快速生成开发文档(二)

anyRTC开发者

ios objective-c 音视频 移动开发 Jazzy

Subtrate 源码追新导读-5月上旬: XCM 正式启用

彭亚伦

Substrate 波卡

Dart 开发技巧

Geek_0a3437

flutter android dart 6月月更

K8S V1.23 安装--Kubeadm+contained+公网 IP 多节点部署

云原生 k8s Kubernetes 集群

今晚19:00知识赋能第2期直播丨OpenHarmony智能家居项目之控制面板界面设计

OpenHarmony开发者

Open Harmony

云技能提升好伙伴,亚马逊云师兄今天正式营业

亚马逊云科技 (Amazon Web Services)

亚马逊云

Flutter 中的 ValueNotifier 和 ValueListenableBuilder

坚果

flutter dart 6月月更

用Python编写学生成绩计算系统

王小王-123

Python 成绩计算系统 成绩项目 日常编程

科普达人丨漫画图解什么是eRDMA?

阿里云弹性计算

大数据 TCP/IP RDMA

优惠券种类那么多,先区分清楚再薅羊毛!

CRMEB

​web前端培训 | JavaScript私有属性的实现方式

@零度

JavaScript 前端开发

OLAP数据库引擎如何选型?

奇点云

OLAP 数据库引擎 OLAP数据库

led背光板的作用是什么呢?

Dylan

LED LED显示屏

Scala 基础 (四):函数式编程【从基础到高阶应用】

百思不得小赵

scala 函数式编程 大数据开发 6月月更

Vue3核心之响应式

Python研究所

6月月更

百度直播iOS SDK平台化输出改造

百度Geek说

ios 直播

揭秘得物客服IM全链路通信过程

得物技术

前端 大前端 通信 IM 客服

OpenMLDB Meetup No.4 会议纪要

第四范式开发者社区

机器学习 数据库 特征平台 特征工程 实时

阅读Skeleton.css源码,改善睡眠质量(尽管它只有419行代码)

德育处主任

CSS 源码 前端 6月月更 skeleton.css

【值得收藏】HTML5使用多种方法实现移动页面自适应手机屏幕的方法总结

迷彩

前端 自适应 HTML5, CSS3 6月月更

我的远程办公深度体验 | 社区征文

6个核桃

初夏征文

14岁懂社会-《关于“工作的幸福”这件事儿》读书笔记

懒时小窝

14岁懂社会

Go 语言入门很简单:Go 处理 XML 文件

宇宙之一粟

xml Go 语言 6月月更

网络营销之四大误解

源字节1号

微信小程序 前端开发 后端开发 网站开发

ABAP-时间函数

桥下本有油菜花

abap

Flutter的特别之处在哪里

Geek_99967b

小程序 Flutter 小菜

用Python自动化办公(csv项目实战)

王小王-123

csv python项目 自动化办公 大数据分割

探索在线教育场景下的数字化应用,作业帮NLP技术分享_语言 & 开发_作业帮技术团队_InfoQ精选文章