不一味迎合用户,知乎想用 AI 算法打造智能社区

  • 陈利鑫

2018 年 5 月 2 日

话题:社区文化 & 方法AI

看新闻很累?看技术新闻更累?试试下载 InfoQ 手机客户端,每天上下班路上听新闻,有趣还有料!

AI 前线导读:众所周知,知乎是一个知识分享平台,各行各业的从业者在这里分享自己领域的知识,来这里的人也是抱着学习的态度,希望有所收获。随着知乎平台的规模越来越大,包含的信息量呈井喷式爆发,如何为用户更好地服务,让每个人在这里能更容易地找到自己感兴趣的内容并进行分享,对海量的信息和用户进行管理和维护,成为一项艰巨的挑战。我们都知道知乎是一个知识平台,却不一定有多少人了解它还是一个背靠 AI 技术的智能社区,生产—消费—连接—社区管理全链条中都有 AI 技术的支持。

2011 年 1 月 26 日,知乎正式上线运营。经过将近八年的发展,截止今年 3 月,知乎注册用户数已达 1.4 亿(以 18-35 岁人群为主),平均日活跃用户量超过 3400 万,人均日访问时长 1 小时,月累计页面访问量达到 230 亿,累计产生提问数 2300 万,回答数近 1 亿。

知乎合伙人兼高级副总裁李大海表示,知乎的研发团队在年初进行了一次重构,分成了「中台」和「前台」两种角色。前台的团队是业务团队。中台的团队则是在横向支撑业务的发展,具体来说,在技术中台中,由技术平台团队和移动平台团队来保证基础架构和大数据;基础算法团队负责提供 AI 方向的算法框架甚至具体实现;安全和反作弊团队负责基础安全和反作弊相关的工作;QA 保障工程质量,而数据分析团队的职责,是帮助业务团队从大数据中提取 insight。

其中,知乎的机器学习团队将知乎逐步变成一个“智能社区”,在生产—消费—连接—管理的全链条中以 AI 作为技术支撑。

生产:问题路由,用算法找到最适合的答题者

知乎是一个 ugc 平台,用户在这里提出问题,回答问题,形成用户感兴趣的内容。在内容生产的过程中,AI 的应用主要是在问题路由上。李大海告诉 AI 前线记者,在去年年底之前,知乎的问题回答还全部都是通过用户邀请用户来完成的,但之后改变了做法,增加了应用机器学习模型的自动路由,也就是自动邀请,通过算法找到最合适回答某个问题的人。机器学习模型的效果明显,“自从上线了自动路由技术,知乎的回答量提升了 300%,这得益于深度的内容和用户建模。”李大海说道。

消费:让用户获得既感兴趣又有帮助的内容

个性化推荐——基于状态转移的兴趣预测

每个来到知乎的用户都有不同的需求,而且随着平台的发展,涌入的用户和内容越来越多。那么,知乎是如何了解每个用户的需求,并为进行用户个性化推荐的?详细的算法机制是什么呢?

李大海告诉 AI 前线,知乎和业界的通行做法一样,建立了一套可以同时应用在内容和用户上的标签系统,根据每个用户过去的阅读历史来打标签。同时,知乎在给用户推荐内容的时候,不断地探索用户的兴趣边界,帮助用户发现更大的世界,给用户打上更多的标签。

但是,这种方法有一个弊端,即从逻辑上来说,它只能预测用户平稳的兴趣变化,但用户的兴趣改变,或突然兴起,却是知乎无法预料的,比如用户忽然想学钢琴,知乎是没办法在第一时间了解的。知乎正在考虑增加基于状态转移的兴趣预测,来尽可能地解决这个问题。举个例子,如果用户近期一直在搜索孕期的各种知识,那么知乎可以试着在几个月后预测她(他)可能会对新生儿护理感兴趣。

不一味迎合用户,“母爱算法”与“父爱算法”相结合

近年来,关于企业采用不当的推荐算法,导致不良的舆论导向的问题时有发生,例如今日头条因为推荐低俗内容被约谈多次,YouTube 因为儿童“邪典视频”被各大媒体和家长讨伐,Facebook 的广告模式支持假新闻...... 反观这些平台所用的算法,大多使用的算法是所谓的“母爱算法”,即用户喜欢什么样的内容,系统就推荐给用户什么,就像母亲溺爱孩子一样,从而导致“信息茧房”的产生。虽然从一定程度上来说,算法本身只是“忠实”地反映了用户的需求,但却会导致平台的价值观逐渐偏离社会主流价值观,伤害用户(包括儿童)的心理健康,传播不正常的思想,引起社会问题。

据了解,YouTube 作为全球最大的视频网站,可能出于舆论压力的原因,最近已经将其旗下的一款以儿童为目标受众的程序 YouTube kids app 的推荐方式由算法改为人工挑选和审核。这不禁引人反思,难道推荐算法不灵了吗?这种算法问题是不可避免的吗?知乎又是怎么解决这个问题的?

对此,李大海称:“有关于这个问题我们是有深入思考的,理想的推荐算法应该是母爱算法和父爱算法的结合。所谓父爱算法,就是不断通过优质的内容引导用户去探索他的兴趣边界,发现更大的世界,让用户既能获得感兴趣的内容也能获得有帮助的内容。这个对于知乎和知乎的用户来说尤其重要,这就是我们的核心使命。因此我们在父爱算法上花的精力尤其的多,其中包括优质内容的识别、推荐算法召回排序方式的优化,以及运营同事对于分发的干预。”像 YouTube“儿童邪典视频”的泛滥主要是由于其采用的算法参数比较单一,比如推荐的依据就是点击量、观看时长等,这样很容易导致推荐的内容“一条道走到黑”,而知乎采用的算法会将更多参数作为推荐内容的依据,“用优质的内容引导用户去探索兴趣边界,发现更大的世界”。

通过模型学习更深层语义表示

李大任于 2017 年加入知乎,负责搜索、内容推荐和 AI 模型三块的业务。李大任加盟知乎之后,在三块业务中进行的探索包括首页 Feed 流推荐的召回和排序、内容模型(自动给问题分类、绑话题)、用户模型(通过用户的关注关系对用户进行隐式表示,计算用户之间的亲密度和专业度)等,为用户带来更好的内容“消费”体验。以首页为例,采用了上述做法之后,整体的内容分发量提升了 200%,人均时长提升了 45%,CTR 提升了 26%。

DocTag2Vec 模型学习更深层语意

语义分析和理解目前是 NLP 中比较重要且有难度的问题,知乎在语义分析和理解的工作就是在内容模型方面。知乎社区积累了很长时间的用户行为,包括点赞、反对、举报、绑定话题、修改话题等。这些行为某种程度上是对文本语料的一种标注,通过这种有监督的文本语料,知乎能学习到更好的语义表示,对于语言的理解可以达到一个更高的层次。“比如我们使用了两千万的问题和话题的 Pair 对,通过 DocTag2Vec 的模型学习词语的语义表示,并应用到了问题话题绑定、话题推荐、广告推荐等场景中。另外,我们还在应用这种语义的表示重建我们的话题层次结构和关系,这将有利于我们做更精准的内容推荐。”

商业乎场景中的机器学习应用

在商业化场景中,机器学习和深度学习的应用效果也比较明显。如在广告 CTR 预估系统中应用了语义表示之后,CTR 提升了 15% 以上。在知乎效果广告 CPC(Cost Per Click,以每点击一次计费)模式下,点击率 CTR 预估和召回机制是两个重要的机器学习应用场景。李大任告诉 AI 前线,知乎的效果广告业务在 CTR 预估模型方面,目前主要在采用 GBDT+FM 的混合模型来构建,为达到更好的效果,也正在尝试应用 end to end 的大规模深度学习网络;在召回方面则使用了多种机器学习技术,如使用 CNN 对知乎用户及内容进行主题分类,使用 word2vec 进行 word embedding,用于相关性过滤,等等。

连接:更好连接用户

为了更好地在用户之间建立联系,知乎会根据用户在知乎阅读的内容和关注的用户,建立一个超大规模的异构图,之后使用 Graph Embedding 方面的模型,对用户进行隐式表示的学习。通过这些表示,知乎能更精准地计算出两个用户之间的亲密度、兴趣的相似度,从而给用户做更准确的推荐,让用户更多地在社区里发生连接。

社区管理:瓦力 + 悟空 +...+ 人工

瓦力:社区管理的“大脑”

整个知乎社区管理的“大脑”,是一套名为瓦力的算法系统。它以知乎社区管理规范为标准,对违规内容进行评估处理。自上线至今,瓦力已经过多次的迭代更新,被应用多个使用场景中。

目前,瓦力有多个算法模型在实时运行,主要应用于不友善、答非所问、低质提问、色情低俗、违法违规等方面的治理。目前,这个系统可以做到:实时筛查并处理社区新生产内容中的不友善因素;结合知友们的举报,在 0.3 秒内识别判断被举报内容是否包含不友善因素,并做出相应处理;每天清理约 5000 条新产生的「答非所问」内容,以及此前现存的近 120 万条「答非所问」内容,还能实时对社区内提问进行筛查,每天处理约 900 条封建迷信、求医问药类的低质提问;能够识别色情图文、违法违规、垃圾广告等内容。

图 1 不友善内容处理系统框图

为提升低质内容的识别效率,知乎先后上线了敏感文本识别、敏感图片识别、不友善评论和回答识别、广告识别等。这些自动识别的背后都是深度学习的模型发挥着巨大的作用,以广告识别为例,上线了 Bi-LSTM-CRF 的序列化标注的深度学习模型之后,相比之前的规则系统,准确和召回提升了十个点以上。

算法 + 人工的管理方式

尽管瓦力在各个维度进行的社区治理准确度已超过 90%,但却是无法取代人工的,知乎也没有将内容和社区管理的任务全部集于算法一身,而是采用算法 + 人工的方式。对瓦力处理的内容,知乎会每天进行质检,同时也有专门的团队对于用户申诉进行复核和响应。

除了瓦力外,知乎还有反作弊系统悟空,和瓦力一样也可以提供 7*24 小时的服务,提升用户的使用体验,维护社区氛围。

据 AI 前线了解,知乎小管家目前是一个真人团队在管理,李大任告诉 AI 前线,这个部分不用机器人来取代人工的原因在于考虑到用户的感受,因为用户可能会不知道当你在和小管家交流时,在线上另一端的是一个人还是机器,这会影响到用户的体验。

产研相结合的模式

现在,很多企业和平台在采用 AI 时非常钟情于一种模式,即一方面公司通过自有平台进行研发,另一方面与拥有研发和师资力量的高校进行合作,把与业务相关但研发周期较长的项目放到高校中去进行。这样做的好处是在提高了自身的技术优势的同时,又能给高校学生一些真正的实践机会,对于双方都是双赢。

对于这种产研结合的模式,李大海也表示,“工业界和学术界结合一下,是非常好的事情,学术界缺少海量的真实数据,以及现实场景中的真实问题,而企业由于资源和业务优先级的原因,一些前沿的、长期来说重要的工作,又不能马上开展起来。在这种情况下,两者的合作是一个双赢的事情。”

知乎也在积极探索这种模式。一方面,知乎开放了一个对用户信息进行脱敏的数据集,所有科研机构都可以直接使用这个数据集来进行研究;另一方面,知乎与清华大学智能技术与系统国家重点实验室、北京大学语言计算与互联网挖掘实验室的老师进行了一些合作,其中就包括语义分析和理解方面的研究合作。

计算机视觉——提高图片审美

知乎作为一个内容平台社区,工程师们的工作很大一部分集中在自然语言处理上,但是随着用户的需求和审美不断提高,对于一个网站或平台的视觉要求也在不断提高。在计算机视觉方面,知乎也进行了一些尝试。

现在,当用户打开知乎页面时看到的不只有文本信息,还有文章的封面图,以及文章中的一些插图,以增强趣味性,避免单调乏味。知乎利用 ResNet 进行敏感低俗图片的识别,准确率达到 90% 以上。这大大地提升了人工审核的效率,每天可以自动过滤数千张以上的低质图片,同时还可以识别单色图、表情包,以及给图片质量进行打分,保证封面图的美观性。

未来规划:构建一个智能社区

知乎在接下来的主要目标,是构建一个智能社区。AI 已经深度参与到知乎社区内容分享和流通的每一个环节,让更多有价值的问题被提出,让最适合回答的用户被邀请,让更多分享见解、经验的欲望被激励,让更多专业、认真的知识被推荐,让更多人的好奇心被满足,让 1 亿 4000 万注册用户甚至数亿网民连接到一起。

“每个人大脑中的知识、经验、见解,总是另一群人非常想知道的东西,而知乎所做的一切,都是为了创造一种前所未有的「连接」,满足彼此的需求。这是我们的初心,也是长久的愿景。”李大海说道。这大概是知乎对自身最为准确的定位,以及最恰如其分的价值观描述了。

嘉宾简介

李大海,知乎合伙人兼高级副总裁,曾任谷歌中国软件工程师。从谷歌离职后连续创业,分别在云壤、豌豆荚担任技术管理工作。

李大任,知乎技术副总裁,领导知乎技术团队,负责搜索、内容推荐和 AI 模型方面的业务。

社区文化 & 方法AI